TruthfulLM: Verifying and Ensuring Truthfulness in Large Language Models
- Contact:
Nicholas Popovic
- Funding:
BMBF
- Partner:
Aleph Alpha
- Startdate:
1 Juli 2023
- Enddate:
31 Dezember 2023
Dieses Forschungsprojekt konzentriert sich auf die Verbesserung der faktischen Korrektheit von Text, der von Sprachmodellen wie ChatGPT erzeugt wird. Der derzeitige Ansatz zur Verbesserung der Qualität des generierten Textes ist das Reinforcement Learning from Human Feedback (RLHF), das nicht unbedingt auf sachliche Richtigkeit optimiert ist und das Problem der Halluzinationen indirekt angeht. Das Risiko, sich ausschließlich auf RLHF zu verlassen, um bessere Modelle zu entwickeln, besteht darin, dass es unbeabsichtigt Fehlinformationen als legitim erscheinen lässt, anstatt sie zu vermeiden. Daher besteht das zentrale Ziel dieses Projekts darin, Methoden zu entwickeln und zu bewerten, die die Ausgabe von Sprachmodellen kontinuierlich auf faktische Korrektheit überprüfen und eventuelle Ungenauigkeiten automatisch korrigieren. Der vorgeschlagene Ansatz baut auf einem früheren Mikroprojekt von Aleph Alpha und KIT-AIFB auf, bei dem es darum ging, strukturierte Informationen aus einem Text zu extrahieren und sie mit einem Wissensgraphen zu vergleichen, um die Richtigkeit des generierten Textes zu überprüfen. Im Falle von Halluzinationen korrigiert die Methode alle Ungenauigkeiten mit Hilfe von wissensgraphenbasierten Dekodierungsstrategien. Dieser Ansatz kann auf vortrainierte Sprachmodelle ohne weiteres Training angewendet werden, was die Effizienz und Anwendbarkeit deutlich erhöht, da das Training der energie- und kostenintensivste Teil der Modellentwicklung ist.