FLEx: Sprachmodellierung mit wenigen Beispielen und Erklärungen

Von Gemini AI generiertes Bild
Forscher haben FLEx (Few-shot Language Explanations) entwickelt, ein Verfahren, das die Leistung von Sprachmodellen verbessert, indem es eine kleine Menge sorgfältig ausgewählter erklärender Beispiele nutzt. Durch die Clusterung von Modellfehlern und die Zusammenfassung effektiver Korrekturen steigert FLEx die Genauigkeit bei Aufgaben wie der Lösung von Mathematikproblemen und der Beantwortung von Fragen, ohne dabei die Gewichtungen des Modells zu verändern. In Tests mit Datensätzen wie CounterBench und GSM8K übertraf FLEx die herkömmlichen Methoden des „Chain-of-Thought“-Promptings deutlich und reduzierte die Fehlerquote um bis zu 83 %. Dieser Ansatz könnte den Korrekturprozess in Bereichen, die Expertenwissen erfordern, erheblich vereinfachen.
FLEx führt Few-shot-Sprach-Erklärungen ein, um die Genauigkeit von Sprachmodellen zu verbessern
Ein neuer Ansatz, FLEx (Few-shot-Sprach-Erklärungen), zielt darauf ab, die Genauigkeit von Sprachmodellen durch die Nutzung minimaler erklärender Beispiele zu verbessern. FLEx identifiziert und wählt repräsentative Fehler, die vom Modell gemacht wurden, durch einbettungsbasierte Clustering-Methoden aus und überprüft die zugehörigen Erklärungen, um diese Fehler zu korrigieren. Das Ergebnis ist ein Prompt-Präfix, das zur Inferenzzeit hinzugefügt wird und das Modell anleitet, ähnliche Fehler in zukünftigen Eingaben zu vermeiden, ohne seine zugrunde liegenden Gewichte zu ändern.
Bewertung und Leistung
FLEx wurde mit drei Datensätzen evaluiert: CounterBench, GSM8K und ReasonIF. Die Ergebnisse zeigen, dass FLEx den traditionellen Ansatz der Ketten von Gedanken (CoT) konsequent übertroffen hat und bis zu 83 % der Fehler reduziert, die bei CoT-Prompting bestehen bleiben.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2601.04157v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.