Vorhersage des nächsten Konzepts im diskreten latenten Raum führt zu leistungsstärkeren Sprachmodellen

Von Gemini AI generiertes Bild
Forscher haben das Next Concept Prediction (NCP) eingeführt, eine neuartige Vortrainingsmethode für Sprachmodelle, die in ihrem Modell ConceptLM implementiert wurde. NCP sagt diskrete Konzepte über mehrere Tokens hinweg vorher, was die Trainingsherausforderung erhöht. ConceptLM, das mit 70 Millionen bis 1,5 Milliarden Parametern auf umfangreichen Datensätzen trainiert wurde, zeigt im Vergleich zu traditionellen Methoden eine verbesserte Leistung auf 13 Benchmarks. Darüber hinaus verbessert NCP das kontinuierliche Vortraining und deutet auf sein Potenzial hin, robustere Sprachmodelle zu entwickeln.
Nächste Konzeptvorhersage verbessert die Leistung von Sprachmodellen
Ein neues generatives Vortrainingsparadigma, die Nächste Konzeptvorhersage (NCP), wurde eingeführt, um die Fähigkeiten von Sprachmodellen zu steigern. Das Modell, genannt ConceptLM, verwendet Vektorquantisierung, um ein Konzeptvokabular zu erstellen, und integriert sowohl NCP als auch die Vorhersage des nächsten Tokens (NTP), um den Token-Generierungsprozess zu unterstützen. Es wurde von Grund auf neu trainiert, mit Größen von 70 Millionen bis 1,5 Milliarden Parametern und nutzt bis zu 300 Milliarden Datenpunkte.
Leistungssteigerungen über Benchmarks hinweg
Die Ergebnisse von 13 Bewertungsbenchmarks zeigen, dass NCP traditionell tokenbasierte Modelle konsequent übertrifft. Dies deutet darauf hin, dass eine herausforderndere Vortraining-Aufgabe durch die Vorhersage von Konzepten die Fähigkeiten von Sprachmodellen erheblich stärkt. Darüber hinaus zeigen kontinuierliche Vortrainingsexperimente mit einem 8-Milliarden-Parameter Llama-Modell, dass NCP Modelle verbessern kann, die ursprünglich mit NTP trainiert wurden.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.08984v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.