La prédiction du concept suivant dans un espace latent discret renforce les modèles linguistiques.

•

Auteur original:Yuliang Liu et al.

•

9 février 2026

La prédiction du concept suivant dans un espace latent discret renforce les modèles linguistiques.

Image générée par Gemini AI

Des chercheurs ont présenté le Next Concept Prediction (NCP), une nouvelle méthode de préentraînement pour les modèles de langage, intégrée dans leur modèle ConceptLM. Le NCP prédit des concepts discrets à travers plusieurs tokens, ce qui renforce le défi de l'entraînement. ConceptLM, entraîné avec des paramètres variant de 70 millions à 1,5 milliard sur des ensembles de données étendus, démontre des performances améliorées sur 13 benchmarks par rapport aux méthodes traditionnelles. De plus, le NCP améliore le préentraînement continu, ce qui indique son potentiel pour le développement de modèles de langage plus robustes.

La Prédiction du Concept Suivant Améliore la Performance des Modèles de Langage

Un nouveau paradigme de préentraînement génératif, la Prédiction du Concept Suivant (NCP), a été introduit pour renforcer les capacités des modèles de langage. Le modèle, nommé ConceptLM, utilise la Quantification Vecteur pour créer un vocabulaire de concepts et intègre à la fois la NCP et la Prédiction du Prochain Jeton (NTP) pour informer le processus de génération de jetons. Il a été entraîné depuis le début avec des tailles allant de 70 millions à 1,5 milliard de paramètres, en utilisant jusqu'à 300 milliards de points de données.

Améliorations de Performance à Travers les Référentiels

Les résultats de 13 référentiels d'évaluation montrent que la NCP surpasse systématiquement les modèles traditionnels au niveau des jetons. Cela suggère qu'une tâche de préentraînement plus difficile grâce à la prédiction de concepts renforce considérablement les capacités des modèles de langage. De plus, des expériences de préentraînement continu sur un modèle Llama de 8 milliards de paramètres révèlent que la NCP peut améliorer les modèles initialement entraînés en utilisant la NTP.

Sujets connexes :

Prédiction du Concept SuivantConceptLMpréentraînement génératifNTPmodèles linguistiques

📰 Source originale : https://arxiv.org/abs/2602.08984v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit