AI
Noticias IA

La predicción del siguiente concepto en un espacio latente discreto mejora los modelos de lenguaje.

Source:arXiv
Autor original:Yuliang Liu et al.
La predicción del siguiente concepto en un espacio latente discreto mejora los modelos de lenguaje.

Imagen generada por Gemini AI

Investigadores han presentado Next Concept Prediction (NCP), un novedoso método de preentrenamiento para modelos de lenguaje, implementado en su modelo ConceptLM. NCP predice conceptos discretos a través de múltiples tokens, lo que incrementa el desafío del entrenamiento. ConceptLM, entrenado con entre 70 millones y 1.5 mil millones de parámetros en extensos conjuntos de datos, muestra un rendimiento superior en 13 benchmarks en comparación con métodos tradicionales. Además, NCP mejora el preentrenamiento continuo, lo que sugiere su potencial para el desarrollo de modelos de lenguaje más robustos.

La Predicción del Siguiente Concepto Mejora el Rendimiento del Modelo de Lenguaje

Se ha introducido un nuevo paradigma de preentrenamiento generativo, la Predicción del Siguiente Concepto (NCP), para potenciar las capacidades de los modelos de lenguaje. El modelo, denominado ConceptLM, emplea Cuantización Vectorial para crear un vocabulario de conceptos e integra tanto NCP como Predicción del Siguiente Token (NTP) para informar el proceso de generación de tokens. Ha sido entrenado desde cero con tamaños que van desde 70 millones hasta 1.5 mil millones de parámetros, utilizando hasta 300 mil millones de puntos de datos.

Aumentos en el Rendimiento a través de los Benchmarks

Los resultados de 13 benchmarks de evaluación demuestran que NCP supera consistentemente a los modelos tradicionales a nivel de token. Esto sugiere que una tarea de preentrenamiento más desafiante a través de la predicción de conceptos fortalece significativamente las capacidades de los modelos de lenguaje. Además, los experimentos de preentrenamiento continuo en un modelo Llama de 8 mil millones de parámetros revelan que NCP puede mejorar modelos inicialmente entrenados utilizando NTP.

Temas relacionados:

Predicción del Siguiente ConceptoNCPConceptLMCuantización Vectorialmodelos de lenguaje más potentes

📰 Fuente original: https://arxiv.org/abs/2602.08984v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo