La previsione del concetto successivo nello spazio latente discreto porta a modelli linguistici più robusti.

Immagine generata da Gemini AI
I ricercatori hanno presentato il Next Concept Prediction (NCP), un nuovo metodo di preaddestramento per modelli di linguaggio, implementato nel loro modello ConceptLM. L'NCP prevede concetti discreti su più token, aumentando la complessità dell'addestramento. ConceptLM, addestrato con un numero di parametri che varia da 70 milioni a 1,5 miliardi su ampi dataset, mostra prestazioni superiori in 13 benchmark rispetto ai metodi tradizionali. Inoltre, l'NCP migliora il preaddestramento continuo, evidenziando il suo potenziale per lo sviluppo di modelli di linguaggio più robusti.
La Predizione del Concetto Successivo Migliora le Prestazioni dei Modelli Linguistici
Un nuovo paradigma di preaddestramento generativo, la Predizione del Concetto Successivo (NCP), è stato introdotto per potenziare le capacità dei modelli linguistici. Il modello, chiamato ConceptLM, utilizza la Quantizzazione Vettoriale per creare un vocabolario di concetti e integra sia NCP che la Predizione del Prossimo Token (NTP) per informare il processo di generazione dei token. È stato addestrato da zero con dimensioni che variano da 70 milioni a 1,5 miliardi di parametri, utilizzando fino a 300 miliardi di punti dati.
Incrementi di Prestazioni Attraverso i Benchmark
I risultati provenienti da 13 benchmark di valutazione dimostrano che NCP supera costantemente i modelli tradizionali a livello di token. Questo suggerisce che un compito di preaddestramento più impegnativo, attraverso la predizione dei concetti, rafforza significativamente le capacità dei modelli linguistici. Inoltre, esperimenti di preaddestramento continuo su un modello Llama da 8 miliardi di parametri rivelano che NCP può migliorare i modelli inizialmente addestrati utilizzando NTP.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2602.08984v1
Tutti i diritti e i crediti appartengono all'editore originale.