AI
Notícias IA

Previsão do Próximo Conceito em Espaço Latente Discreto Resulta em Modelos de Linguagem Mais Robustas

Source:arXiv
Autor original:Yuliang Liu et al.
Previsão do Próximo Conceito em Espaço Latente Discreto Resulta em Modelos de Linguagem Mais Robustas

Imagem gerada por Gemini AI

Pesquisadores apresentaram o Next Concept Prediction (NCP), um novo método de pré-treinamento para modelos de linguagem, que foi implementado em seu modelo ConceptLM. O NCP prevê conceitos discretos ao longo de múltiplos tokens, aumentando a complexidade do treinamento. O ConceptLM, treinado com um número de parâmetros variando de 70 milhões a 1,5 bilhão em conjuntos de dados extensivos, demonstrou um desempenho superior em 13 benchmarks em comparação aos métodos tradicionais. Além disso, o NCP melhora o pré-treinamento contínuo, indicando seu potencial para o desenvolvimento de modelos de linguagem mais robustos.

A Previsão do Próximo Conceito Melhora o Desempenho do Modelo de Linguagem

Um novo paradigma de pré-treinamento generativo, a Previsão do Próximo Conceito (NCP), foi introduzido para aumentar as capacidades dos modelos de linguagem. O modelo, chamado ConceptLM, utiliza Quantização Vetorial para criar um vocabulário de conceitos e integra tanto o NCP quanto a Previsão do Próximo Token (NTP) para informar o processo de geração de tokens. Ele foi treinado do zero com tamanhos variando de 70 milhões a 1,5 bilhão de parâmetros, utilizando até 300 bilhões de pontos de dados.

Aumentos de Desempenho em Vários Benchmarks

Resultados de 13 benchmarks de avaliação demonstram que o NCP supera consistentemente modelos tradicionais em nível de token. Isso sugere que uma tarefa de pré-treinamento mais desafiadora, por meio da previsão de conceitos, fortalece significativamente as capacidades dos modelos de linguagem. Além disso, experimentos de pré-treinamento contínuo em um modelo Llama de 8 bilhões de parâmetros revelam que o NCP pode melhorar modelos inicialmente treinados usando NTP.

Tópicos relacionados:

Previsão do Próximo ConceitoConceptLMpré-treinamento generativomodelos de linguagemNTP.

📰 Fonte original: https://arxiv.org/abs/2602.08984v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo