离散潜在空间中的下一个概念预测推动了更强大的语言模型的发展

Gemini AI生成的图像
研究人员提出了一种新的预训练方法——下一概念预测(Next Concept Prediction,简称NCP),并在其模型ConceptLM中实现了该方法。NCP通过在多个标记之间预测离散概念,提升了训练的挑战性。ConceptLM在70M到15亿参数的范围内,利用大量数据集进行训练,相较于传统方法在13个基准测试中展现出了更优的性能。此外,NCP还增强了持续预训练的效果,显示了其在开发更强大语言模型方面的潜力。
下一概念预测提升语言模型性能
一种新的生成性预训练范式,下一概念预测(NCP),被引入以增强语言模型的能力。这种名为ConceptLM的模型采用向量量化技术创建概念词汇,并结合NCP和下一标记预测(NTP)来指导标记生成过程。它从零开始训练,参数规模从7000万到15亿不等,利用多达3000亿个数据点。
基准测试中的性能提升
来自13个评估基准的结果表明,NCP始终优于传统的标记级模型。这表明,通过预测概念的更具挑战性的预训练任务显著增强了语言模型的能力。此外,在一个拥有80亿参数的Llama模型上进行的持续预训练实验显示,NCP能够提升最初使用NTP训练的模型。
相关主题:
下一个概念预测NCPConceptLM语言模型预训练任务
📰 原始来源: https://arxiv.org/abs/2602.08984v1
所有权利和署名均属于原出版商。