研究：排名最新大型语言模型的平台可能不可靠

•

原作者:Adam Zewe | MIT News

•

2026年2月9日

Gemini AI生成的图像

希望实施大型语言模型（LLMs）的企业，如今可以选择的方案琳琅满目。这些模型数量众多，各具特色，能够满足不同的需求。这样的多样性使企业能够挑选出最符合其运营要求的模型，从而提升信息处理效率，改善客户交流体验。

研究：排名最新LLM的平台可能不可靠

一项最新研究表明，为大型语言模型（LLM）设计的排名平台可能无法为寻求实施这些技术的组织提供可靠的评估。模型性能评估中的显著差异引发了对依赖准确排名来选择适合应用的LLM（如总结销售报告和管理客户咨询）的企业的担忧。

研究中识别出的主要问题包括：

寻求利用LLM的组织被建议谨慎对待排名，并在承诺使用特定模型之前进行自己的评估或试点测试。