2022 年 ChatGPT 横空出世之后,国内外各家 AI 公司跟进步伐,训练出大量大语言模型(LLM)。两年过去,各家 LLM 的能力不断提升。不仅价格,LLM 智能水平也是用户选择 LLM 最关心的因素。
就像武侠世界论武功高低要看兵器谱排行榜,许多 LLM 评测榜单应运而生。
目前评测机制大概分两种。第一种类似学生考试,编制好的试题(评测数据集)让 LLM 做,看能做对多少题获得多少分。第二种类似足球联赛积分制,LLM 两两比拼一下,赢的一方得一分,比拼次数越多,排行榜上就体现高低差距了。
两种评测机制都能反映 LLM 的水平,但也都有些缺陷。
第一种考试机制可能出现的问题。一个是 LLM 可能提前拿到试题从而作弊。另一个问题产生自试题的难度,如果难度不变,但学生成长迅速,最后一帮学霸都考到接近 100 分,那就分不出水平高低。
第二种竞技机制,权威的就只 LMSYS 一家,采用 LLM 匿名回答,用户打分的办法。有些 LLM 可能智能稍低,但回答的输出格式、风格讨人喜欢,得分就会高。比如目前榜单第一的 Grok-3,逻辑推理能力不如 o1,但 Grok-3 的回答百无禁忌,用户体验就上去了。所以 LMSYS 的榜单不能只看总榜,还要关注控制风格 Rank (StyleCtrl) 以及各个专项的排名,如 Code、Math、Chinese 等。
汇总整理的 LLM 评测榜单见后文,大部分是目前比较独立、权威的机构。
我平时参考的最多的榜单如下:
我平时使用 LLM 最多的场景:翻译、查资料、总结文章、写文案、寻求建议,较少用到代码、推理能力。所以会重点关注『中文』、『写作』、『指令跟随』、『幻觉率』、『逻辑推理』、『语言理解』、『代码』这几个能力的评测。
其中我认为最重要的、最基础的、实现 AGI 必须的能力是『逻辑推理』。几万年前人类进化得到『想象』能力,能够对世界上的事物和过程进行抽象和思考,进而获得『逻辑推理』能力,经过几千年古代世界之后发展出『科学』,再经过几百年的认识和改造世界,到现在终于开始创造出类似人类自己的智能。近两年,LLM 从基础模型发展到推理模型,主要提升的就是『逻辑推理』能力。
很同意知乎用户『toyama nao』的观点,每个人应该根据自己所需,对大模型进行考察,不可盲信任何评测。我一般会根据榜单挑选能力合适的几个 LLM,再根据自身所需进行试用,对比体验,再确定哪个 LLM 作为常用工具。每个 LLM 可能能力偏重点不同,因此不同场景会使用不同 LLM。
The Big Benchmarks Collection,HuggingFace 汇总的大模型评测基准及榜单。
大模型综合能力评测对比表,DataLearner 汇总的当前主流大模型在各评测数据集上的表现榜单。
大模型编程能力评测对比表,DataLearner 汇总的当前主流大模型在编程水平上的表现榜单。
斯坦福大学开发的一个广泛应用于评估 LLM 能力的基准测试工具,旨在全面测试模型在多个学科和任务中的知识掌握和问题解决能力。MMLU 包含 57 个主题,涵盖基础数学、美国历史、计算机科学、法律、伦理等多个领域,难度从初级到高级不等,适用于不同水平的测试。
榜单特点:LLM 评测工具中的抗把子,类似手机跑分的安兔兔,国内外大厂 LLM 发布时都要展示一下跑分。
榜上最好国产 LLM:DeepSeek-v3 位列第 2(20250303 数据)。
HLE 是一个处于人类知识前沿的多模态基准,旨在成为此类学术基准的最终封闭式标准,涵盖广泛的主题。该数据集由2700个跨越百余个学科的具有挑战性的问题组成。评测结果分为准确度和校准误差,后者反应大模型的幻觉程度。
榜单特点:聚焦最强的几个多模态模型,难度最高的评测基准,据说满分就是 AGI 了。
榜上最好国产 LLM:DeepSeek-R 1 位列第 5(20250303 数据)。
AbacusAI 联合杨立昆(Yann LeCun)团队、英伟达等团队共同推出的评测平台,引入了一组不断演变的测试基准,无法被 AI 系统简单地记忆,被誉为“世界上第一个不可玩弄的 LLM 基准测试”。
LiveBench 旨在通过定期发布新问题以及基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介的问题来限制潜在的评测基准的污染。
榜单特点:评测试题是不断更新的,有效防止 LLM 提前做过试题。
榜上最好国产 LLM:DeepSeek-R 1 位列第 5(20250303 数据)。
HuggingFace 的开源大模型排行榜,对数量众多的开源 LLM 进行 6 个关键基准进行模型评估,包括:IFEval(指令跟随)、BBH(复杂逻辑推理)、MATH(高中竞赛数学)、GPQA(博士级专业知识)、MuSR(推理能力)、MMLU-PRO(多学科知识和任务表现)。
榜单特点:聚焦于 100 B 参数量以下的开源 LLM,方便本地部署选择。
榜上最好国产 LLM:Qwen2.5-72B-Instruct-abliterated,位列第 5(20250303 数据)。
伯克利大学建立的评测系统,目标是全面、公正地评估各种大型语言模型在函数调用任务上的表现。函数调用能力的好坏通常意味着模型在解决复杂任务时候对工具的正确使用情况,是构建AI Agent系统中大模型最为重要的能力之一。
榜单特点:测试 LLM 使用工具的能力,原始人学会了用工具从而进化,AI 也一样。
榜上最好国产 LLM:Qwen2.5-72B-Instruct 位列第 17(20250303 数据)。
由上海人工智能实验室研发的开源、高效、全面的评测大模型体系及开放平台,有专门的中文评测集。评测维度包含:语言、知识、推理、数学、代码、指令跟随。
榜单特点:完善可靠的国内 LLM 评测榜,榜单分为大语言模型和多模态模型,每隔两月更新一次。
榜上最好国产 LLM:目前 DeepSeek-R1 位列榜首(20250303 数据)。
智源 FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。评测维度包含:简单理解、知识运用、推理能力、数学能力、任务解决、安全与价值观。
榜单特点:完善可靠的国内 LLM 评测榜,具有大语言模型、多模态模型、金融量化交易榜单等多领域榜单,更新周期较久。
榜上最好国产 LLM:主观评测 Doubao-pro-32k 位列榜首,客观评测 o1-mini 位列榜首(20250303 数据)。
清华大学人工智能研究院基础模型研究中心,联合中关村实验室,发布的开源的大模型综合能力评测平台。评测维度包含:代码、对齐、安全、智能体、数理逻辑、指令遵循、社交只能。
榜单特点:评测的 LLM 数量较少,聚焦中文领域能力,每隔两月更新一次。
榜上最好国产 LLM:Qwen2.5-72B 位列第 5(20250303 数据)。
CLiB 中文大模型能力评测榜单,一个持续更新的 GitHub 项目。评测维度:分类能力、信息抽取、阅读理解、数据分析、指令遵从、算术运算、初中数学、符号推理BBH、代词理解CLUEWSC、诗词匹配CCPM、公务员考试、律师资格考试JEC-QA、高考、高中学科、初中学科、小学学科、常识推理、文本蕴含、成语理解、情感分析、演绎推理、C3中文阅读理解、医师考试之规培结业、医师考试之执业助理医师。
榜单特点:涵盖非常多类型的 LLM 排行榜,如『输出价格1~5元商用大模型排行榜』,更新很快。
榜上最好国产 LLM:目前综合榜中 Doubao-1.5-pro-32k-250115 位列榜首(20250303 数据)。
来自知乎用户 toyama nao 的个人评测,偏重作者个人使用偏好,侧重模型对逻辑,数学,编程,人类直觉等问题的测试,使用滚动更新的私有题库,每月更新评测。
榜单特点:作者个人向,测试题难度很高,评测 LLM 的极限能力。
榜上最好国产 LLM:目前 DeepSeek-R1 位列第 4(20250303 数据)。
Chatbot Arena LLM Leaderboard,当今 AI 大模型江湖的兵器谱排行榜,最有名气的榜单,目前大模型发布都要亮个榜单排名。由加州大学伯克利分校等高校联合创立的开放研究组织 LMSYS Org 开发的大模型评测平台,通过匿名对战和用户投票评估 LLM 性能。
榜单特点:采用众包反馈机制,让用户对不同模型对同样问题的回答进行打分,从而区分出大模型能力高低,排名更接近用户实际使用体验。
榜上最好国产 LLM:目前 DeepSeek-R1 位列第 6(20250303 数据)。
此排行榜(由 Vectara 提供)评估大型语言模型在总结文档时引入幻觉的频率。
目前榜单上幻觉率最低的 LLM 是 Gemini-2.0-flash-001(幻觉率 0.7),幻觉率最低的国产 LLM 是 DeepSeek-Chat(幻觉率 2.4),其他模型 DeepSeek-v3(幻觉率 3.9)、DeepSeek-R1(幻觉率 14.3)(20250303 数据)。
本文作者:tsingk
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!