AI大模型太多不会选?我们为大家整理了70多个AI评测榜单,竟然发现这才是最好的...
作者:微信文章最近我发现一件事:现在AI大模型越多,越牛逼,大家越不知道该怎么选。
在众多科技文章中,我们经常看到这样的语式:
.....在LM Arena 上遥遥领先!......刷榜 MMLU!......空降GLUE,断层第一 !......在 GitHub 上拿到了 1.7k Star,涨脸啦!......在LiveCodeBench杀疯了!!
你就说这一堆英文缩写到底是啥,懂的人知道这是AI评测榜单,不懂的话,真的是看不懂啊!
现在AI 大模型的发布,总是伴随着一连串“跑分”和“登顶”的新闻。换句话说,这就是目前科技圈的常态。
技术飞速进步是好,但作为用户真的是困惑了:这么多榜单,这么多“第一名”,这么多”杀疯了“,到底该信谁?“不明觉厉”之后,我们很容易陷入一种选择焦虑。
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
所以我们今天不聊AI大模型,反而聊聊这些榜单,看看它们到底在评什么?我们这些用户,该怎么看待榜单数据,以及,最重要的,我们能怎么利用榜单,找到适合我们自己AI大模型。
为啥榜单满天飞?
首先我们可以先想想,为啥汽车有碰撞测试、油耗排名?为啥餐厅有米其林、黑珍珠?说白了,就是东西复杂了,得找个法子比一比,分个三六九等。
就像我们评价一个人,不能只看他的考试总分,还要看他的体育成绩、艺术才华、沟通能力等等。(当然,不排除有些人就是可以成为六边形战士)
AI也是如此。作为开发者想全面了解模型,作为用户想找到满足特定需求的工具,大家想了解的内容各不相同。
所以评测AI不同能力的榜单就出现了。
有的模型,号称“通才”,琴棋书画样样精通,那就得拉到MMLU、HELM这种“高考”考场上溜溜;有的模型,是“偏科生”,比如写代码贼溜,或者数学题做得飞快,那就得去HumanEval、MATH这种“单科竞赛”里证明自己。
除此之外,还有榜单测AI“情商”高不高,能不能好好说话、写东西有没有“人味儿”,或者能不能看懂图片听懂话(多模态),甚至还要看看它会不会“学坏”(安全性)......榜单五花八门,形成了今天的AI评测江湖。
但AI的复杂性决定了AI大模型之间的比拼没有所谓的“绝对第一”。很难指望一个榜单来定乾坤。
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
所以我们需要明确一点:没有“最好”的榜单,只有“最适合自己需求”的榜单。
“看榜”的正确姿势
那么,面对五花八门的榜单,正确的“打开方式”是什么呢?关键就四个字:需求导向。
在被各种“第一名”晃花眼之前,先静下心来问问自己:“我到底想用 AI 来做什么?或者我想了解它的哪方面能力?”
如果你一下子茫然了,不慌,让我们先简单推理下:
如果你是程序员,想找个得力的编程助手?那像HumanEval、MBPP、CodeXGLUE这样专注于代码生成、理解和修复能力的榜单,就更值得你关注。
如果你是文字工作者,需要AI帮你写作、润色或者处理长文档? 那么像 MMLU (涉及人文社科知识)、一些评估长文本理解能力的测试,或者像Chatbot Arena 这样能反映真实对话和写作感受的“用户口碑榜”,可能更有参考价值。
如果你主要使用中文交流,关心模型“接地气”的程度?那C-Eval 这类专门为中文环境设计的榜单,就比很多以英文为主的国际榜单更能反映问题。可以看看国内的哪些大模型在这些榜单上表现更出色。
我们需要明白:大家觉得“好用”或者“强大”的模型,很可能不同。我们需要根据自己的关注点,去寻找适配的榜单。
为了帮助大家找到那个命定AI大模型,我们精心整理了一份涵盖众多主流 AI 评测榜单的详细表格——你可以把它看作一张帮你 Navigating AI 世界的“寻宝图”。
(关注公众号,后台私信回复“榜单”,可以获得完整Excel表格)
这张表格怎么用呢?抓住这几个关键信息:
1. 先按照“维度”和“评估重点”找关心的领域。
比如关心数学,就找“数学”、“推理”;关心代码,就找“编程”、“代码生成”。“评估重点”是“维度”的进一步的细分。
2. 找到倾向的榜单后,看“数据源” 和 “评判方式”,了解榜单的评测依据。
是用标准化的考试题库?还是让成千上万的真人用户来“盲投”打分?或是用自动化脚本跑代码让AI裁判看结果?了解这些,可以帮助我们判断这个榜单测试的“含金量”、侧重点以及可能的局限性。比如,纯客观题库可能无法反映真实对话能力,而真人打分又可能带有主观性。
3. 再看看“发起机构”,了解榜单的“江湖地位”。
是学术机构、大厂还是社区?亦或是某些热心网友自己打磨的试金石。
4. “模型排名 ”快速了解当前大致的“头部玩家”,建立一个初步的印象。当然精准实时的信息还是需要大家自己去榜单里看。
榜单虽好,合适自己的才是宝。
榜单背后的“秘密”
在整理这份“寻宝图”的过程中,我们也发现了一些有趣的现象,或许能让你对当前的 AI 格局有更深的理解。
一、不平衡的维度
一个很直观的现象就是,不同维度对应的榜单数量很不平衡。除了考察AI大模型基本能力的“通用能力”测试外,垂类领域中“数学”和”编程”是评测的"宠儿"。
<img />
不得不说,一个程序要么能运行,要么不能;一道数学题要么正确,要么错误。这种二元对立的评测结果更易于量化和比较。毕竟夸自己小孩优秀,不如直接说小孩考了双百,这样更容易得到大家的赞美。此外,大多数评测平台来自学术机构或技术社区,他们自然更关注技术指标而非用户体验。毕竟自家老师都在SCI上卷生卷死,小小AI怎么就能轻易放过。
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
但这种失衡可能导致AI发展的偏向性——擅长编程和数据处理,却在理解人类价值观和文化差异方面表现平平。
换句话说:我们正在用工程师的标准来评判给普通人使用的工具。
这也是为什么很多人在使用AI时,会感觉AI非常理性。如果没有特别的提示或者要求,它能把一个感情问题按照数学题一样分析,从字里行间中寻找线索,再大标题叠加小标题地给出建议。
二、从智商到情商
幸好,这个问题也越来越多的被大家发现。随着AI走向大众,一些新兴评测平台如LMSys Chatbot Arena和EQBench开始从"AI能做什么"转向测试"AI能为用户做什么"。换句话说,不只是测评AI的智商,也要考察它们的会不会说人话情商。
LMSys Arena,就像是AI评测界的“蒙面歌王”,管你什么来头,直接用实力征服用户。
比如,里面的经典模式就是——用户向两个匿名AI大模型提问,谁回答的好,票投给谁。
EQBench,则像是让AI参加文字版的“演员的诞生”——内置了很多对话场景,让AI解决其中的情感问题。换句话说,给定一个剧本开头和演员,让AI接戏。
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
那裁判是谁呢?竟然也是AI。比如Bench-3的测试组,裁判便是Sonnet-3.7和gpt-4o-2024-11-20。他们会根据被测模型在情景中的对话表现进行“AI情商”打分。
<img />
可以说,这些榜单评测方式的转变源于一个认识:普通用户与AI的互动方式与工程师截然不同。我们想用超强的AI,但如果是个“会说话”的强AI,高效办事的同时还能情绪价值拉满,谁又能拒绝呢?
三、语言和文化
虽然智商和情商是评测AI的基本盘,但对于目前的AI大模型,语言和文化也是影响用户使用的重要因素。
大多数主流评测平台由美国学术机构创建,评测内容也以英语为主,这导致了系统性的文化偏见。观察CMMLU和C-Eval这类专为中文设计的评测,我们常能看到与英语榜单完全不同的排名结果。一个在英文世界表现平平的模型,在中文环境中可能脱颖而出。
<img />
<img />
<img />
<img />
<img />
<img />
<img />
<img />
这不仅是语言问题,更是文化理解的差异。理解中国古诗、成语或网络文化需要特定的文化背景,这些在西方主导的评测中几乎被完全忽略。某些国际榜单上不起眼的模型可能表现突出,因为它们更了解中文网文的叙事风格和文化脉络。
所以,如果有小伙伴想要用AI搞创意写作,不妨多去看看不同的写作榜单,多去试用不同的AI产品。
Fiction.LiveBench就很让我们意想不到。因为它的发起机构Fiction.Live是一个在线互动小说网,小说走向由作者和读者共同决定,就很可能出现“相爱相杀,复活了,又相爱相杀,结果又穿越 "这样的离奇剧情。过程中就很需要AI帮忙续写。这也成了该榜单的考察重点。
四、开源与闭源
AI评测领域还呈现出开源与闭源的明显分化。从我们的分析来看,Claude、GPT-4和Gemini等商业闭源模型在多数榜单上占据前列,它们的综合能力确实强大,但使用成本也高。更值得注意的是,这些模型的训练方法和数据来源往往不完全透明,用户只能看到最终产品。
相比之下,HuggingFace展示的众多开源模型虽然在某些顶级榜单上尚不敌商业模型,但它们完全透明,可定制性强。令人欣喜的是,开源模型与闭源模型的差距正在缩小。
这里不得不夸夸阿里的千问模型。huggingFace前十乍一看认识的不多,但仔细溯源,就会发现它们的底模都是千问。强啊!
回到最初的问题:面对 AI 榜单,我们该信谁?
答案或许是:谁都别全信,也别都不信......没办法,这不就是这个世界的真相吗?
AI 榜单是衡量模型能力的重要参考,它们提供了相对客观的量化指标,帮助我们了解模型的长处和短板。但它们绝不是唯一的标准,更不能简单地将“榜单第一”等同于“最好”。
真正重要的是,我们要成为一个聪明的“看榜人”。利用我们提供的这份“寻宝图”和“需求导向”的方法论,结合我们自己的使用场景和判断标准,去独立思考,去探索发现。
毕竟林子大了,什么AI都有。以后不光要会看人,会看AI也很重要啊~
页:
[1]