
史上最难的大模子测试集来了!
包括 o1 在内,莫得任何一个模子得分越过 10%。

题目来自 500 多家机构的 1000 多名学者,最终入围的题目有 3000 多谈,一谈齐是商议生及以上难度。
入选的问题涵盖了数理化、生物医药、工程和社会科学等多种学科,按细分学科来算则多达 100 余个。
官方更是将它称为"东谈主类临了的现实",AI 安全中心主任 Dan Hendrycks 也用了这么的说法。

还有寰球首位请示词工程师 Riley Goodside 暗示,这才是闲适顶尖模子的数据集该有的难度。

o1 得分不到 10%
若是按照大学科来算,入选的题目不错分为八大类,其中占比最多的是数学(42%),然后是物理和生物医药(均为 11%)。

而且命题难度条目严格,必须要达到商议生难度,而且还要确保不成被检索到。
虽然题目还应当有明确的谜底和评判状貌,施展等绽开式问题不会入选。
具体难度,不错看几谈例题来感受下(翻译由 GPT-4o 生成)。
其中有些题目,还会查考模子的视觉才气,比如解读这种上古笔墨。

有些题目还需要和解视觉信息和文本共同清醒,比如在化学,越过是有机化学当中,需要用图来暗示关系物资的结构。

还少见学题预备机科学的题目,对推理的条目很高:

除了这些需要一定推理的任务除外,也有题目单纯查考学问储备,虽然并不代表难度低。

就算是关于限度内东谈主士,这些题目也达到了商议生难度,关于一般东谈主而言,可能连题齐读不懂。
o1 这么的强推理模子准确率唯有 9.1%,DeepSeek-R1 也置身到了袼褙榜之中,不外不复古多模态,因此得益是在纯文簿子集上赢得的。

但若是只比较纯文本任务,DeepSeek-R1 还是位列第一,况且比较于 o1 的上风变得更显明了。
而在非推理模子当中,Gemini 1.5 Pro 推崇最佳,然后是 Claude 3.5 Sonnet 和 Grok 2,GPT-4 哦排行垫底。

有模子答错,题目才气入选
这些题目不仅难度条目高,筛选的流程也相当严格。
这个状貌由 AI 安全中心和 Scale AI 发起,命题者来自全寰球 500 多家机构的,东谈主数多达上千东谈主。
波及的机构包括高校、商议所和企业,还有来自医疗机构的学者,以及一些孤立商议者等。
OpenAI、Anthropic、谷歌 DeepMind 以及微软商议院齐包括在其中。
团队网罗到的题目需要资格大模子和东谈主工的双重审查。

第一轮筛选在大模子上进行,若是其中有大模子答错非选择题,能够选择题平均准确率低于就地揣摸,则题目不错通过初筛。
在进行过 7 万屡次尝试之后,有 1.3 万谈题目插足了东谈主工审核顺序。
东谈主工审核一共分两轮,第一轮是各个限度的专科东谈主士(商议生以上学历),第二轮审核则由组织方以考中一轮中推崇出色的审核员共同进行。
最终有三千多谈题目入围,酿成了一个较大的大流派据集和一个较小的独到数据集,这些题目来自 500 多家机构中的 300 余家,东谈主数为 600 余东谈主。
另外据先容,每谈入选题目凭据评估情况,会赐与命题东谈主 500-5000 好意思元不等的奖励,也从侧面响应出了命题职责的复杂。(当今团队仍在摄取新题目投稿,但不再披发奖金)
这么的一套超难测试集,若是让前两天深陷舞弊外传的 o3 挑战一下,说不定就能看出真确水平了。
状貌主页:
https://lastexam.ai/
数据集:
https://huggingface.co/datasets/cais/hle
论文:
https://lastexam.ai/paper体育游戏app平台
