米兰app官网统共AI一网尽扫！学者出2500说念题，GPT-5得分25.3%，GPT-4o 2.7%

　　2 月 28 日，由群众近 1，000 名顶尖学者打造的 AI 新基准“东说念主类终末一次检会”（HLE，Humanity's Last Exam）的关连论文发在 Nature。这套新试卷遮掩数学、物理、化学、历史、话语、医学，每一齐题王人来兴盛师我方的征询界限，每一齐题王人有唯独正确的谜底，每一齐题也王人经过 AI 的教学，要是哪个 AI 省略答对，这说念题就会作废。

　　罢休呢？GPT-4o 只拿了 2.7%，Claude 3.5 Sonnet 4.1%，OpenAI 起先进的 o1 模子，8%。发布之后，更强的 Gemini 2.5 Pro 和 GPT-5 也来挑战，一个 21.6%，一个 25.3%。可谓是一网尽扫，莫得一个能合格。

　　之是以出这套新卷子，是因为刻下最智谋的大模子在那些曾难倒无数学生的检会里，还是省略考到 90 分以上。MMLU 这么一个包含 57 个学科、14，000 说念题诡计超难测试，AI 早就拿到了接近满分的收成。

　　因此，“东说念主类终末一次检会”的推出恰是为了跟上和相宜 AI 的发展。那么，这套题到底有多难？

　　有一齐题是一张古罗马墓碑的像片，上头刻着帕尔米拉笔墨，条目 AI 把它翻译出来。帕尔米拉是古代叙利亚的一个城市，有我方的话语和笔墨，然则咫尺还是没东说念主说了。翻译这种笔墨，需要懂古闪米特语、懂考古学、懂历史学。

　　另一齐题问：蜂鸟身上有一块特殊的籽骨，位于某块肌肉的腱膜里，这块骨头支撑着几根肌腱？谜底是数字。这就需要 AI 知说念蜂鸟的剖解结构，知说念那块骨头长在哪儿，知说念它连着几根肌腱，差少许王人不行。

　　还有一齐题是数学，对于当然变换和余端，内部充满了 Σ、∞、Hom 这些符号。题目自己还是复杂到让大大王人数学系学生平直跳过，但谜底条目却是精准数字。

　　这套题的遐想逻辑很泼辣。每一齐题提交之前，王人要让 AI 先作念一遍。要是 AI 作念对了，这说念题就不要。要是 AI 作念错了，才会干预东说念主工审核门径。审核要过两关，第一关是几个征询生水平的审稿东说念主提主张，第二关是行家拍板。通盘历程下来，1，000 个行家浪掷几个月，从几万说念题里筛选出了这 2，500 说念题。

　　如前所述，MMLU 还是无法知足刻下 AI 的发展。2020 年，MMLU 刚出来的时候，AI 只可考三四十分。到了 2023 年，GPT-4 平直飙到 86 分。咫尺，米兰简短一个开源模子王人能考到 90 分以上。当检会分数王人溢出来了，怎样测量 AI 的智谋进度呢？因此，得换一套更难的新卷子。

{jz:field.toptypename/}

　　“东说念主类终末一次检会”这套基准测试名字听着吓东说念主，但并不是字面真理，而是说这是 AI 终末一次可能考过的检会。比及 AI 哪天也在这套题上拿到 90% 的收成，确认它还是具备了行家级的学术才智。

　　那么，AI 咫尺不错考若干分？前边提到，最是非的 AI 也就检会 25% 操纵，距离 90% 还有很大的差距。何况更有真理的是，AI 不知说念我方不会。征询团队在让 AI 回复的同期给出信心分数，罢休大大王人 AI 明明答错了，却给出 80%、90% 的信心。这种过度自信特别危境，要是 AI 用在医疗和法律这些界限，而它不知说念我方不知说念，就会出现大问题。

　　还有少许值得正经。征询团队发现，推理模子在回复这套题的时候，想考时候越长，正确率越高。但当想考时候逾越一定长度，正确率反而下落了。这确认不是想得越久就越好，当想考时候逾越某个临界点，可能即是 AI 在瞎绕。这也给 AI 开垦提了个醒，以后弗成光拼推理时候，还得拼推理恶果。

　　这套题咫尺还是在网上公开了一部分，网址是 lastexam.ai。任何东说念主王人不错去望望这些题目长什么样，也不错望望我方能弗成答对几说念。固然，大部分东说念主可能不太能答对，因为题目正本即是给行家出的。

　　那么，这说念题对于 AI 开垦有什么用？

　　它就好比一面镜子，不错照出来 AI 到底有几斤几两。以后谁再声称我方的 AI 多是非，先拿这套题目考一下。考不外 25%，就谈不上脱落东说念主类。透过这套题也不错看了了 AI 擅长什么和不擅长什么。比如，从咫尺的得分来看，AI 在数学和猜想机上的阐扬稍好，然则在历史和话语上阐扬得惨绝人寰。

　　这确认 AI 的智能和咱们联想得还不相同。论文里有一句话写得很克制，AI 在这些行家级问题上阐扬很差，确认着实的智能还需要深度、需要险峻文、需要专科常识。那些以为 AI 立时就要总揽寰球的东说念主，通过尝试一下这套题目，可能就不相逢那么悲不雅。

　　好意思国德克萨斯 A&M 大学的助清醒说阮东（Tung Nguyen，音译）参与了出题，他写了 73 说念，是孝敬第二多的作家。他告诉媒体，这套题是一种斡旋 AI 的步调。它就好比是 AI 的入学检会，通过确立这套门槛，咱们不错知说念 AI 强在那处、弱在那处，才能造出更安全、更可靠的期间。同期，也确认了东说念主类的专科常识依然蹙迫。

　　参考尊府：

　　关连论文 https://www.nature.com/articles/s41586-025-09962-4

　　https://techxplore.com/news/2026-02-dont-panic-humanity-exam-begun.html#google_vignette

　　排版：胡巍巍

米兰app官网 统共AI一网尽扫！学者出2500说念题，GPT-5得分25.3%，GPT-4o 2.7%

米兰app官网统共AI一网尽扫！学者出2500说念题，GPT-5得分25.3%，GPT-4o 2.7%