AIpolisAIpolis · AI政见
返回
产品发布2026年6月11日 07:16· 美国

意外逆转:GPT-5.5 在严苛新基准测试中击败 Claude Fable 5

摘要

加州大学伯克利分校RDI中心与300多位专家推出Agents’ Last Exam(ALE)基准测试,旨在衡量AI执行经济价值高的长周期专业工作流的能力。OpenAI的GPT-5.5以24.0%通过率位居榜首,击败Anthropic新发布的Claude Fable 5(22.0%)。ALE设计用于弥合学术基准与实际劳动力影响之间的差距,结果显示最先进模型仍基本失败。

为什么值得关注

该事件展示了AI模型在复杂专业任务上的最新排名变化,涉及OpenAI和Anthropic两大关键公司。

来源链接

本站内容来自官方与权威媒体等公开来源,经 AI 辅助整理后自动发布,仅供信息参考,不构成任何投资建议。

相关市场反应

以下为相关公司的市场参考信息,不构成任何投资建议。

OpenAI
未上市 / 私有
Anthropic
未上市 / 私有