产品发布2026年6月11日 07:16· 美国

意外逆转：GPT-5.5 在严苛新基准测试中击败 Claude Fable 5

摘要

加州大学伯克利分校RDI中心与300多位专家推出Agents’ Last Exam（ALE）基准测试，旨在衡量AI执行经济价值高的长周期专业工作流的能力。OpenAI的GPT-5.5以24.0%通过率位居榜首，击败Anthropic新发布的Claude Fable 5（22.0%）。ALE设计用于弥合学术基准与实际劳动力影响之间的差距，结果显示最先进模型仍基本失败。

为什么值得关注

该事件展示了AI模型在复杂专业任务上的最新排名变化，涉及OpenAI和Anthropic两大关键公司。

来源链接

https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

⚠ 本站内容来自官方与权威媒体等公开来源，经 AI 辅助整理后自动发布，仅供信息参考，不构成任何投资建议。

摘要

为什么值得关注

来源链接

相关市场反应