论文

首页> 论文>

论文

OpenAI官方基准测试：承认Claude遥遥领先（狗头） 2025-04-03 19:36:00

OpenAI承认Claude是最好的了（狗头）。刚刚开源的新基准测试PaperBench，6款前沿大模型驱动智能体PK复现AI顶会论文，新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比，PaperBenc