当前位置：首页 >

AI 开始打工了：最新“龙虾排行榜”，谁最会干活？_模型_Agent_任务

人气：

过去两年，AI 圈讨论最多的一件事，其实很简单：哪个模型更聪明。

谁的推理更强，谁的考试分数更高，谁又刷新了哪个榜单。

但到了 2026 年，大家不太关心谁更聪明了，反而开始问一个更现实的问题：哪个模型更会干活？

随着 OpenClaw 这类 Agent 框架开始爆火，越来越多开发者不再只是和 AI 聊天，而是让大模型真正接管任务。

写代码、查资料、处理邮件、整理文件、调用 API，甚至自己拆解复杂流程，一步一步把事情做完。

在开发者圈子里，这事还有个特别形象的说法：养龙虾。

把模型接进 Agent 框架，就像往水箱里放一只龙虾，让它自己在里面跑任务、调工具、折腾工作流，看它到底能不能把活干明白。

那到底哪款大模型，最适合拿来“养龙虾”？

展开全文

最近，OpenClaw创始人 Peter Steinberger 发布了一份名为 PinchBench 的基准测试榜单。

一口气实测了 32 个主流大模型，从成功率、速度和成本三个维度做了完整对比。

这也成了目前第一份专门针对 Agent 任务的，“龙虾大模型排行榜”。

而榜单一出来，很多人第一反应都是：这排名，好像有点出乎意料。

从成功率来看，榜单第一名并不是大家常提到的“新模型”，而是 Anthropic 的旗舰模型 Claude Opus 4.6 。

它在 PinchBench 里的任务成功率达到了 82.5%。

紧随其后的，是 Claude Opus 4.5 ，成功率 81.3%。第三名则是谷歌的 Gemini 3.1 Pro Preview ，成功率 81.1%。

前三名基本都处在 80% 以上的成功率区间，差距非常小。

但更有意思的是接下来的排名，第四名是 Claude Sonnet 4 ，成功率 80.5%。

第五名则是国产模型 Kimi K2.5 ，成功率 80.1%。第六名是另一款国产模型 MiniMax M2.1 ，成功率 79.5%。

换句话说，在最核心的成功率指标里，国产模型已经稳稳进入第一梯队。

但有些模型的排名就有点出人意料了。例如 OpenAI 的新模型 GPT-5.4，成功率只有 78%，排在榜单第九。

而不少开发者平时常用的 GPT-4o ，成功率甚至只有 56.3%，排在榜单倒数。

这其实说明了一件很重要的事情：传统的大模型排行榜，并不能很好预测 AI 在 Agent 任务里的表现。

过去很多榜单本质上是“考试模式”，比如知识问答、数学推理、代码题，只要模型给出正确答案就算完成任务。

但在 Agent 系统里，AI 要做的事情完全不同，它不仅要理解指令，还要自己拆解任务、调用工具、读取文件、生成中间结果、执行多步骤操作。

如果中间任何一步出错，整个任务就可能失败。

换句话说，Agent 任务测试的不是模型“会不会答题”，而是它能不能真的像一个数字员工一样把事情一步一步做完。

从 PinchBench 的结果来看，还有一个非常明显的趋势：在 Agent 场景里，模型越大并不一定越好。

很多中型模型反而更稳定，因为它们推理速度更快、思考路径更短，在多步骤工作流中不容易“迷路”。

比如排名靠前的 Claude Sonnet 4 和 MiniMax M2.1 ，其实都不是各家公司体量最大的模型版本，但在真实任务中表现非常稳。

这也意味着大模型正在出现一种新的分工：旗舰模型负责展示极限能力，而中型模型开始承担真正的生产任务。

当然，说到养龙虾，还有一个所有开发者都绕不开的问题“成本”。

因为 Agent 系统远比普通聊天更烧 Token，模型需要反复思考、生成中间步骤、调用工具，一次完整任务的 Token 消耗可能是普通对话的几倍甚至十几倍。

之前在一次 OpenClaw 开发者聚会上，就有人分享过自己的使用账单：每个月光 Token 费用就要 1000 到 2000 美元，还有一位更夸张的玩家每天消耗 10 亿 Token。

所以现在开发者圈里流行一句玩笑话：安装 OpenClaw 很便宜，养龙虾很贵。

不过说到底，PinchBench 这份榜单最大的价值，其实也不只是排个名次。

它等于是第一次比较系统地回答了一个 Agent 时代很现实的问题：当AI真的开始出来打工了，我们到底该给它配哪种“大脑”？

更有意思的是，这背后其实反映出 AI 行业正在发生的一点小变化。以前大家评价 AI，很像在看考试成绩，谁分数高、谁榜单第一、谁又刷新纪录。

但现在慢慢不一样了，大家开始看的是另一件事：它到底能不能把活干完。

换句话说，AI 不再只是一个会聊天、会写几段文字的工具，而是越来越像一个可以被安排任务的数字员工。

所以现在开发者见面寒暄，很多时候都不是在问“你用哪个模型”，而是换成了一句更接地气的话：

你现在养了几只龙虾？ 🦞

参考资料：

OpenClaw、X、新智元等等

编辑：不吃麦芽糖

返回搜狐，查看更多

上一篇 : 电影《酱园弄·悬案》最大的问题出在哪？

下一篇 : MongoDB的缺点以及你为什么不使用MongoDB？

推荐资讯

2025-06-23MiniMax Week第三天推出通用 Agent，体验如何？对行业会带来哪些影响？
2025-06-23以色列是如何从三天前的不可一世要灭了伊朗到今天的哭哭啼啼要“为生存而战”的？
2025-06-23你在你男/女朋友的手机里发现过什么秘密？
2025-06-23Docker 如何搭建 Jenkins 构建环境？
2025-06-23怎么看待B站舞蹈区和某些风格比较暴露的up？
2025-06-23为什么我们的A股如此垃圾？
2025-06-23为何Microsoft能一直留在中国市场?
2025-06-23广东省肇庆市怀集县洪水后，赵一鸣零食店被哄抢，物资和收银机里面的几千块钱被哄抢一空，如何评价？
2025-06-23显示器选32还是27，2k还是4k?
2025-06-23可以分享一下你从互联网上获得的优质***吗?
2025-06-23胸大的女孩会自卑吗？
2025-06-23有什么单一功能的私有网盘？
2025-06-23为什么牛吃素可以长那么壮？而人不吃荤就不行？
2025-06-23从过去到现在有哪些名人属于晚节不保或者是让你由粉转黑？
2025-06-23维护一个大型开源项目是怎样的体验？
2025-06-23为什么苹果手机杀后台现象频繁？是内存不够、后台管理严格还是其他原因呢？

推荐产品

国外的女生为什么屁股都大？
大与翘是两种概念。东亚女性是屁股大，又大又扁，俗称扁平臀
这种裙子是不是对直男爆杀？
咋说呢，欧美款型的裙子欧美身材穿才是薄纱，在大街上见过瘦到特
软路由是否被过度神化？
有一说一openwrt我真玩不来，原生还好，想玩插件总会遇到
怎么学习前端开发？求推荐学习路线？
之前的文章《 Trae+Claude3.7 | 10分钟生成

热销产品