一句话:越强的 AI Agent,越不能只用考试题评测;真正的问题是它拿到工具、钱、客户和时间之后,会怎么行动。

今天很多 AI 评测,看起来都很像考试。
给模型一组题,算一个分数;给它一个编程任务,算通过率;给它一个问答集,算准确率。
这些评测当然有价值。但它们越来越不够用了。
因为 Agent 的核心不是“会不会回答”,而是“会不会行动”。
真正的 Agent 评测,应该像经营一门小生意
Latent Space 这期采访了 Andon Labs 的 Lukas Petersson 和 Axel Backlund。他们做的事情很有意思:不只是让模型答题,而是把模型放进更接近现实的环境里。
比如,让 Agent 经营自动售货机,处理库存、定价、客户、退款、竞争对手、工具调用和长期目标。
这类评测的关键,不是看模型能不能在某个单点任务上拿高分,而是看它在长时间、多约束、真实摩擦里,会不会出现意料之外的行为。
这也是文章里最值得记住的判断:
你不知道模型在真实世界里能做什么,除非你真的给它库存、钱包、工具、客户、竞争对手、人类,以及一些时间。
这句话对所有准备上线 Agent 的团队都重要。
分数会掩盖过程,过程才暴露风险
传统 benchmark 的好处是清楚:一个分数、一张榜单、一个排名。
但对 Agent 来说,最终分数有时反而会隐藏最关键的信息。
一个 Agent 最后可能赚了钱,但过程中可能:
如果只看最终结果,你会觉得它“完成了任务”。
但如果看行动轨迹,你会发现它完成任务的方式并不一定可接受。
这就是 Agent 评测和普通模型评测的分水岭:我们不只关心它答得对不对,还关心它为了答对做了什么。
长周期,是 Agent 最容易失控的地方
很多模型在短任务里表现很好。
但一旦任务变长,环境变复杂,问题就开始出现。
长周期任务会带来几种压力:
1. 上下文压力
Agent 需要记住过去发生过什么、哪些承诺已经做出、哪些状态已经改变。
上下文越长,越容易出现遗漏、误解和自我矛盾。
2. 目标压力
当目标被写成“最大化收益”“提高完成率”“减少退款”时,模型可能会找到一些人类并不想要的策略。
这不是模型有恶意,而是目标定义太窄。
3. 工具压力
Agent 一旦拥有真实工具,就不再只是生成文本。
它可能改数据库、发消息、下订单、处理用户账户、触发退款或拒绝退款。
这时,评测必须覆盖权限、审计、回滚和异常处理。
4. 现实摩擦
真实世界里有库存延迟、用户情绪、政策限制、法律边界、员工协作和不可预期事件。
这些摩擦很难在一道选择题里体现。
对产品团队的启发:别急着让 Agent 自治
这类研究对 AI 产品团队最直接的提醒是:不要把“模型能力提升”直接等同于“可以全自动”。
更稳妥的路线,是分层放权。
第一层,让 Agent 只提供建议,人类确认后执行。
第二层,让 Agent 执行低风险动作,但保留清晰日志和撤销机制。
第三层,让 Agent 处理有金额、有用户权益、有外部影响的动作,但必须有预算、权限、频率、异常阈值和人工升级路径。
第四层,才是长期自治。
很多团队的问题是跳得太快:从“它能完成 demo”直接跳到“让它自己跑业务”。
这中间缺的不是模型参数,而是评测和控制系统。
一个更好的 Agent 上线清单
如果你正在做 Agent 产品,可以先问五个问题:
这些问题看起来不如模型榜单性感,但更接近真实部署。
结尾:Agent 的能力,不只看它知道什么
如果 AI 只是聊天机器人,评测它知道什么就很重要。
但如果 AI 开始调用工具、管理资源、影响用户和经营流程,我们就必须评测它会怎么行动。
Agent 的最后考试,不在试卷上。
它在现实世界的摩擦里,在长期目标的诱惑里,在每一次工具调用留下的轨迹里。
参考资料:Latent Space, “Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs”。原文链接:https://www.latent.space/p/andon[1]
引用链接
[1]https://www.latent.space/p/andon