一次成功率才是硬指标
把 Agent 的能力列表做长很容易,把一次成功率做高很难。一次成功率——用户发出指令后,Agent 不需要追问、不需要纠错、不需要重试就能完成任务的概率——才是 Agent 产品真正该盯的指标。这不是工程指标,这是信任指标。
用户不会统计 Agent 成功了 47 次,但一定会记住 Agent 连续两次搞砸的那个下午。人类对失败的记忆比成功深刻得多:一次失败带来的信任损毁,往往需要多次成功才能修复。这意味着 Agent 产品的一次成功率如果从 95% 掉到 85%,用户的主观感受不是「还行,大多数时候能用」,而是「这东西不太靠谱」。Agent 产品卖的是用户放手的能力,而放手的前提是不需要时刻盯着。
一个常见的产品误区是以为可以用「让用户确认每一步」来弥补一次成功率低。展示 diff 或让用户审批,只有在 Agent 大部分时候是对的时才成立——它是一种边界标记,不是质量兜底。如果 Agent 每做一个动作都需要你检查,你很快就会从「我在用一个智能助手」滑向「我在管一个不靠谱的实习生」。一旦用户心智滑过去,就很难滑回来。
值得留意的是,最好的 Agent 产品正在悄悄缩小自己的能力范围。不是做不了更多,而是选择不做——把有限的可靠性预算集中在最高频、最确定的任务上。一次成功率 95% 的窄 Agent,比一次成功率 60% 的全能 Agent 更容易变成日常习惯。 Agent 产品的护城河不是能做的任务数量,是用户敢放心交给它的任务数量。
可以问一个小问题:你现在用的 Agent 产品里,上一次它搞砸时,你是原谅了继续用,还是默默切回了手动操作?