AI Agent:从万能神话到务实工具——为什么说 2025 年的革命不会是你想象的那样
目录
2025年,几乎所有科技媒体都在预言,这将是“AI Agent之年”。“自主AI将变革工作”、“代理是下一个前沿”……这些标题充斥着我们的信息流,描绘了一个由无所不能的AI助手主导的未来。然而,当我们从云端的炒作回到满是泥泞的现实,尤其是听取那些日夜奋战在一线的AI工程师的声音时,一幅截然不同的画面浮现出来。
最近,一篇由构建了超过12个生产级AI代理系统的工程师Utkarsh Kanwat撰写的文章《Why I’m Betting Against AI Agents in 2025》引起了广泛关注。他并非AI怀疑论者,恰恰相反,他是一位深度实践者。正是这些宝贵的实践经验,让他对当前“完全自主”的AI Agent神话提出了三个根本性的挑战。
这篇文章,将深入剖析这三大挑战,并探讨什么才是AI Agent在当前技术水平下真正可行且能创造价值的路径。
1. 可靠性的数学陷阱:指数级累积的错误率 #
这是AI Agent最不为人知、也最致命的“阿喀琉斯之踵”。
我们对单个AI任务的成功率感到乐观。一个先进的LLM在单步任务中可能达到95%的准确率,这听起来相当不错。但问题在于,一个有意义的“自主”工作流,绝不是一步就能完成的。
文章作者算了一笔简单的数学账:
- 5个步骤的工作流,总成功率是
0.95^5 ≈ 77%
- 10个步骤的工作流,总成功率是
0.95^10 ≈ 59%
- 20个步骤的工作流,总成功率骤降至
0.95^20 ≈ 36%
36%的成功率在任何生产环境中都是一场灾难。而企业级应用追求的是99.9%甚至更高的可靠性。即便我们奇迹般地将每一步的成功率提升到99%,在20步之后,总成功率也只有82%。
这并非简单的“提示工程”或“模型能力”问题,这是一个基础的数学现实。 任何试图将十几个不确定性步骤串联起来并期望其“自主”可靠运行的系统,都在与数学规律作对。
2. 成本的经济学黑洞:二次方增长的Token #
如果说可靠性是技术上的“硬墙”,那么成本就是经济上的“死刑”。
当前流行的“对话式”AI Agent,其核心机制是让模型记住上下文。这意味着,每一次新的交互,AI都必须处理之前所有的对话历史,以确保连贯性。这导致了一个灾难性的后果:Token成本随着对话长度呈二次方(Quadratic)增长。
文章作者提到,一个包含50-100轮对话的会话,光是Token成本就可能高达数十甚至上百美元。对于个人用户来说这难以承受,对于需要服务成千上万用户的企业来说,这简直是天文数字。
这解释了为什么许多看似惊艳的AI Agent演示,始终无法大规模商业化。它们在经济上是不可持续的。
3. 工具与集成的工程现实:70%的“隐形工作” #
即使我们暂时忽略可靠性和成本问题,AI Agent还会撞上第三堵墙:工程现实。
许多人误以为,实现AI Agent就是让大模型去调用各种API。但作者尖锐地指出,AI的成功只占30%,剩下70%的工作在于工具工程(Tool Engineering)。
这包括:
- 为AI设计反馈机制: API的返回值必须是AI能理解的结构化信息,而不是给人类看的原始数据。例如,数据库查询返回1万行数据,AI需要的不是这1万行数据本身,而是“查询成功,返回1万行,这是前5行摘要”这样的反馈。
- 处理局部失败与恢复: 当一个工具调用失败时,如何给AI提供恰到好处的信息让它能进行恢复?信息太少它会卡住,信息太多又会污染上下文窗口。
- 应对真实世界的混乱: 企业的系统充满了遗留代码、不稳定的认证流程、动态的速率限制和复杂的合规要求。这些都不是一个简单的API调用能解决的。
那些声称“连接你的API,我们的Agent就能搞定一切”的公司,往往低估了这70%的隐形工作。集成,才是AI Agent走向死亡的“坟场”。
回归现实:什么才是真正有效的AI Agent? #
在指出了重重困难后,文章给出了真正有价值的出路。成功的AI Agent并非追求完全自主,而是遵循一个清晰的模式:
AI负责处理复杂性,人类负责保持控制,而传统软件工程负责保障可靠性。
这更像是一种“人机协作”的“半人马(Centaur)”或“副驾驶(Co-pilot)”模式。
- UI生成Agent: AI负责将自然语言翻译成复杂的React组件代码,但最终由人类工程师审查、修改并决定是否部署。
- 数据库Agent: AI负责将业务需求翻译成复杂的SQL查询,但在执行任何破坏性操作(如删除、修改)前,必须得到人类的明确批准。
- DevOps Agent: AI负责生成基础设施即代码(IaC)的配置文件(如Terraform),但这些代码会被纳入版本控制,并由成熟的CI/CD流水线进行审查、测试和部署,具备一键回滚的能力。
这些成功的系统,无一例外地将AI的能力限制在有明确边界、可验证、可回滚的环节内。它们不是要取代人,而是要成为增强人类能力的、极其强大的专用工具。
我的观点与总结 #
Utkarsh Kanwat的文章是对AI领域一次宝贵且及时的“祛魅”。它告诉我们,技术的发展并非线性地“大力出奇迹”,而是充满了现实的约束和权衡。
我认为,对AI Agent的未来,我们应该抱持一种“务实的乐观”。
- 告别“万能代理”幻想: 市场将很快意识到,能够“自主处理一切”的通用代理在短期内是不切实际的。
- 拥抱“超级工具”时代: 未来的赢家,将是那些专注于特定领域、构建有明确边界、高可靠性、且与人类工作流无缝集成的“AI增强型工具”的公司。
- 重新重视工程价值: AI的落地,最终还是要回归到坚实的软件工程基础上。如何设计容错、管理成本、保障系统稳定性,这些传统议题在AI时代将变得愈发重要。
AI Agent的革命正在发生,但它不会像科幻电影那样,出现一个无所不能的数字仆人。它更像是一场静悄悄的工具革命,为我们提供一系列前所未有的强大“杠杆”,让我们能够撬动以往无法企及的复杂性。
这个未来虽然不那么戏剧化,但它更加坚实,也远比当下的炒作更有价值。