工程师指出:AI行业对模型规模的执念正在扼杀投资回报率
超大模型容易出错且成本高昂
企业的CIO们被生成式AI所宣称的“自治代理”和“全能系统”所迷住。然而,这些大模型所带来的复杂性,却也在推动错误、幻觉频发以及费用失控。
几乎所有主要的大模型厂商——OpenAI、微软、谷歌、亚马逊、Anthropic、Perplexity等——都在唱着同一首歌:模型越大,就越“神奇”。
但实际上,小得多的模型可能在可控性和可靠性方面表现更好。
澳大利亚金融机构ANZ的AI工程师Utkarsh Kanwat在一篇博客中指出,大型生成式AI模型在规模化部署时,在数学上是不可持续的。
他写道:“每一家做AI代理的公司都在回避一个不愿面对的真相:错误的累积效应使得自治的多步骤工作流在生产环境中在数学上根本不可行。”
“我们来做个数学题。如果每个代理步骤的成功率是95%(这个数字对现有大模型而言已经非常乐观),那么5个步骤的整体成功率只有77%,10个步骤下降到59%,20个步骤就只有36%。”
这意味着什么?
“生产系统需要的是99.9%以上的可靠性。即使你设法将每个步骤的成功率提升到99%(现在没有哪家能做到),20个步骤下来整体成功率也只有82%。这不是提示工程的问题,也不是模型能力的问题,而是数学本质的问题。”
多位分析师和生成式AI专家都支持Kanwat的观点。
Moor Insights & Strategy的首席分析师Jason Andersen表示,企业往往选择最省事的路线。如果大型模型厂商承诺能解决所有问题,企业就倾向于相信他们。但实际上,往往是那些更小、更专注的策略才能带来更好的结果。
他说:“这说明了在企业场景中,AI代理的真正价值在于对模型设定边界,从而赋予其明确的目的性。当你拥有一个设计良好、范围明确的生成式AI策略时,你更可能获得成功。”
Andersen指出:“模型越大,其准确性和可靠性就越难以保证。‘小而精、目标清晰’才是王道。那种‘松松垮垮、啥都能做’的方式不可取。走小而美的路线其实很有智慧。”
他还问CIO们:“你希望AI模型是‘驾驶员’,还是‘导航员’?”
以生成式AI驱动的“vibe coding(氛围编程)”为例,AI究竟是在帮助程序员,还是试图取代他们?
“这两种模式都有人类参与,但人类的角色不同:是主导,还是被动辅助?GenAI是在主导,还是人类在主导?”
Info-Tech Research Group的技术顾问Justin St-Maurice也认为,许多企业将注意力过度集中在大型模型上,实际上是在自找麻烦。
他说:“我们正在把AI代理嵌入到复杂的社会-技术系统中。这些代理系统容易形成反馈环路而失控,而大语言模型本身具有随机性。在发挥生成式AI能力的同时,必须建立规则来让其行为趋于确定性,这是一个平衡问题。”
Andersen举了个例子:就像公司招了个新员工,不去培训他团队的工作方式,而是让他自己摸索;当工作结果不如预期,公司就责怪这个新人,而不是那个不愿花时间培训他的高管。
Kanwat还表示,小模型即使是大规模部署,往往在成本上也更具优势,有时甚至价格更低。
他说:“上下文窗口带来了二次成本扩展,这使得对话式代理在经济上根本不可行。”
他用自身经验作例子:“每次新对话都要处理所有的历史上下文。token成本随着对话轮数呈二次方增长。一次100轮的对话,光token费用就高达50到100美元。”
“乘以成千上万的用户,这种经济模式就完全难以为继。我在开发一个对话式数据库代理时就踩了这个坑。最开始几次交互还很便宜,到第50次查询时,每条回复的成本已经比它带来的价值还高。这种经济模型在大多数场景下根本行不通。”
Kanwat还警告说,那些靠风投资金支撑、追求全自治代理的初创公司,将最早撞上“经济学之墙”。
他说:“他们的演示效果在五步流程下看起来不错,但客户会要求20步以上的复杂流程,这种流程在数学上是不可持续的。随着他们尝试解决这些无法解决的可靠性问题,烧钱速度会暴涨。”
Andersen也认同价格问题:“你给每个步骤添加的上下文越多,成本就越高。这是个对数定价模型。模型厂商很快就会被迫大幅提高对企业的收费标准。”
多位AI业内人士也纷纷发声。
AI厂商Sentient的联合创始人Himanshu Tyagi认为:“深度推理和高可靠性之间存在取舍。这两者应当共存,而不是互相竞争。大厂不会去构建这种共存结构,他们只会优化锁定客户。”
AI公司Lab 1的CEO Robin Brattel也指出,许多企业并未充分认识到小模型的优势。
他说:“专注于特定、小型应用的AI代理,其错误率更低,在实际生产中成功率更高。多步骤的AI代理在生产中将会遇到数据不一致和系统整合的严重问题,这会导致成本和错误率的双重上升。”
Brattel还具体建议IT部门在评估模型与代理选项时,关注以下因素:
“低精度要求:解决方案能否‘大致正确’?比如插画比代码容错率高,因为插画就算有20%的误差,也还是能用。”
“低风险:为生日卡生成一首诗,和自动驾驶相比,风险显然小得多。”
Sophos的全球现场CISO主管Chester Wisniewski也支持“小模型更优”的观点。
他在读完Kanwat的博客后第一反应是:“哈利路亚!”
他说:“Meta、谷歌、OpenAI这些公司在搞的大语言模型实验,不过是为了炫耀自己在人类生活中的‘神一般存在’。但如果你将神经网络专门训练来做一件事,它会做得更好、更快、更省钱。小模型效率更高。”
问题在于,构建大量小模型需要更多IT投入。相比之下,接受一个号称“无所不能”的大模型,要简单得多。
他补充说:“要训练这些小模型,需要大量懂行的数据科学家。”
甚至微软也承认,在很多场景下,小模型确实优于大模型。不过,该公司一位AI高管强调,前提是CIO团队需要制定出精准的AI战略。如果IT领导者尚未明确AI的具体用途,那使用大模型仍有意义。
微软AI企业副总裁Asha Sharma表示:“大模型依然是将一个模糊的商业问题快速转化为可运行软件的最快路径。一旦任务的轮廓清晰后,小模型在成本和速度方面都有优势。”
“聪明的公司不会盲目选边,而是会先建立统一的安全与可观测架构,然后根据质量、成本与延迟需求灵活选择不同模型。”
并非所有企业都一味追求大模型。例如,Capital One的生成式AI战略严格限制了其在内部数据范围内的使用,也大幅限制了可被查询的内容,仅限于数据库本身所知的领域。
Kanwat强调,大多数企业环境并不适合用来做GenAI实验:
“企业系统并不是那些等待AI代理来编排的干净API接口。它们是有各种小毛病的传统系统,有部分失败模式、随时变化的身份认证流程、会因时间不同而限流的接口,还有无法套进提示模板的合规要求。”
“那些在原有产品上草率加上AI代理的企业软件公司,将会发现其产品难以被采纳——因为代理无法深入集成、处理真正的业务流程。”
Kanwat总结说,更理想的企业AI方式不是“和你的代码聊天”,而是一个专注解决具体问题的高效工具。
Evan Schuman
评论