高德纳分析——GPT-5 已问世,但支持真正AI应用的基础设施尚未就绪
打个比方:美国的高速公路直到 1956 年后才出现,这是由德怀特・D・艾森豪威尔总统政府构想的 —— 然而,像保时捷、宝马、捷豹、法拉利等超快、超强动力的汽车早已存在了几十年。
高德纳杰出副总裁分析师阿伦・钱德拉塞卡兰(Arun Chandrasekaran)对 VentureBeat 表示:“我们所做的只是为汽车制造了一些非常好的发动机,然后就变得超级兴奋,仿佛我们已经拥有了功能完备的高速公路系统。”
这在某种程度上导致了像 OpenAI 的 GPT-5 等模型的能力趋于停滞:虽然这是向前迈出的重要一步,但它仅隐约显露出真正智能体人工智能的微光。
GPT-5 在三个关键领域有所提升
高德纳称,显然 OpenAI 在 GPT-5 上取得了进展,包括在编码任务和多模态能力方面。钱德拉塞卡兰指出,OpenAI 已转向让 GPT-5 在编码方面 “表现出色”,显然是察觉到生成式人工智能在企业软件工程领域的巨大机遇,并瞄准了竞争对手 Anthropic 在该领域的领先地位。
同时,钱德拉塞卡兰指出,GPT-5 在文本之外的模态(尤其是语音和图像)方面的进步,为企业提供了新的集成机会。
由于工具使用能力的提升,GPT-5 在人工智能智能体和编排设计方面也有了细微的进步:该模型可以调用第三方 API 和工具,并能进行并行工具调用(同时处理多项任务)。不过,钱德拉塞卡兰指出,这意味着企业系统必须有能力在单个会话中处理并发的 API 请求。
他表示,GPT-5 中的多步骤规划允许更多业务逻辑存在于模型内部,减少了对外部工作流引擎的需求,其更大的上下文窗口(免费用户为 8K,每月 20 美元的 Plus 用户为 32K,每月 200 美元的 Pro 用户为 128K)能够 “重塑企业人工智能架构模式”。
这意味着,以前依赖复杂的检索增强生成(RAG)管道来规避上下文限制的应用程序,现在可以直接向模型传递更大的数据集,并简化一些工作流程。但这并不意味着 RAG 无关紧要;钱德拉塞卡兰指出:“只检索最相关的数据仍然比总是发送大量输入更快、更具成本效益。”
高德纳认为,一种混合方法正在兴起,这种方法对检索的要求不那么严格,开发人员将使用 GPT-5 来处理 “更大、更杂乱的上下文”,同时提高效率。
在成本方面,GPT-5 “显著” 降低了 API 使用费用:顶级成本为每 100 万个输入令牌 1.25 美元,每 100 万个输出令牌 10 美元,这使其与 Gemini 2.5 等模型相当,但大大低于 Claude Opus。不过,钱德拉塞卡兰建议,GPT-5 的输入 / 输出价格比高于早期模型,人工智能领导者在考虑将 GPT-5 用于高令牌使用场景时应考虑到这一点。
与之前的 GPT 版本告别(某种程度上)
最终,GPT-5 旨在最终取代 GPT-4o 和 o 系列(它们最初被停用,后来由于用户的反对,OpenAI 重新推出了一些)。高德纳指出,三种模型尺寸(pro、mini、nano)将允许架构师根据成本和延迟需求对服务进行分层:小型模型可以处理简单查询,完整模型可以处理复杂任务。
然而,输出格式、内存和函数调用行为的差异可能需要代码审查和调整,而且由于 GPT-5 可能会使一些以前的解决方法过时,开发人员应该审核他们的提示模板和系统指令。
钱德拉塞卡兰说,通过最终停用以前的版本,“我认为 OpenAI 试图做的是将这种复杂性从用户那里抽象出去。我认为,通常我们并不是做出这些决定的最佳人选,有时我们甚至可能会做出错误的决定。”
逐步淘汰背后的另一个事实是:“我们都知道 OpenAI 存在算力问题,” 他说,因此 OpenAI 与微软、甲骨文(星际之门项目)、谷歌等公司建立了合作关系,以提供计算能力。运行多代模型需要多代基础设施,这会带来新的成本影响和物理限制。
采用 GPT-5 的新风险与建议
高德纳指出,OpenAI 声称与之前的模型相比,GPT-5 的幻觉率降低了高达 65%;这有助于降低合规风险,使该模型更适合企业用例,其思维链(CoT)解释支持可审计性和监管合规性。
同时,这些较低的幻觉率以及 GPT-5 的高级推理和多模态处理能力可能会加剧滥用,例如生成高级骗局和钓鱼信息。分析师建议,关键工作流程仍需由人工审核,即使抽样减少。
该公司还建议企业领导者:
- 在关键任务用例中试点和基准测试 GPT-5,与其他模型进行并行评估,以确定在准确性、速度和用户体验方面的差异。
- 监控诸如 “氛围编码” 等可能导致数据暴露的做法(但不要冒犯他人,也不要冒着出现缺陷或防护失效的风险)。
- 修订治理政策和指南,以应对新的模型行为、扩大的上下文窗口和安全的输出,并校准监督机制。
- 试验工具集成、推理参数、缓存和模型大小以优化性能,并使用内置的动态路由来为正确的任务选择正确的模型。
- 针对 GPT-5 的扩展功能审核和升级计划。这包括验证 API 配额、审计跟踪和多模态数据管道,以支持新功能和增加的吞吐量。严格的集成测试也很重要。
智能体不仅需要更多计算能力,还需要基础设施
钱德拉塞卡兰指出,毫无疑问,智能体人工智能(agentic AI)是 “当今的超级热门话题”,也是高德纳《2025 年生成式人工智能炒作周期》中投资最多的领域之一。与此同时,这项技术已经达到了高德纳所说的 “期望膨胀顶峰”,这意味着由于早期的成功案例,它获得了广泛的关注,进而催生了不切实际的期望。
高德纳称,这种趋势之后通常会出现 “幻灭低谷”,即随着实验和实施未能达到预期,人们的兴趣、热情和投资会降温(请记住:自 20 世纪 80 年代以来,已经出现过两次著名的人工智能寒冬)。
钱德拉塞卡兰说:“很多供应商都在夸大产品的能力,甚至将其定位为已准备好投入生产、适合企业使用,并将在很短的时间内带来商业价值。”
然而,他指出,实际上,产品质量与预期之间的差距很大。高德纳没有看到企业范围内的智能体部署;他们所看到的部署是在 “小而窄的领域” 以及软件工程或采购等特定领域。
钱德拉塞卡兰解释道:“但即便是这些工作流程也不是完全自主的;它们往往要么是由人类驱动的,要么本质上是半自主的。”
一个关键的问题是基础设施的缺乏;智能体需要访问大量的企业工具,并且必须能够与数据存储和 SaaS 应用程序进行通信。同时,他指出,必须有足够的身份和访问管理系统来控制智能体的行为和访问权限,以及监督它们可以访问的数据类型(不包括个人身份信息或敏感信息)。
最后,企业必须确信智能体生成的信息是可信的,即没有偏见,不包含幻觉或虚假信息。
他建议,要实现这一点,供应商必须合作并采用更开放的标准,用于智能体与企业以及智能体与智能体之间的工具通信。
钱德拉塞卡兰说:“虽然智能体或其底层技术可能正在取得进展,但为了让智能体蓬勃发展,这种编排、治理和数据层仍有待构建。这就是我们今天看到很多摩擦的地方。”
是的,该行业在人工智能推理方面正在取得进展,但在让人工智能理解物理世界如何运作方面仍存在困难。人工智能主要在数字世界中运行;它与物理世界没有强大的接口,尽管空间机器人技术正在取得进步。
但是,“在这类环境中,我们还处于非常、非常、非常、非常早期的阶段,” 钱德拉塞卡兰说。
要真正取得重大进展,需要模型架构或推理方面的 “革命”。“你不能停留在当前的曲线中,只期望更多的数据、更多的计算能力,并希望实现人工通用智能(AGI),” 他说。
评论