AI 的下一场竞赛,不在算法,在电力——Deep Think如何把算力产业推向重工业逻辑

美东时间 12 日周四,谷歌正式官宣 Gemini 3 Deep Think 升级。公告里的数字足够耀眼——在人类终极综合推理基准 Humanity's Last Exam(HLE)上刷新成绩,在 ARC-AGI-2 测试中取得 84.6% 的突破性结果,并通过 ARC Prize 基金会验证;在竞技编程平台 Codeforces 上,Elo 评分达到 3455;甚至解决了 18 个此前未被攻克的研究问题。

舆论的聚光灯几乎全部打在“能力跃迁”上——48.4% 的 HLE 成绩意味着什么,84.6% 的 ARC-AGI-2 是否逼近通用智能门槛,模型是否正在逼近科研级推理水平。
但当讨论被这些令人兴奋的 benchmark 数字占满时,我认为有一个更底层、也更现实的问题:当深度思考从实验室能力变成日常产品功能,算力系统——尤其是 GPU——将承受怎样的结构性压力?
这并非危言耸听。相反,它可能是一个正在发生、却被产品经理、云计算分析师乃至资本市场集体低估的产业转折点——能力的跃迁只是表象,真正的冲击波,正在算力层悄然积聚。

一、从"秒级应答"到"分钟级思考"

首先需要明确Google做了什么。Gemini 3 Deep Think不是简单的模型升级。它在架构层面改变了推理的工作流:

模型不再一步生成答案,而是多轮迭代地论证、验证、纠正。

根据Google的官方描述,Deep Think在"iterative rounds of reasoning"中探索多个假设。这看似温和的表述,实际上暗示了一个非常激进的计算转向。
关键指标体现在用户体验上:
  • 标准Gemini 3 Pro:秒级响应
  • Gemini 3 Deep Think:"generally in a few minutes"
"a few minutes" 这个表述足以说明问题——这不是10秒的差异,而是从数秒到数百秒的跳跃,一个数量级的时间膨胀
时间为什么会膨胀?因为计算在膨胀。

二、隐形成本:深度思考中的"暗物质"计算

坦诚地说,Google官方文档对计算消耗的描述极其模糊。他们不会说"Deep Think消耗10倍GPU",这样的表述对商务部门太不友好。
但我们可以从几个蛛丝马迹推断:
第一,问题复杂度的跃升
Deep Think针对的是"缺乏清晰约束、单一正确答案、数据不完整或混乱"的问题。这些问题的计算复杂度不是线性增长,而是指数级增长。
以Rutgers大学数学家Lisa Carbone的案例为例,她用Deep Think识别了一篇已通过人类同行评审的技术论文中的"subtle logical flaw"(微妙逻辑缺陷)。
这种能力的代价是什么?在标准模式下,模型无法识别这种缺陷——因为它是压缩推理。在Deep Think模式下,模型需要:
完整理解论文的逻辑链条,探索多条替代论证路径,在每条路径上验证一致性,最终指出矛盾所在。
这是深度搜索空间的代价。
第二,"多轮前向传播"的含义
虽然Google没有公开Deep Think的确切架构,但从学术文献看,这类reasoning模式通常涉及:
  • 多步骤解码:不是一次输出完整答案,而是多轮生成中间reasoning token
  • KV Cache堆积:长上下文和多轮交互导致键值缓存指数级增长
  • 显存占用:一个原本需要8GB显存的查询,可能膨胀到32GB或更高
Duke大学Wang Lab的案例更能说明问题:他们用Deep Think优化了复杂晶体生长的制造方法。这涉及:
  • 化学参数空间的多维搜索
  • 物理约束的迭代验证
  • 工程可行性的反复论证
单个这样的查询,计算复杂度可能是标准问答的10-50倍

三、产品化意味着什么:从小众实验到大众消费

这是关键转折点。
之前:Deep Think仅在Google AI Ultra订阅用户中可用——这是一个精英用户群体,使用频率受限。
现在:Google在首次向Gemini API开放Deep Think,向"select researchers, engineers and enterprises"提供早期接入权限。
这个措辞很重要。"Select"意味着有门槛,但"enterprises"意味着规模。一家企业可能有几百或几千名用户同时使用Deep Think进行复杂问题分析。
在企业场景中,Deep Think的应用场景爆炸式增长:
  • 金融服务:复杂风险模型、交易策略设计
  • 制药研发:分子设计、临床试验数据分析
  • 芯片设计:电路优化、工艺工程
  • 材料科学:新材料属性预测(如Duke的晶体生长)
每个领域都涉及大量的Deep Think查询。一个研发团队,平均每天可能执行50-200次深度思考任务。
假设:1000家企业早期采用,平均每家100名工程师,每人每天2-3次Deep Think查询,每个查询消耗相当于25次标准查询的算力。
单日总算力消耗 ≈ 1000 × 100 × 2.5 × 25 = 625万次标准查询当量
而这仅仅是早期访问阶段。

四、Google Cloud的成本结构重塑

前面的文档指出,传统大模型的成本结构清晰:

输入越长,成本越高;输出越多,成本越高

但Deep Thinking打破了这个假设。
用户看到的输出长度几乎不变——一个Deep Think的最终答案通常不会比标准答案长太多。但内部发生了什么完全不同:
维度
标准Gemini
Deep Think
用户可见token
500-1000
600-1200
内部推理token
~0
5000-20000
显存占用
8GB
32GB+
计算时间
2-5秒
120-300秒
实际GPU消耗
1 unit
15-40 units
Google必须立即面对一个商业难题:按token计费还是按计算量计费?如果继续按输出token收费,Deep Think会完全蚀损利润——平台补贴思考成本。
如果转向按计算量或时间收费,这本质上是从"软件服务"向"云计算资源服务"的转变,定价模型需要完全重写。

五、GPU密度与数据中心物理学

这里涉及一个容易被忽视的物理现实。
Deep Thinking不仅增加了算力消耗,还改变了算力的时间分布
之前的模式——训练:集中爆发,持续数月;推理:分散、低密度、可中断
现在的模式——推理:持续、高密度、难以中断;用户会等待几分钟的结果,系统无法以低优先级处理
这意味着GPU集群必须维持持续的高占用率,而不是传统的波动模式。
物理影响是什么?
  • 散热压力增加:长时间高负荷运行意味着持续高功耗,液冷系统从"可选"变为"必需"
  • 显存带宽成为瓶颈:Deep Thinking的性能瓶颈已经从FLOPS转向HBM带宽。这意味着:
  • 电力成本爆炸:Google每次Deep Think查询可能消耗100-500 watt-seconds(相比标准查询的5-10 watt-seconds)
按照估算,如果Deep Think最终达到ChatGPT量级的用户规模(每日亿级调用),Google的AI数据中心电力消耗可能在3-5年内增加10倍

六、Google Cloud的基础设施赌注

这就解释了为什么Google在基础设施投资上的节奏突然加快。
根据公开信息,Google正在扩建超大规模AI数据中心,涉及数百亿美元投资。这不仅是常规的云计算扩容,更是对持续推理工作负载的赌注。
  • 显存成本线性上升:Deep Thinking对显存的需求是线性的,而不是对数的。每10倍用户增长意味着10倍显存投资
  • 电力基础设施:Google正在寻求与电力提供商的长期协议和专线部署,这是其他云厂商还未大规模投入的领域
  • 地理位置重新评估:水冷和电力成本会驱动数据中心向低成本地区迁移,中国、印度、东南亚的地缘政治优势上升

七、竞争格局的重新洗牌

这个问题不仅影响Google,更会改写整个AI推理市场的竞争版图。
OpenAI的o1模式也涉及深度推理,但相比之下:部署规模更小(因为o1引发的成本压力同样巨大);使用场景更受限(主要面向高价值专业用户)。
Anthropic的Claude虽然推理能力强,但暂未大规模推出Deep Thinking等价物,目前有个选项Extended thinking,但需要用户主动开启,很可能是因为成本模型还未理清。
本地部署的开源模型(如某些微调的Llama)缺乏Deep Thinking的推理能力,成为明显短板。
这意味着Deep Thinking实际上强化了大玩家的垄断地位——谁能承受持续的高成本,谁就能提供更好的Deep Thinking服务,进而吸引更多用户,形成成本优势的正反馈。

八、真正的赌注:能源与地缘政治

前面的分析都指向一个终极问题:谁能提供足够便宜的电力?
Deep Thinking的经济学最终落在能源上。如果Deep Think的平均成本是标准查询的20倍,而电力成本占总成本的30-40%,那么电力成本差异会直接转化为产品竞争力差异。一般来说,电力成本占总成本40%,以此计算,国内部署可以将成本降低12%——因为电价相对便宜。在高频消费场景中,这足以改变定价策略和利润率。这解释了为什么Google在寻求新数据中心地点时对地缘政治如此敏感,为什么AWS、Azure也在类似的基础设施竞赛中投入巨资。
总结一下Deep Thinking的产品化带来的根本性转变:
过去的AI商业逻辑:训练一次,终身使用;成本一次性支付;利润率随用户增长而提升
Deep Thinking时代的逻辑:每次查询都在消耗实际资源;边际成本恒定且昂贵(无法趋零);利润率取决于规模效应和资源成本
AI从纯软件,演化为计算服务+能源密集型的混合体。
更激进的结论是——在Deep Thinking普及后,AI企业的财务模型会更接近能源公司或电信运营商,而不是传统软件公司。
这意味着毛利率会永久性下降;资本密集度会大幅上升;竞争中的规模效应会被极度放大;能源和基础设施成为核心竞争力

九、一个被忽视的风险:算力成本的可持续性

最后一个问题:这个模式能持续多久?假设Deep Thinking在3年内达到5亿日活用户(与ChatGPT规模相当),平均每人每天1次Deep Thinking查询:
  • 日查询量:5亿次
  • 日显卡消耗:相当于2500万标准查询(按20倍消耗计)
  • 日电力消耗:~50吉瓦时
  • 年电力消耗:~18000吉瓦时
仅Google一家的AI推理服务就会消耗相当于一个中等国家的年度电力供应。
这个数字会撞到什么约束?
  • 电力成本:如果电力成本上升,整个模型的经济性就会被破坏
  • 地缘政治:全球都会争夺低成本电力,AI数据中心会成为地缘竞争的焦点
  • 气候压力:AI数据中心的碳排放会成为监管重点,碳税或碳配额会显著增加成本
  • 技术瓶颈:如果芯片性能进步停滞,成本无法进一步下降
这意味着Deep Thinking的增长最终会面临硬约束,而不是软约束。市场不会无限扩大,而是会在某个能源和成本的均衡点稳定。

结语

Gemini 3 Deep Think的发布看似是一次能力升级。但更深层的现实是:Google在赌一个GPU和能源密集的未来
这个赌注涉及数百亿美元的基础设施投资;能源供应链的长期锁定;地缘政治的新一轮竞争;商业模型的根本重写。
如果Deep Thinking真的普及(而不是只停留在精英市场),我们会看到:
  • AI企业的利润率永久性下降
  • 能源成本成为产品竞争的决定性因素
  • 显卡和冷却系统成为比算法更重要的竞争力
  • 全球范围内数据中心选址的重新评估
这不仅仅是一场关于AI智能的竞争,而是关于谁能更便宜地提供持续计算的竞争。随着算法时代到来,工业和能源的时代正日趋重要。Google的Deep Thinking产品化不过是这次转变中的第一枪。
关于作者:我是一名专注于科技投资领域的独立研究者。我的分析基于对产业链的长期跟踪、财报数据挖掘以及技术演进路径的交叉验证。我坚信,在AI与物理世界加速融合的时代,从底层技术和供应链中发现的洞见,比追逐市场情绪更有价值。本网站所有文章均为我的个人原创研究笔记,旨在记录思考,并与同道者交流。

评论