美东时间 12 日周四，谷歌正式官宣 Gemini 3 Deep Think 升级。公告里的数字足够耀眼——在人类终极综合推理基准 Humanity's Last Exam（HLE）上刷新成绩，在 ARC-AGI-2 测试中取得 84.6% 的突破性结果，并通过 ARC Prize 基金会验证；在竞技编程平台 Codeforces 上，Elo 评分达到 3455；甚至解决了 18 个此前未被攻克的研究问题。

舆论的聚光灯几乎全部打在“能力跃迁”上——48.4% 的 HLE 成绩意味着什么，84.6% 的 ARC-AGI-2 是否逼近通用智能门槛，模型是否正在逼近科研级推理水平。

但当讨论被这些令人兴奋的 benchmark 数字占满时，我认为有一个更底层、也更现实的问题：当深度思考从实验室能力变成日常产品功能，算力系统——尤其是 GPU——将承受怎样的结构性压力？

这并非危言耸听。相反，它可能是一个正在发生、却被产品经理、云计算分析师乃至资本市场集体低估的产业转折点——能力的跃迁只是表象，真正的冲击波，正在算力层悄然积聚。

一、从"秒级应答"到"分钟级思考"

首先需要明确Google做了什么。Gemini 3 Deep Think不是简单的模型升级。它在架构层面改变了推理的工作流：

模型不再一步生成答案，而是多轮迭代地论证、验证、纠正。

根据Google的官方描述，Deep Think在"iterative rounds of reasoning"中探索多个假设。这看似温和的表述，实际上暗示了一个非常激进的计算转向。

关键指标体现在用户体验上：

标准Gemini 3 Pro：秒级响应
Gemini 3 Deep Think："generally in a few minutes"

"a few minutes" 这个表述足以说明问题——这不是10秒的差异，而是从数秒到数百秒的跳跃，一个数量级的时间膨胀。

时间为什么会膨胀？因为计算在膨胀。

二、隐形成本：深度思考中的"暗物质"计算

坦诚地说，Google官方文档对计算消耗的描述极其模糊。他们不会说"Deep Think消耗10倍GPU"，这样的表述对商务部门太不友好。

但我们可以从几个蛛丝马迹推断：

第一，问题复杂度的跃升

Deep Think针对的是"缺乏清晰约束、单一正确答案、数据不完整或混乱"的问题。这些问题的计算复杂度不是线性增长，而是指数级增长。

以Rutgers大学数学家Lisa Carbone的案例为例，她用Deep Think识别了一篇已通过人类同行评审的技术论文中的"subtle logical flaw"（微妙逻辑缺陷）。

这种能力的代价是什么？在标准模式下，模型无法识别这种缺陷——因为它是压缩推理。在Deep Think模式下，模型需要：

完整理解论文的逻辑链条，探索多条替代论证路径，在每条路径上验证一致性，最终指出矛盾所在。

这是深度搜索空间的代价。

第二，"多轮前向传播"的含义

虽然Google没有公开Deep Think的确切架构，但从学术文献看，这类reasoning模式通常涉及：

多步骤解码：不是一次输出完整答案，而是多轮生成中间reasoning token
KV Cache堆积：长上下文和多轮交互导致键值缓存指数级增长
显存占用：一个原本需要8GB显存的查询，可能膨胀到32GB或更高

Duke大学Wang Lab的案例更能说明问题：他们用Deep Think优化了复杂晶体生长的制造方法。这涉及：

化学参数空间的多维搜索
物理约束的迭代验证
工程可行性的反复论证

单个这样的查询，计算复杂度可能是标准问答的10-50倍。

三、产品化意味着什么：从小众实验到大众消费

这是关键转折点。

之前：Deep Think仅在Google AI Ultra订阅用户中可用——这是一个精英用户群体，使用频率受限。

现在：Google在首次向Gemini API开放Deep Think，向"select researchers, engineers and enterprises"提供早期接入权限。

这个措辞很重要。"Select"意味着有门槛，但"enterprises"意味着规模。一家企业可能有几百或几千名用户同时使用Deep Think进行复杂问题分析。

在企业场景中，Deep Think的应用场景爆炸式增长：

金融服务：复杂风险模型、交易策略设计
制药研发：分子设计、临床试验数据分析
芯片设计：电路优化、工艺工程
材料科学：新材料属性预测（如Duke的晶体生长）

每个领域都涉及大量的Deep Think查询。一个研发团队，平均每天可能执行50-200次深度思考任务。

假设：1000家企业早期采用，平均每家100名工程师，每人每天2-3次Deep Think查询，每个查询消耗相当于25次标准查询的算力。

单日总算力消耗 ≈ 1000 × 100 × 2.5 × 25 = 625万次标准查询当量

而这仅仅是早期访问阶段。

四、Google Cloud的成本结构重塑

前面的文档指出，传统大模型的成本结构清晰：

输入越长，成本越高；输出越多，成本越高

但Deep Thinking打破了这个假设。

用户看到的输出长度几乎不变——一个Deep Think的最终答案通常不会比标准答案长太多。但内部发生了什么完全不同：

维度	标准Gemini	Deep Think
用户可见token	500-1000	600-1200
内部推理token	~0	5000-20000
显存占用	8GB	32GB+
计算时间	2-5秒	120-300秒
实际GPU消耗	1 unit	15-40 units

Google必须立即面对一个商业难题：按token计费还是按计算量计费？如果继续按输出token收费，Deep Think会完全蚀损利润——平台补贴思考成本。

如果转向按计算量或时间收费，这本质上是从"软件服务"向"云计算资源服务"的转变，定价模型需要完全重写。

五、GPU密度与数据中心物理学

这里涉及一个容易被忽视的物理现实。

Deep Thinking不仅增加了算力消耗，还改变了算力的时间分布。

之前的模式——训练：集中爆发，持续数月；推理：分散、低密度、可中断

现在的模式——推理：持续、高密度、难以中断；用户会等待几分钟的结果，系统无法以低优先级处理

这意味着GPU集群必须维持持续的高占用率，而不是传统的波动模式。

物理影响是什么？

散热压力增加：长时间高负荷运行意味着持续高功耗，液冷系统从"可选"变为"必需"
显存带宽成为瓶颈：Deep Thinking的性能瓶颈已经从FLOPS转向HBM带宽。这意味着：
电力成本爆炸：Google每次Deep Think查询可能消耗100-500 watt-seconds（相比标准查询的5-10 watt-seconds）

按照估算，如果Deep Think最终达到ChatGPT量级的用户规模（每日亿级调用），Google的AI数据中心电力消耗可能在3-5年内增加10倍。

六、Google Cloud的基础设施赌注

这就解释了为什么Google在基础设施投资上的节奏突然加快。

根据公开信息，Google正在扩建超大规模AI数据中心，涉及数百亿美元投资。这不仅是常规的云计算扩容，更是对持续推理工作负载的赌注。

显存成本线性上升：Deep Thinking对显存的需求是线性的，而不是对数的。每10倍用户增长意味着10倍显存投资
电力基础设施：Google正在寻求与电力提供商的长期协议和专线部署，这是其他云厂商还未大规模投入的领域
地理位置重新评估：水冷和电力成本会驱动数据中心向低成本地区迁移，中国、印度、东南亚的地缘政治优势上升

七、竞争格局的重新洗牌

这个问题不仅影响Google，更会改写整个AI推理市场的竞争版图。

OpenAI的o1模式也涉及深度推理，但相比之下：部署规模更小（因为o1引发的成本压力同样巨大）；使用场景更受限（主要面向高价值专业用户）。

Anthropic的Claude虽然推理能力强，但暂未大规模推出Deep Thinking等价物，目前有个选项Extended thinking，但需要用户主动开启，很可能是因为成本模型还未理清。

本地部署的开源模型（如某些微调的Llama）缺乏Deep Thinking的推理能力，成为明显短板。

这意味着Deep Thinking实际上强化了大玩家的垄断地位——谁能承受持续的高成本，谁就能提供更好的Deep Thinking服务，进而吸引更多用户，形成成本优势的正反馈。

八、真正的赌注：能源与地缘政治

前面的分析都指向一个终极问题：谁能提供足够便宜的电力？

Deep Thinking的经济学最终落在能源上。如果Deep Think的平均成本是标准查询的20倍，而电力成本占总成本的30-40%，那么电力成本差异会直接转化为产品竞争力差异。一般来说，电力成本占总成本40%，以此计算，国内部署可以将成本降低12%——因为电价相对便宜。在高频消费场景中，这足以改变定价策略和利润率。这解释了为什么Google在寻求新数据中心地点时对地缘政治如此敏感，为什么AWS、Azure也在类似的基础设施竞赛中投入巨资。

总结一下Deep Thinking的产品化带来的根本性转变：

过去的AI商业逻辑：训练一次，终身使用；成本一次性支付；利润率随用户增长而提升

Deep Thinking时代的逻辑：每次查询都在消耗实际资源；边际成本恒定且昂贵（无法趋零）；利润率取决于规模效应和资源成本

AI从纯软件，演化为计算服务+能源密集型的混合体。

更激进的结论是——在Deep Thinking普及后，AI企业的财务模型会更接近能源公司或电信运营商，而不是传统软件公司。

这意味着毛利率会永久性下降；资本密集度会大幅上升；竞争中的规模效应会被极度放大；能源和基础设施成为核心竞争力。

九、一个被忽视的风险：算力成本的可持续性

最后一个问题：这个模式能持续多久？假设Deep Thinking在3年内达到5亿日活用户（与ChatGPT规模相当），平均每人每天1次Deep Thinking查询：

日查询量：5亿次
日显卡消耗：相当于2500万标准查询（按20倍消耗计）
日电力消耗：~50吉瓦时
年电力消耗：~18000吉瓦时

仅Google一家的AI推理服务就会消耗相当于一个中等国家的年度电力供应。

这个数字会撞到什么约束？

电力成本：如果电力成本上升，整个模型的经济性就会被破坏
地缘政治：全球都会争夺低成本电力，AI数据中心会成为地缘竞争的焦点
气候压力：AI数据中心的碳排放会成为监管重点，碳税或碳配额会显著增加成本
技术瓶颈：如果芯片性能进步停滞，成本无法进一步下降

这意味着Deep Thinking的增长最终会面临硬约束，而不是软约束。市场不会无限扩大，而是会在某个能源和成本的均衡点稳定。

结语

Gemini 3 Deep Think的发布看似是一次能力升级。但更深层的现实是：Google在赌一个GPU和能源密集的未来。

这个赌注涉及数百亿美元的基础设施投资；能源供应链的长期锁定；地缘政治的新一轮竞争；商业模型的根本重写。

如果Deep Thinking真的普及（而不是只停留在精英市场），我们会看到：

AI企业的利润率永久性下降
能源成本成为产品竞争的决定性因素
显卡和冷却系统成为比算法更重要的竞争力
全球范围内数据中心选址的重新评估

这不仅仅是一场关于AI智能的竞争，而是关于谁能更便宜地提供持续计算的竞争。随着算法时代到来，工业和能源的时代正日趋重要。Google的Deep Thinking产品化不过是这次转变中的第一枪。

关于作者：我是一名专注于科技投资领域的独立研究者。我的分析基于对产业链的长期跟踪、财报数据挖掘以及技术演进路径的交叉验证。我坚信，在AI与物理世界加速融合的时代，从底层技术和供应链中发现的洞见，比追逐市场情绪更有价值。本网站所有文章均为我的个人原创研究笔记，旨在记录思考，并与同道者交流。

新鲜世界

AI 的下一场竞赛，不在算法，在电力——Deep Think如何把算力产业推向重工业逻辑

一、从"秒级应答"到"分钟级思考"

二、隐形成本：深度思考中的"暗物质"计算

三、产品化意味着什么：从小众实验到大众消费

四、Google Cloud的成本结构重塑

五、GPU密度与数据中心物理学

六、Google Cloud的基础设施赌注

七、竞争格局的重新洗牌

八、真正的赌注：能源与地缘政治

九、一个被忽视的风险：算力成本的可持续性

结语

评论

推荐阅读

从概念到落地——脑机接口的破晓时分与投资窗口

火箭回收技术路线之争，隐藏着哪些投资机会？

国庆“应急车道”与投资选择