你是不是也有过这种直观感受,同类型的问题,国产大模型总不如海外模型 “聪明”—— 要么答非所问,要么回避核心,要么逻辑断层,总给人一种 “偷奸耍滑” 的距离感。
但真正深度试用过国内外全品类主流模型的人都清楚,二者在算法、算力上的差距,远没有大众体感上的差距那么大。今天我们扒开最扎心也最容易被忽略的底层真相,中文 AI 看起来 “笨”,从来不是我们的研发人员不够努力,而是我们的互联网从诞生到崛起,走了一条全世界独有的路。这条路让我们建起了全球最繁荣的移动互联网,也在不经意间,给中文 AI 锁死了赖以生存的粮仓。决定 AI 智商上限的,不止是芯片和算力,更在一个更隐蔽、更难被量化的地方——我们喂给AI的饭,从根子上就不太对。
一、天涯的兴衰,是一个时代的隐喻
2001年,天涯社区正式上线。在那个宽带还要按分钟计费的年代,天涯是一个真实的"公共广场"。文人骚客在上面写长文,社会事件在上面发酵成讨论,网络文学在上面生根发芽。流传至今的《明朝那些事儿》《鬼吹灯》,最早都是在天涯连载的。那个时代的天涯,有一种"为公共空间留存知识"的气质——内容是开放的,可以被搜索引擎抓取,可以被外链引用,可以被任何人读到。2010年前后,微博崛起,移动互联网的大潮汹涌而来。用户不再打开浏览器,而是刷手机。天涯的用户开始流失,流量开始枯竭,资金开始断裂。2023年,天涯社区因服务器费用欠款正式关停,数以亿计的帖子、讨论、人生故事,在一夜之间从互联网上消失。天涯的死,不只是一家公司的失败,而是中国"开放互联网时代"终结的一个缩影。
二、美国互联网,走了一条不同的路
要理解这件事的代价,我们需要先看看大西洋另一端发生了什么。美国互联网有一段漫长的、充分的"公共广场期",而且这个广场期恰好发生在移动互联网之前。1991年,万维网对公众开放。整个90年代到2000年代,美国互联网的内容生产方式,是把东西"铺在地上"的:- 博客文化(2000年代初期极度繁荣):个人站长、专业人士把自己的知识、观察、分析写在独立博客上,这些页面有URL、可被索引、永久可访问。
- 论坛时代:Reddit(2005年创立)、Hacker News(2007年)、Stack Overflow(2008年)积累了海量的结构化讨论。一个技术问题,下面会有几十个人反复推敲,形成完整的推理链。
- 维基百科:2001年上线,成为人类有史以来规模最大的协作知识工程。到今天,英文维基百科拥有超过670万个词条,中文维基百科只有约140万个。
- 开源社区:GitHub上的代码、注释、讨论,本质上也是可被机器学习的高质量文本。
这一切有一个共同特点:内容是公开的,可被爬取,可以永久访问,而且是为了"传播知识"而生产的,不是为了"锁住用户"。这十几年积累下来的,是一座真实意义上的公共图书馆。而图书馆这件事,是AI的自助餐。
三、中国互联网,发生了一次"压缩式跃迁"
2000年前后,中国互联网开始腾飞。论坛(天涯、猫扑、百度贴吧)、博客(博客中国、新浪博客)确实存在过,也积累了相当数量的有价值内容。那是属于"键盘侠"的黄金年代——一个人可以在天涯发一篇万字长文,引发全国范围内的大讨论。2011年,微信上线。移动互联网以一种几乎碾压式的速度重构了中国人的数字生活。用户从PC迁移到手机,从开放网页迁移到封闭App,从长文迁移到短内容。当美国人还在博客和论坛上深度讨论的时候,中国用户已经开始刷朋友圈、发公众号、玩微博了。我们用十几年走完了别人几十年的路,建起了全世界最便捷的移动互联网。这是了不起的成就。但弯道超车有一个物理代价:你甩掉了路边的东西,让中文互联网从 “一张互联互通的网”,变成了 “一座座互不连通的孤岛”。路边掉下去的,恰好是AI最需要的——可爬取的长文本、有时间戳的知识演化记录、经过公开讨论与反驳的深度内容。
四、私域,是一堵对AI关闭的墙
比"广场时代太短"更麻烦的,是移动互联网时代的内容生产逻辑。中文互联网并不是没有内容,内容从来都是爆炸式的。中国网民每天在微信群里指点江山,在朋友圈里写小作文,在小红书里分享独家攻略,在知乎上写深度回答,在公众号里发行业分析。这种热闹让我们产生了一种错觉:中文互联网的信息量爆炸了。问题的根源,在于中国移动互联网的底层商业逻辑:流量—私域—变现。平台的核心利益,是把用户锁在自己的生态里。这导致内容必须锁在平台里:- 微信公众号的文章,搜索引擎抓不到。你在微信外搜一篇公众号文章,只能看到标题,内容必须在微信内打开。
- 抖音的视频,没有开放的文字版本,爬虫无法提取有意义的文本语料。
- 微信群的讨论,在物理意义上就是消失的——消息超过一定时限自动过期,根本没有沉淀的机会。
- 知乎近年来大量内容需要登录才能查看,甚至部分回答在搜索引擎中无法索引。
这不是用户的主动选择,是平台商业模式的必然结果。而这套高度成功的商业模式,在AI训练这件事上,成了一堵墙。你应该体验过那种感觉:你明明记得上周在某个微信群看到过一个绝佳的技术教程,或者某人在朋友圈发了一段深刻的行业分析。当你现在想搜出来用时,你打开搜索引擎,一片空白;你去翻聊天记录,显示"文件已过期"。你甚至闻到了那种信息腐烂的味道——就像那本你明明写满了字却丢了钥匙的带锁日记本,里面的智慧不管多闪耀,此刻都成了废纸。更让人痛心的是,我们本就不多的公域沉淀,还在大规模地消失。前些年一条新闻刺痛了无数人。大量早期互联网的深度文章、个人博客、行业资料,在一夜之间集体消失,服务器关停、域名过期、页面 404,那些曾经代表一代人思考的文字,说没就没,连痕迹都留不下。对个人而言,这是青春回忆的消散;对 AI 而言,这可能就是文明断层。
五、两条路走出来的AI,底子不同
打一个最直观的比方,训练一个大模型,就像培养一个从小大量阅读的孩子。英文世界那个孩子,家里书架是开放的,书店随时可以进,图书馆的门永远开着,他读了三十年。中文世界那个孩子,家里书是一样多的,但大多数锁在柜子里,他只能隔着玻璃看封面。- 语料的"可及性"不同。英文世界的知识铺在地上,中文世界的知识锁在黑箱里。不是挖不出来,是物理上就拿不到。ChatGPT在训练时,可以爬取数十年积累的英文开放网页;中文大模型能用的,则是质量参差不齐的公开数据。
- 语料的"深度"不同。论坛的多轮辩论,会训练出模型的推理能力;Stack Overflow的问答链,会训练出模型解决具体问题的能力。而朋友圈的情绪小作文、短视频的评论区、微信群里的即时对话——情绪充沛、碎片化、强社交属性,对AI训练的"营养密度"极低。你喂给AI什么,它就长成什么样子。
- 语料的"时效性"不同。开放网页可以持续爬取、持续更新;私域内容随着平台迭代、账号注销、消息过期,正在以一种看不见的速度腐烂。我们的数字文明,正在悄悄消失。天涯的关停只是最明显的那一次——每天都有无数条有价值的讨论,在某个App的服务器上静默地死去。
六、没有人需要为了AI改变自己的生活方式
说到这里,很容易滑向一个说教的结论:大家要多写博客、少发朋友圈,为中文AI的未来做贡献。私域流量的商业模式之所以成功,是因为它真实地满足了用户需求。社交关系在里面,生活便利在里面,情感连接在里面。没有人会为了"给AI提供训练语料"而放弃微信,就像没有人会为了减少碳排放而放弃空调一样。这是一个真实的结构性矛盾。对个体最优的选择,堆叠成了对集体不利的结果。但这个矛盾的解法,从来不是让个体牺牲自己的便利。真正的问题是:谁有能力把封闭在各社区的东西传递出来?
七、这是一门生意
换一个角度看,私域数据的封闭,对AI公司是一道难题,但对另一类公司,却是一个真实的商业机会。这类公司的核心价值,是做一件爬虫做不到的事:合法地、有组织地、大规模地,把私域里的内容转化成可用的AI训练语料。- 授权采集。与平台谈数据授权合作,以商业协议换取数据访问权。这件事的难点不在技术,在于谈判筹码——AI公司的需求越迫切,数据公司的议价能力就越强。微信、抖音、小红书的数据,不是不能用,是要有人去谈价格。
- 人工标注与数据清洗。就算拿到了原始数据,私域内容的质量极度参差,充斥着表情包、语气词、广告和无效信息。把这些噪声过滤掉,提炼出对模型真正有价值的内容,本身是一个极度劳动密集型的工程。中国在这方面有明显的成本优势,这也解释了为什么全球AI训练数据标注产业,有相当一部分已经在国内落地。
- 垂直领域的专业语料构建。通用语料的争夺已经很激烈,但垂直领域还有大量空白。医疗、法律、金融、工业——这些领域的专业知识大量沉睡在内部系统、私有数据库、专家的个人经验里。把这些内容结构化、标注化,再以合规方式提供给大模型公司,是一条相对清晰的商业路径。
- 合成数据工厂。如果真实数据拿不到,就用已有模型生成接近真实分布的合成数据,再加以人工审核和修正。这个方向的天花板取决于生成模型的能力,但在特定场景下,合成数据的成本效益已经相当可观。
这个行业在全球范围内正在快速成长。Scale AI在美国已经做到了估值140亿美元,核心业务就是数据标注与语料构建。而在中国,类似的基础设施公司还远远没有跑出来一个量级相当的玩家。原因不难理解。过去几年,大家的注意力都集中在模型本身,集中在算法和算力。数据这件事,太"脏活",太不性感,缺少足够的关注。但AI竞争进入深水区之后,语料的质量和独特性,会越来越成为核心壁垒。到那个时候,真正有价值的,可能不是又一个大模型,而是那个能持续、合规地把中文私域内容转化为训练语料的基础设施。我们亲手建起了移动互联时代的高墙,然后抱怨墙外的风景不够好。但也许,更聪明的做法不是推倒墙,而是成为那个开锁匠。关于作者:我是一名专注于科技投资领域的独立研究者。我的分析基于对产业链的长期跟踪、财报数据挖掘以及技术演进路径的交叉验证。我坚信,在AI与物理世界加速融合的时代,从底层技术和供应链中发现的洞见,比追逐市场情绪更有价值。本网站所有文章均为我的个人原创研究笔记,旨在记录思考,并与同道者交流。
评论