最近几个月,朋友圈里聊得最多的,是"具身智能要来了"、“语言模型要到头了”、“下一波技术革命已经脱离文本了”。

身在业务,我其实不太关心学术圈今天又发了什么论文,也不是要跟谁在显卡密度上比拼。

可是语言模型在企业业务里的表现,确实慢慢露出了"天花板的影子":越做越多的微调,越堆越大的提示词,越复杂越难的 RAG 管线……效果提升变得极慢,成本却蹭蹭往上走。

今年行业里被戏称为 Agent 元年,民间甚至流传一句话:“工程优化没啥用了,不如等模型升级。“但体感上发现,模型升级仍在发生,但惊艳越来越少,阶跃式提升愈发罕见。

就在这种时候,我想起了尼采。这个喜欢把哲学写成炸药包的人,曾经无数次提醒我们:语言不是世界本身,语言只是世界的影子。我们越相信语言,就越容易忘记这一点。

于是我想试图用尼采的视角,做一个思维实验:语言模型的边界,是不是语言本身的边界?而当前 AI 的新的探索方向,又是不是在突破语言的围墙?

尼采在《论真理与谎言》里说过一句特别好的可以用来解释 LLM 的话:人类在语言里生活得太久,以至于忘了语言只是隐喻,而不是现实本身。这句话如果搬到今天,就是:大语言模型并不是"理解”,它只是在影子里跳舞。

当然,影子跳得很漂亮,跳得像是理解。但只要你让它做一点跨影子操作——比如把语言映射进真实动作、真实环境、真实物理——它立刻开始露馅。

这不是模型不够聪明,而是语言本身的结构在限制它。语言只能描述那些"已经被分类过的经验”。而世界运转的方式,往往没那么干净利落——摩擦力、偶然性、模糊性、不可描述的感受、没有名字的现象……语言压根没法完全描述。模型再强,它也是在语言的维度里做插值。这一层楼建得再华丽,楼下那片更大的地基——真实世界——依旧没有被触碰。

做业务落地的人都知道一个残酷事实:LLM 很能写,但不太能干。它能生成报告,但不能保证数据精准。它能给你方案,但不能确保流程可执行。它能聊天,但不能对现场复杂性做反应。在结构化、可控、可验证的任务上——模型越大,不一定越稳定。我们像是在用一张"语言滤镜"去看业务流程。很多时候,它能让流程更顺滑;但有些时候,这个滤镜本身就遮住了问题。

尼采会提醒我们:“你把语言当做真理,本身就是最大的误解。“反过来讲:如果语言不是全部,那基于语言的智能,也就不可能是全部。

有人马上会举手:不是早就让大模型"动手"了吗?ReAct、Function Call、Tool-use、ChatGPT 插件商店,甚至 AutoGPT,都在把"说"翻译成"做”。给模型一个搜索 API,它能自己查资料;给它一个下单接口,它真能帮你买机票。

看起来语言模型已经长出胳膊了。但仔细观察,这些"行动"都绕不开两步:第一步,先把工具抽象成一段文本说明书——函数名、参数、返回值,全是语言;第二步,模型依旧只在语言空间里做"下一步该调用哪个函数"的概率选择,真正去拧螺丝、点鼠标、走物理流程的,是外面那层被封装好的小工蜂。

换句话说,模型还是站在玻璃后面,用"语言手柄"遥控世界;手柄再长,玻璃还在。

世界给出的实时摩擦力、阻尼、意外误差,被 API 的返回值阉割成了几行 JSON,再回传给模型。误差被阉割,反馈就失真,下一轮决策就继续飘在语言层。只要系统里出现 API 没覆盖的异常——快递延迟、网络丢包、机械臂打滑——整条链就断给你看。

所以 ReAct 们解决的是"把语言模型连到数字世界的插座”,而不是"让模型长出自己的皮肤去蹭真实世界的粗糙"。插座再多,也替代不了肉身。

这就回到尼采那句老话:语言只是隐喻。API 也是隐喻,而且是更狡猾的隐喻——它让开发者误以为"已经接地",其实接的是一层薄薄的语义锡箔,一戳就破。

真正难的是下一步:让模型的参数里直接编码"我把杯子摔到地上会碎"的因果,而不是"读到过很多句子说杯子会碎"。前者需要持续的动作–感官–后果闭环,后者只需要文本统计。文本统计再膨胀,也统计不出玻璃碴子的锋利温度。

Yann LeCun 已决定近期离职 Meta,计划创业主攻世界模型。这不是更大的语言模型,而是带因果、带时间、带物理、带行动反馈的智能系统——脱离"语言影子"的智能。

谷歌的 Genie 3、腾讯 HunyuanWorld-Voyager 与伯克利 LWM 等最新发布,也都在尝试实时交互、环境感知和因果推演,可见业界正形成共识:语言模型的极限,就是语言本身的极限;继续堆大模型,功效比会急剧下降。相比之下,如果让模型去"做",而不是去"说",它突然获得了一个全新的坐标系:反馈、试错、物理约束、环境复杂性。这是语言模型永远无法从文本中学到的东西。

如果把尼采搬到今天,他很可能会说:“语言模型的伟大,在于它把语言榨干了。”

“语言模型的限制,在于它只能榨语言。“这句话其实能给研发和产品团队一个很务实的启发——把 LLM 当作语言系统,而不是世界系统。

它在抽象思考、文本结构化、文本生成、推理的线性组织、把混乱的信息变得清晰这些地方特别强。但它在面对真实世界的连续反馈、操作性的物理任务、动态、非语言式的信息、完全未知领域的探索这些地方天然弱。

当我们给它布置任务时,如果方式是"给我解释"“给我总结"“给我判断”,它表现得像个天才;但只要任务变成"给我行动"“给我试错"“给我反馈循环”,它立刻掉线。这不是模型的问题,是语言的天花板。

如果说大语言模型是语言智能的珠峰,那下一座山应该叫"世界智能”。

世界模型大概会有几个核心要素:不再只靠文本——开始大量引入感知、动作、物理控制的数据;不再只做概率预测——开始建立因果模型,能够解释、预判、修正;不再只在词和词之间运算——会在"行为和后果"之间运算;不再只输出句子——会直接输出行动策略。

这听起来像科幻,但实际上已经开始发生。未来的模型不是能把论文写得更好,而是能把机器人动作做得更稳;不是更会讲道理,而是更能在真实世界的混沌里生存。

这也意味着另一种边界正在浮现:语言模型不会消失,但会变成"智能系统中的一个模块”,就像嘴巴永远还在,但人类并不是靠嘴巴生存。

尼采的批判提醒我们,语言的力量很大,但它从来不是全部。大语言模型已经把"语言这个维度"极限地挖掘了一遍,我们看到了它的光辉,也看到了它的尽头。接下来要发生的,是"从语言走向世界"的跳跃——具身、因果、行动、反馈、真实物理世界的不可预测性。这是语言描述不了的,但智能必须面对。

在商业世界里,这意味着:语言模型不再是业务全部的解决方案,而是一个高效的子系统。它解决认知层的问题,但执行层、决策层、模型驱动层,必须有新的东西补上。语言像是一束光,照亮了我们理解世界的方式;但世界本身比这束光更辽阔。

如果说 LLM 是语言的极限,那下一步,就是开始重新面对世界本身