不是「AI 怎么用」的累,而是那种被迫保持兴奋的累。
巨头们几个月就要升级一次他们的模型,用普通人不熟悉的指标评分,告诉我们:模型更强了,AGI 更近了。
社交媒体:网上最兴奋、声量也最大的是媒体人、程序员、科技行业从业者们,他们本来就每天和信息打交道,AI 能帮他们写稿、画图、写代码,他们有理由认为「AI 改变了一切」。但如果我们去问建筑工人、餐厅服务员、网约车司机呢?
大模型公司:扎克伯格说超级智能触手可及,奥特曼说知道如何实现 AGI。他们需要资本市场继续相信这个故事。
各行各业:一位亚马逊中层坦言:高层宁愿盲目跟投,也不愿承担「错过 AI 浪潮」的风险。红杉合伙人 David Cahn 警告:FOMO 情绪正在把全行业押在一条路上。
AI 成了一个「不行也得说它行」的东西。不过幸好这些大模型公司还有一个共识:用评测集来看它到底行不行。
我们都考过试,测过智商,也知道分数的诱惑:98 分比 97 分强,这看起来客观、可信。
但问题在于,这些数字只是用来比较的刻度,它们本身并不能告诉我们「智能」到底是什么。
大模型的评测集也是一样。模型可以在数学推理、代码生成、知识问答上狂飙分数,甚至超过我们。但这些评测集衡量的,都是同一种能力:在既定框架内把问题解得更快更准。
问题在于,就算这种能力刷到了 99 分、999 分,也不等于科学革命,因为科学革命从来不是靠做题实现的。
教科书常把科学描绘成盖大楼:牛顿打地基,爱因斯坦盖二楼,后人在此基础上添砖加瓦。
真正的科学革命不是在旧体系上盖楼,而是把地基炸掉。
科学史家托马斯·库恩对此解释得很清楚[1]:科学真正的革命从来不是把同一套题做得更快更准,而是彻底换一种理解世界的方式。
范式最本质的任务是告诉科学家一些共识:什么问题才是「科学」的,什么答案才是「合理」的。
一旦共识达成,大家就不再争论「力是什么」,而是专注于套用 F=ma 解具体问题。这就是常规科学,也是科学界日常的大部分工作。
别小看这种工作,它是科学积累的基础,避免了学科沦为各说各话的民科猜想。
常规科学要竭尽全力做的,就是库恩说的解谜:利用范式提供的规则,把观测到的现象塞进理论框架里,比如水星轨道偏了?加个修正项。实验数据不符?调整参数。
知名数学家陶哲轩用 AI 辅助研究,效果确实不错。但细看就会发现,这些问题都有共同点:结构明确、路径清晰,只是需要计算、检索或大量尝试。
AI 在陶哲轩的研究中,没有提出新的数学对象,没有引入新的思想工具,也没有重新定义问题本身。它还是在「范式内加速」,只不过效率更高了。
那科学革命是怎么发生的? 常规科学本身不能诞生革命,但它有个很妙的作用:越是死板,越容易发现问题。
因为常规科学越是想把一切塞进既定的盒子里,就越容易发现有些东西塞不进去。
事出反常必有妖,先得发现反常(Anomalies),才能去找那个妖(新范式)。
随后,两种关键情绪来了:「失灵的感觉」与「不安全感」。
19 世纪末,麦克斯韦电磁理论与牛顿力学的矛盾[2]让物理学界集体陷入这种焦虑。爱因斯坦关注的不是某个技术细节,而是他确信:旧范式从根上就错了。
失灵来自对「这套解释行不通了」的质疑;不安全感,则来自必须「砸烂一个旧世界」的觉悟。
这正是 AI 无法复刻科学革命的原因。因为新范式的诞生,从来不是靠证据堆出来的,而是依赖一些无法量化、甚至本质上非理性的特质,比如信念和审美。
那些最早追随新范式的人,必须无视现有证据,去相信一个尚未被证明的东西能够成功。这种选择只能基于信念。
哥白尼提出日心说时,手里的证据很薄弱,预测精度也不高,并不比地心说更有说服力[3],甚至面临两个当时的致命硬伤:既观测不到恒星视差,也解释不了「若地球自转,为何垂直抛出的石头不落向后方」的力学悖论。
但他依然坚持。不是因为数据,而是他深受新柏拉图主义与毕达哥拉斯学派的影响,他坚信太阳居中让宇宙「更和谐、更简洁」。 这靠的不是计算,而是一种近乎宗教般的信念。
OpenAI 前首席科学家 Ilya Sutskever 在这周的播客中也提到类似的意思[4]:
因为如果你总是相信数据,有时候你做的事情是对的,但代码里有 bug。你不知道有 bug。你怎么判断是不是有 bug?你怎么知道该继续调试还是该得出结论说方向错了?靠的就是自上而下的判断。你可以说事情必须是这样的。某种东西必须有效,因此我们得继续下去。这就是自上而下,它基于这种多方面的美和来自大脑的启发。
这种信念,与一些互联网公司看好 AGI 前景的「信心」截然不同。因为他们更多是基于利益的战略押注,没前景的业务就砍了。
而坚信科学革命的人,往往毫无退路。只有具备这种信念,你才敢在证据不足、所有人都说你错的时候,孤注一掷地坚持:「这个旧世界,从根上就错了,砸烂它,新世界才能出来。」
爱因斯坦 1905 年提出狭义相对论,1915 年提出广义相对论。但真正的实验验证要等到 1919 年的爱丁顿日食观测,才证实了广义相对论的预言。
狭义相对论的验证要更漫长,没有决定性的单一实验,而是靠光速测量、时间膨胀、粒子寿命等零散证据,跨越几十年,一点点累积。
这意味着什么?追随爱因斯坦的科学家真正相信的不是确定性,而是理论本身的结构美:一个更简洁、更优雅的世界观。
正如 Ilya 前面所说,我们必须有一种自上而下的判断能力,这种能力来源于研究品味(research taste):
你会问自己,某个东西是根本性的吗?事物应该是什么样的。我想这一直在相当程度上指引着我,从多个角度思考,寻找某种美和简洁。丑在这里没有容身之处。
前 Meta FAIR 研究科学家田渊栋[5]也在这周的播客中说:
研究品味是一种直觉感知,帮助你在模型泛化和 scaling laws 的不确定性中,优先选择有前景的方向。它让科学家能够融合第一性原理思考和高效实验。
对于追求确定性的大模型来说,它能否理解信念、审美这几个字的分量?
相对论同一时期,还发生了第三次数学危机。罗素发现了集合论中的一个悖论[6],直接动摇了整个数学的逻辑根基。
对当时的数学家来说,这是真实的存在性威胁,是毕生信仰的东西突然站不住脚了。弗雷格[7]收到罗素的信时,整个人都崩溃了。
当它写出一个错误的物理公式,它会感到焦虑吗?当它无法解决一个逻辑悖论,它会感到挫败吗?当它批量生产的论文被审稿人拒掉,它会在午夜辗转难眠吗?
对它来说,「数学危机」只是训练数据里的几个 token。它不会体验「天将降大任」的兴奋,也不会经历「世界错了」的痛苦。
它做的只有一件事:用更强的算力,加速巩固现有的知识。
[1] Kuhn, Thomas S. The Structure of Scientific Revolutions. 50th ed., University of Chicago Press, 2012.
[2] 牛顿力学认为光靠「以太」传播,因此地球运动时应该测到以太风;麦克斯韦电磁理论却预言光速对所有观察者都恒定。两者只能其一为真。为了挽救以太,物理学家提出过各种修补(如洛伦兹的长度收缩假说),但都带有明显缺陷。迈克尔孙—莫雷实验反复测不出以太风,使这一矛盾成为无法回避的反常。爱因斯坦的突破在于,他不再尝试替旧理论补洞,而是直接放弃以太和绝对时空,从光速恒定出发重建整个体系,这才有了狭义相对论。
[3] 在哥白尼之前,托勒密体系已经运行了很长时间,但行星的实际运动越来越难用原有结构解释,历法计算也常常需要反复修补。这些累积的技术困难让天文学家意识到旧框架本身已经变得笨重,但又没有更好的替代方案。日心说正是在这种背景下出现的:它并不是依靠更强的证据,而是提供了一种新的排列方式,使行星轨道的整体关系看起来更统一。也因为如此,它在提出后经历了相当长的争论期,才逐渐被接受。
[4] https://x.com/dhwani_io/status/1993398945549369596
[5] https://www.youtube.com/watch?v=EsaUQNx59vA
[6] 罗素悖论由伯特兰·罗素于 1901 年提出,揭示了朴素集合论的根本缺陷。悖论构造了一个「所有不包含自身为成员的集合」(记为 R),然后追问:R 是否包含自身?若包含则不该包含,若不包含则必须包含,这就陷入自相矛盾。这表明「任何性质都能构造集合」这一基础假设不可行。由于集合论被视为现代数学的基础,这个悖论引发了数学基础的重大危机,促使数学家发展出更严谨的公理化集合论体系(如 ZFC)来重建数学根基。
[7] 弗雷格希望证明所有的算术真理都可以从逻辑推导出来,他投入近二十年来做这件事。但就在《算术基本法则》即将付印时,他收到罗素来信,指出其「集合」定义包含自相矛盾。弗雷格只能在书末写道:「在工作即将完成之际,发现自己建造的大厦的基础崩溃了,对于一个科学家来说,没有任何事情比这更为不幸的了」。他后来被公认为分析哲学、语言哲学的奠基人之一。
评论区
共 5 条评论热门最新