读完第三章,你可能已经注意到了一个有趣的事实:Marble、Genie、Muse、Oasis 这四个项目虽然都被归类为"世界模型",但它们生成世界的方式截然不同。 Marble 先建立 3D 空间结构,再往结构里填充视觉细节 —— 先有骨架,后有皮肤。Oasis 则相反,它完全不建构任何显式的 3D 结构,而是从视频数据中学到的"视觉记忆"出发,逐帧"幻想"出下一个画面 —— 没有骨架,只有一连串不断涌现的皮肤。
如果你还记得第二章的内容,你会发现这个分歧看起来异常眼熟。 这不就是 Forrester 和 Conway 的翻版吗?
Marble 的路线更像系统动力学 —— 自上而下,先定义结构(3D 空间、几何关系、物体的拓扑位置),然后在这个结构上生成细节。李飞飞团队明确指出,当前主流的 AI 架构将数据序列化为 1D 或 2D 序列,使简单的空间任务变得不必要地困难,需要原生的 3D 或 4D 感知架构来解决。这本质上是在说:你不能只靠从视频中学习"世界看起来是什么样"来理解世界,你需要显式地表征空间结构。
Oasis 和 Genie 的路线则更像元胞自动机 —— 自下而上,不预设宏观结构,而是让模型从海量像素级的局部模式中自己"涌现"出对世界的理解。Genie 从视频数据中学会了"如果我向前走,眼前的景象应该怎么变化";Oasis 从 Minecraft 录像中学会了"如果我挥锄头砸向方块,方块应该碎裂消失"。没有人告诉它们 3D 空间的几何规则,但它们通过看够了足够多的例子,自己在权重里编码了某种隐式的空间理解。
Muse 则像 Wright 在 SimCity 中做的那样,试图把两者焊在一起。它同时建模视觉帧和人类控制器输入 —— 既学习世界的视觉规律(自下而上),又学习人类行为的因果模式(自上而下的行为逻辑)。
三十七年前 Wright 面对的那个核心设计张力,在 AI 世界模型中以全新的形式重现了。
而且,当年那个张力带来的权衡取舍,今天同样存在 —— 只是换了一套技术语言。
自下而上的路线(Genie/Oasis)有天然的泛化优势:因为不依赖显式的 3D 结构,模型可以生成训练数据中从未出现过的全新场景。Genie 2 展示了出色的分布外泛化能力,甚至能把概念画和手绘草图变成可交互的环境。但代价是一致性难以保证 —— Oasis 在玩家转头后会重新排列地形景观,因为模型没有一个持久的 3D 世界表征来"记住"身后的东西长什么样。它更像一个不断在做梦的大脑 —— 前方的梦境很鲜明,但你转过头再看,刚才的梦已经变了。
自上而下的路线(Marble)则相反:因为显式地构建了 3D 结构,世界是持久且一致的 —— 你绕着一栋楼走一圈回来,它还在那里,跟你离开时一模一样。Marble 生成的环境可以下载、编辑、导出为标准格式。但代价是灵活性 —— 生成需要时间,不能像 Oasis 那样在你按下键盘的瞬间就"变"出前方的路。
这不是一个"谁对谁错"的问题。这是一个关于"如何表征世界"的根本性分歧 —— 而且这个分歧可能永远不会彻底消失,只会在不同的技术阶段以不同的方式被折衷。
如果你把 SimCity 的历史当作一面镜子,可以做出一个合理的预测:最终胜出的方案,大概率是某种融合。 就像 SimCity 把系统动力学和元胞自动机焊在同一块电路板上一样,未来的世界模型很可能会把显式的 3D 空间结构(提供一致性和可编辑性)与从数据中学习的隐式物理直觉(提供泛化能力和涌现行为)结合在一起。
事实上,这种融合已经开始出现。World Labs 的实验性项目 RTFM 就是一个信号 —— 它使用"空间锚定帧"(spatially-grounded frames)作为一种空间记忆,在实时生成的同时维持世界的持久性。这本质上就是在自下而上的逐帧生成中嵌入了一层自上而下的空间结构 —— 一种 Wright 式的焊接。
第二章我们讨论了 Gingold 的一个核心论断:SimCity 的价值不在于精确模拟城市,而在于提供一个"可操作的类比" —— 一个让人通过动手操作来建立直觉的简化模型。
这个概念放到今天的 AI 世界模型语境下,会产生一些非常有趣的推论。
推论一:今天的世界模型,最大的价值可能不在于"替代 Unreal Engine 做一款完整的 3A 游戏",而在于极大地降低了"看见一个世界"的成本。
在传统游戏开发中,"看见"一个关卡设计是否有趣,需要先经过数周甚至数月的资产制作、场景搭建和程序调试。设计师脑海中的创意必须穿过一条漫长的生产管道,才能变成一个可以走进去体验的空间。
Genie 2 展示的一个关键能力是快速原型制作 —— 概念画和手绘草图可以直接变成可交互的环境,让设计师在创意流程的最早期就"走进"自己的想法。这不是替代了后面的精细制作,而是在整个流程的最前端插入了一个全新的环节:低成本的直觉验证。
这正是 SimCity 的"可操作的类比"在新时代的延伸。SimCity 让市长们用一个简化模型来验证自己的城市规划直觉;世界模型让游戏设计师用一个AI生成的粗糙原型来验证自己的关卡设计直觉。两者的核心逻辑完全一致:先用一个不完美但可操作的简化版本来建立直觉,然后再决定是否值得投入全量资源去打磨。
推论二:世界模型可能催生一种全新的"游戏设计语言"。
传统游戏设计师的工作语言是技术性的 —— 他们用 Blueprint 可视化脚本连接逻辑节点,用行为树定义 NPC 状态转移,用数值表格调整武器伤害和资源产出。这些工具精确且强大,但它们也形成了一道门槛:你必须学会"说引擎的语言"才能表达你的创意。
世界模型正在引入一种根本不同的设计语言:自然语言。
在 Project Genie 中,用户用文本和图片来描述他们想要的世界。你不需要知道 Nanite 是什么、LOD 怎么设置、碰撞体怎么画 —— 你只需要说"一座被暴雨笼罩的赛博朋克城市",然后走进去看看是不是你想要的感觉。如果不是,改几个词再来一次。
这种转变的意义,可能比表面看起来大得多。它意味着"设计一个游戏世界"的能力不再被锁在技术专业人士手中。一个从未打开过 Unreal Editor 的小说家、一个只会画分镜的漫画家、一个有无数脑洞但不会写代码的玩家 —— 他们都有可能成为虚拟世界的创作者。
回想一下 SimCity 带来的最持久的影响:它被认为启发了一整代城市规划者、交通官员和地方政府官员,这些人在年轻时接触了这款游戏,后来选择了这些职业。SimCity 的力量不在于它是一个精确的规划工具,而在于它让一代人第一次拥有了对城市系统的直觉 —— 然后其中一些人把这种直觉带进了真实的城市。
世界模型有可能引发类似的效应:当"创造一个虚拟世界"的门槛从"数百人团队 + 数亿美元预算"降低到"一段文字描述 + 几秒钟等待"时,会有多少人第一次发现自己原来有创造世界的直觉和欲望?其中又有多少人会因此走上游戏设计、建筑设计或影视创作的道路?
Wright 的 SimCity 表面上是一款游戏,但它真正改变的是人们理解复杂系统的方式。同样,AI 世界模型表面上是一种游戏开发技术,但它真正的影响半径可能远远超出游戏。
DeepMind 将 Genie 3 视为通往 AGI 的关键垫脚石 —— 因为世界模型使得训练 AI 智能体在无限丰富的模拟环境课程中成为可能。换句话说,世界模型不只是"给人类玩的游戏世界",它也是"给 AI 智能体训练的虚拟健身房"。
李飞飞描绘了一个更大的图景:世界模型可以让外科医生在虚拟肠道中练习腹腔镜手术,让学生走进细胞内部观察生物学过程。而微软的 Muse 团队已经在探索将世界模型应用于工厂数字孪生和零售空间设计。
如果把眼光放远,世界模型可能成为人类理解和操作复杂系统的一种通用界面 —— 你想理解气候变化?走进一个加速运行的地球模型。你想测试一个新的城市交通方案?在一个 AI 生成的城市缩影中跑一遍。你想训练一个机器人?让它在无限多样的虚拟环境中反复练习。
这恰恰是 Maxis 当年"模拟一切"愿景的回响 —— 只不过当年的技术做不到,而今天的 AI 正在让它成为可能。
Wright 曾经用一个比喻来描述自己做游戏的方式:他把 SimCity 比作园艺 —— 因为你对一个活的有机体只有有限的控制力。你可以浇水、施肥、修剪枝叶,但你不能命令一朵花什么时候开。你是一个园丁,不是一个建筑师。
在传统游戏开发中,开发者更像建筑师。你绘制蓝图,你定义每一堵墙的位置,你决定 NPC 在第三幕第二场的第 47 秒说什么台词。世界的每一个细节都在你的控制之下,也在你的责任之内。
AI 世界模型正在把游戏创作者推向"园丁"的那一端。
当你用 Genie 生成一个世界时,你不能精确控制每棵树的位置 —— 你只能通过调整提示词来"引导"世界生长的方向。当 Oasis 在你面前逐帧涌现一个 Minecraft 世界时,前方出现什么样的地形,连你自己也不完全知道。你给出了种子和土壤的条件,但生长是自发的。
回想第二章 —— SimCity 之所以伟大,不是因为 Wright 精确控制了城市的每一个细节,而是因为他设定了恰到好处的初始条件和基本规则,然后让系统自己演化出丰富性。城市在玩家的操作和系统的涌现之间找到了平衡,这种平衡产生了一种无法被完全预测的"生命感"。 未来的游戏创作者,可能需要学会同样的技能:不是去"建造"一个世界的每一个角落,而是去"培育"一个世界 —— 定义它的基本法则,设定它的初始条件,然后在它自发生长的过程中做一个聪明的园丁。
这需要一种全新的设计思维。你不再问"这堵墙应该放在哪里",而是问"什么样的规则会让有趣的墙自己长出来"。你不再写一个 NPC 的全部台词,而是定义它的性格和目标,然后看它在与玩家的交互中自己说出什么。你不再雕刻一座山的每一处褶皱,而是描述这片大陆的地质条件,然后看 AI 生成什么样的地貌。
因为真实的世界 —— 我们生活的这个世界 —— 就不是被"建造"出来的。它是被"培育"出来的。
从大爆炸的初始条件出发,经过 138 亿年的涌现,长成了我们今天看到的样子。没有人手动放置了每一棵树、每一座山、每一条河流。简单的物理规则反复迭代,产生了不可思议的复杂性。
从这个角度看,AI 世界模型不只是一种新技术。它是人类第一次真正逼近了那种"宇宙级"的世界生成方式 —— 不是逐个像素地画出世界,而是定义规则,然后让世界自己长出来。
Will Wright 在 1989 年用元胞自动机第一次触及了这个理念。三十七年后,神经网络正在把这个理念推到一个他当年无法想象的尺度。
而 Gingold 的那本书,恰好帮我们看清了这条线索 —— 从 Forrester 的 150 个方程,到 Conway 的 4 条规则,到 Wright 的 SimCity,到今天的 Genie 和 Marble —— 核心问题始终如一:
这是游戏设计的终极问题。也可能是人工智能的终极问题。
评论区
共 条评论热门最新