第三章：从游戏引擎到世界模型—一次根本性重构的尝试

本文系用户投稿，不代表机核网观点
⚠️ 未经作者授权禁止转载
一个开放世界的代价
在讲 AI 世界模型之前，我们需要先理解它试图颠覆的那个东西 —— 传统的游戏世界是怎么"造"出来的。
答案是：手工砌的。
一个现代 3A 开放世界游戏的生产流程大致如下：概念美术师画出世界的视觉风格 → 3D 建模师逐个制作建筑、树木、车辆、NPC 的模型 → 材质美术师为每个模型绘制贴图 → 关卡设计师在引擎中拼装这些资产，搭建可探索的空间 → 程序员编写物理引擎让物体有真实的碰撞和重力 → 灯光师烘焙每一处光影 → AI 程序员用行为树或状态机为 NPC 编写行为逻辑 → QA 团队在这个世界里走遍每一个角落，找出穿模、卡墙、逻辑矛盾……
这是一个极其劳动密集型的过程。在育碧，开发一款开放世界 3A 游戏需要 400 到 600 人的团队，分布在多个国家的多个工作室。《荒野大镖客 2》据估计花费了 Rockstar 约 5.4 亿美元，历时七年开发。英国竞争与市场管理局 2023 年的一份报告显示，计划在 2024-2025 年发售的 3A 游戏，平均开发预算已达到 2 亿美元以上。

而这些成本中，有相当大一部分花在了同一件事上：手动构建一个可信的 3D 世界。
想象一下《赛博朋克 2077》里的夜之城。那里每一栋楼的外墙纹理、每一个街头摊位上摆放的食物、每一辆车的内饰细节、每一块霓虹招牌上的字体 —— 都是有人手工制作或至少手工调整过的。一座虚拟城市的"存在感"，是由数百名美术师和设计师的数万个小时堆砌出来的。
游戏引擎（Unreal Engine、Unity）在过去二十年极大地提升了这个过程的效率。它们提供了物理模拟、光照系统、粒子效果、地形生成等基础设施，让开发者不必从零开始。虚幻引擎 5 的 Nanite 和 Lumen 技术甚至能实时渲染电影级别的画面。

但无论引擎多么强大，有一件事没变：世界里的每一条规则、每一个物体、每一种交互逻辑，最终都需要人类来定义。 引擎提供了画布和颜料，但每一笔仍然是人来画的。
这就是今天 3A 游戏的困境：玩家对世界的"丰富度"和"沉浸感"的期待不断提高，但满足这些期待的方式是不断增加人力和预算 —— 一条显然不可持续的路径。
世界模型试图提供一条完全不同的路。
"编程世界" vs "学习世界"
传统游戏开发构建世界的方式，本质上是编程。
每一棵树长在哪里，是有人放的。风吹过树叶的动画，是有人做的。NPC 遇到玩家时先停下、转头、说一句台词，是有人用行为树或脚本写的。水面的反射角度跟太阳位置的关系，是有人用着色器代码算的。
世界模型的方式则完全不同。它不编程世界 —— 它学习世界。
Google DeepMind 将世界模型定义为"能利用对世界的理解来模拟世界各方面的 AI 系统，使智能体能够预测环境将如何演变以及行动会如何影响环境"。
用一个不太精确但直观的类比：传统游戏引擎是"建筑师模式" —— 你画蓝图，选材料，指挥工人一层一层盖楼，每根钢筋的位置都要标注。世界模型是"造梦师模式" —— 你对它说"一栋哥特式教堂，彩色玻璃窗在夕阳下发光，门前有一条石板路"，它从自己"看"过的无数个世界中提取记忆，直接在你面前生成一个你可以走进去的空间。

这里面的根本差异不是"效率高了"这么简单。而是知识的存在形式变了。
在传统游戏中，关于"世界如何运作"的知识被编码在显式的规则里 —— 物理引擎的代码、AI 行为树的节点、关卡设计文档的每一行说明。这些规则是人类工程师用数学和逻辑一条条写出来的，透明、可控、可调试。
在世界模型中，这些知识被隐式地编码在神经网络的权重里。模型从海量的视频数据中"看"了数以亿计的帧 —— 树在风中摇晃、球从斜坡上滚下去、人走到门前会推门、车撞到墙会停下 —— 然后它"领悟"了某种关于物理规律、空间关系和交互逻辑的内在表征。没有人告诉它重力加速度是 9.8m/s²，但它生成的物体会自然地往下掉。
这就像一个人从小到大看了无数次篮球比赛，虽然从来没学过牛顿力学，但他能准确地预测一个抛物线球会落在哪里 —— 不是因为他会解方程，而是因为他的大脑中已经建立了一个关于"物体怎么飞"的内隐模型。
这种转变，从显式规则到隐式模型、从手工编程到数据学习，是一次飞跃——它是一种根本不同的构建世界的方式。
2024-2026：世界模型竞赛全景
过去两年，这个新范式从论文走向了可体验的产品。以下是当前赛道上最重要的几个玩家，以及他们各自选择的技术路线。
Google DeepMind — Genie 系列：从论文到产品的完整进化
Genie 是目前发展最完整的世界模型项目线。2024 年初，Genie 1 展示了一个简单但惊人的能力：给它一张图片，它能生成一个可交互的 2D 世界。同年 12 月，Genie 2 升级为基金会级世界模型，能从单张图片生成可操控的 3D 环境，用户通过键鼠输入来探索。
2025 年 8 月，Genie 3 实现了一个关键突破：从文本提示直接生成动态世界，实时 24fps、720p 分辨率，可持续一致性达数分钟。这意味着你不再需要一张"种子图片"作为起点 —— 直接用语言描述，世界就出现了。
而到了 2026 年 1 月，Google 将 Project Genie 向 AI Ultra 订阅用户开放，这是世界模型首次以消费级产品的形态面向普通用户。尽管 Google 自己也承认 Genie "不是游戏引擎，无法创造完整的游戏体验"，但从 Genie 1 到 Project Genie，不到两年时间，一个实验室里的研究原型已经变成了普通人可以在浏览器里使用的工具。

Microsoft — Muse / WHAM：让 AI "看懂"人类怎么玩游戏
微软的路线与 Google 有一个关键区别。Muse 是唯一一个在训练数据中同时包含游戏画面和对应控制器输入的模型。换句话说，它不只是学会了"世界看起来是什么样"，还学会了"人类在这个世界里会怎么操作"。
Muse 在 Ninja Theory 的多人对战游戏 Bleeding Edge 上训练，使用了相当于七年连续人类游戏操作的数据。它能生成长达两分钟的连贯可玩游戏片段，而且 —— 这一点非常有趣 —— 用户可以直接在画面上拖放模型熟悉的物体到游戏中，世界会自动适应并将其整合进来。
2025 年中，微软更进一步，推出了 WHAMM —— Muse 的实时可玩版本，在 Copilot Labs 上线了 AI 渲染的 Quake II 体验。值得注意的是，WHAMM 只用了一周的数据就完成了向新游戏的迁移训练，远低于 Muse 最初的七年数据量。
微软还提出了一个独特的应用场景：用 Muse 来复活那些因硬件过时而无法运行的经典游戏，让它们在任何设备上重获新生。如果这个设想成真，它意味着 AI 世界模型不只是"创造新世界"，还能"复活旧世界"。

Decart — Oasis：最激进的技术 Demo
如果说 Google 和微软的世界模型都还保持着与传统游戏引擎的某种距离感 —— 它们生成的是"类游戏体验"而非"真正的游戏" —— 那么以色列初创公司 Decart 的 Oasis 则直接朝着最激进的方向冲了过去：完全不用游戏引擎，从零开始，用一个 Transformer 模型逐帧生成整个 Minecraft 世界。
Oasis 接收键鼠输入后实时生成游戏画面，在内部模拟物理、规则和图形渲染。模型通过直接观看游戏演示来学习，使用户能够移动、跳跃、拾取物品、破坏方块。没有预建的 3D 模型，没有物理引擎代码，没有材质贴图 —— 所有这些都被"折叠"进了一个神经网络的权重里。
2025 年 9 月的 Oasis 2.0 升级到了 1080p、30fps，并推出了 Minecraft Mod 集成，让真实的 Minecraft 世界可以通过 AI 实时进行风格变换。
Oasis 的意义不在于它现在有多好用 —— 老实说，体验还相当粗糙 —— 而在于它证明了一个概念：游戏引擎这个存在了数十年的软件形态，至少在理论上是可以被神经网络完全替代的。

World Labs（李飞飞）— Marble：不一样的战场
如果上面三个项目都在做"实时生成可交互的世界"，那么李飞飞创办的 World Labs 选择了一条不同的路 —— 它不做实时生成，它做持久化的 3D 世界构建。
Marble 与其他世界模型的关键区别在于：它创建的是持久化、可下载的 3D 环境，而非实时生成后即消即散的世界。用户可以输入文本、图片或视频，Marble 会生成完整的 3D 环境，然后你可以在里面编辑、扩展、调整光线、移动家具 —— 就像在一个 3D 编辑器里工作一样。
更关键的是，Marble 可以导出 Gaussian splats、mesh、视频等标准 3D 格式，直接接入传统的游戏开发或影视制作流程。这意味着，你可以用 Marble 快速生成一个关卡原型，然后把它导入 Unreal Engine 做进一步的打磨和开发。
李飞飞把这件事放在了一个更大的概念框架里 —— 她称之为"空间智能"（Spatial Intelligence）。她认为当前主流的 AI 架构将数据序列化为 1D 或 2D 序列，使简单的空间任务变得不必要地困难 —— 比如在一段短视频中数清有几把不同的椅子，或者记住一小时前一个房间长什么样。她主张需要原生的 3D 或 4D 感知架构。

2026 年初，World Labs 完成了 10 亿美元融资。这个数字本身就是一种信号 —— 资本市场认为"空间智能"不是一个小赛道。
一张坐标图
为了让你对这四条路线有一个更直观的理解，可以想象一张二维坐标图。
横轴是"实时性"—— 左边是 Marble（离线生成，精雕细琢），右边是 Oasis（完全实时，逐帧生成）。Genie 和 Muse 在中间偏右的位置。
纵轴是"与传统工作流的兼容性"—— 下面是 Oasis（完全抛弃游戏引擎，自成一体），上面是 Marble（生成标准 3D 格式，接入现有流程）。Muse 在中间偏上（开源权重，Azure 上可用），Genie 在中间偏下（封闭生态，消费级体验）。

没有哪条路线是"正确答案"。它们各自押注的是不同的未来：
Oasis 押注的是"游戏引擎被完全替代"的极端未来。Marble 押注的是"AI 成为 3D 内容创作的加速器但不替代引擎"的渐进未来。Genie 押注的是"世界生成成为一种新的消费级体验品类"。Muse 押注的是"AI 世界模型首先在大型游戏公司的内部工作流中落地"。
但如果你后退一步看，这四条路线争论的，其实还是《Building SimCity》里的那个老问题的变体 —— 你在哪里画那条线？多少东西交给人类设计师显式控制，多少东西交给系统自己去学习和涌现？
Oasis 的答案是"全部交给 AI"。Marble 的答案是"AI 生成初稿，人类精修"。Muse 的答案是"AI 学习人类怎么玩，然后帮人类构思新玩法"。Genie 的答案是"让普通人用语言就能召唤一个可探索的世界"。
哪个答案最终会赢？也许不是其中任何一个，而是它们的某种组合。
但有一点可以确定：我们正在见证"如何构建虚拟世界"这件事的一次根本性重构 —— 从完全由人类手工编程，到人机协作，到 AI 自主生成。这条演化路径的方向是清晰的，只是最终的平衡点还在寻找之中。