视觉即语言：我们为MWC制作AI视频的思考

本文系用户投稿，不代表机核网观点

本文含有AI生成，请注意甄别

今年，我们和国内某大模型厂商合作，用谷歌 VEO 3.1 制作了 3 支技术宣传视频，在 MWC 展会中展出。
现场观众没有耐心看文字说明。视觉必须能直接传达意思。
所以，翻译才是最难的：把抽象的模型训练原理，变成任何人都能直觉感知的画面。
一、如何把技术原理变成镜头语言
现在的模型训练技术，大多是参数空间里的数学操作，肉眼不可见。
我们的选择是：用有体积感的几何实体承载抽象概念。立方体代表一个完整的模型，内部填充的小单元代表参数结构，颜色代表模型的身份，形态的变化代表训练与融合的过程。

镜头结构的选择也是出于同样的逻辑。我们为三支视频设计了一个统一的运镜方式：从宏观进入微观，再从微观拉回宏观。
这也是一个故事结构：让观众跟着镜头完成一次从整体印象到内部机制再到整体结论的旅程。
观众不需要理解数学，但他们会感受到：有什么东西进入了另一个东西，发生了变化，然后变成了新的东西。这个感受本身就是对技术原理的一次准确传达。

二、元素一致性与可解释性
除了美观，我们还关注自洽，这和语言的逻辑类似。
自洽是一套符号系统能够传达意义的前提。无论是颜色对模型身份的象征，立方体的尺度、圆柱体的比例、镜头的进退，还是形态变化对训练过程的演绎，都必须遵循同一套内在规则。
在这三支视频里，蓝、黄、绿三色贯穿始终，每一次形态变化都对应一个确定的技术动作。

有了这个前提，才能谈可解释性：每一个画面里发生的事，都应该能被还原成一句技术陈述。如果不能，这个画面就不该出现。
三、在AI工具的边界里做分工
工具的能力决定了创作的边界，但在边界内部，仍然有大量需要判断的空间。这种判断是一种分工意识：清楚哪些事该人来做，哪些事该交给模型。
AI 目前无法一次性生成符合预期的连贯视频。它擅长的是单一、明确的动作：一个摄像机运动，一次颜色渐变，一段固定视角的场景。所以首尾帧拼接永远比纯素材的可控性更强。
真正的创作，发生在拿起工具之前：把一个连贯的视觉叙事拆解成若干个最小单元，方便模型执行，然后由人在结构层面把它们重新组织成整体。
而一旦任务变得复合，既要控制物体运动，又要保持形态稳定，还要在特定时刻完成状态切换，它的指令遵循性就会急剧下降，结果往往是场面混乱，物体跳跃，高度失控。
我们的一个经验是：提示词应着重关注摄像机的动作，而非运动的主体。模型最擅长的从来不是控制物体，因为它理解世界的方式本身就是通过视频，而镜头就是视频的语言。

四、前AI视频时代的上限
这是妥协，但也是那个阶段唯一有效的工作方式。彼时 Seedance 2.0 还没有发布，我们只能在工具的边界里寻找空间。 
Seedance 2.0 出现之后，这个关系变了。它自己能完成分镜，能理解人的直觉表达，创作者的限制少了。 
这让我们意识到：评价一个视频生成模型好不好，画面是否酷炫从来不是标准，可控性才是。模型本身没有目的，它只是在还原它所学过的视频规律。而人有目的。模型与人的思维方式越接近，人的意志就越能通过它得到还原。
PS：言辞之间关注语言与思维，而视觉表达是另一种语言。欢迎从事视觉艺术、绘画、影视，以及大模型领域的朋友交流。