GPT、DALL·E、Sora，为什么 OpenAI 能跑通所有 AGI 技术栈？

元璟资本 2024-02-20 17:44

Sora 的出现，再次证明了 OpenAI 试图让计算机去模拟真实物理世界的野心，以及它对于自身技术路线的坚持。从 OpenAI 发布的 Sora 的技术报告中，我们可以看到很多 OpenAI 对于过往大语言模型训练成功经验的复用。

从文本生成模型 GPT、文生图模型 DALL·E，到文生视频模型 Sora，OpenAI 可以说成功跑通了 AGI 的所有技术栈，为什么是 OpenAI 而不是谷歌、Meta？

加州大学伯克利分校 (UC Berkeley) 计算机科学 PHD、知乎作者 SIY.Z 从技术实现上分析了 Sora 成功的部分原因，以及从商业和技术趋势上分析了 OpenAI 能跑通全部技术栈的原因，并且尝试预测了 OpenAI 下一步的进展，Founder Park 授权转载，并进行了部分删减。现在将此文分享给大家。‍

‍

01 Sora 的技术分析：借鉴了 LLM 的成功经验

Sora 多么牛逼多么真实之类的就不多谈了，只用一句话就能概括：随便拿视频中的一帧出来，效果都不亚于 Dalle-3 精心生成一张图片，而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且 Sora 本身其实也可以做图片生成，只是大材小用了。

如果限制必须用一个词来展现 OpenAI 的最核心的技术，我觉得便是 scaling law——即怎么样保证模型越大，数据越多，效果就越好。Sora 也不例外。

一句话概括 Sora 的贡献，便是：在足量的数据，优质的标注，灵活的编码下，scaling law 在 transformer + diffusion model 的架构上继续成立。在 Sora 的技术报告*中可以看出，OpenAI 实现 scaling law 的想法其实很大程度上沿袭了大语言模型的经验。

* https://openai.com/research/video-generation-models-as-world-simulators

足量的数据

训练 Sora 用了多少数据？不出意外，OpenAI 在整个技术分析中一点都没有提数据的事情，这可太 CloseAI 了。但是鉴于内容的丰富性（比如甚至可以生成相当连贯一致的 Minecraft 游戏视频），我猜测很可能是大量的 YouTube 视频，同时也不排除有合成数据（比如 3D 渲染等）。未来可能用整个 YouTube 上的视频来训练视频生成模型，就和大家用 Common Crawl 训练大语言模型一样。

灵活的编码（visual patches）

在大语言模型的构建中，一个非常重要的部分便是它的 tokenizer。tokenizer 使得任何长度和内容的文本都能编码成语言模型可以直接处理（输入/输出）的对象，即 embeddings。embeddings 在 Sora 中的对应物称为 visual patches，tokenizer 对应的是 video compression network，应该是某种 convolutional VAEs (文章没有说明是不是 VQ-VAE)。

具体做法是用 video compression network (visual encoder) 首先将输入视频的时间和空间维度同时进行压缩，编码成一个和视频大小成正比的 3D visual patch array，然后再将它按照某种顺序展开成 1D array of patches，送入到 transformer model 中（具体方式应该是参考了 https://arxiv.org/abs/2212.09748）。这样带来了不少好处：

灵活的分辨率。Sora 可以生成 1920x1080p（横屏）- 1080x1920p（竖屏）之间任何形状的视频。这也让 OpenAI 可以在早期使用低分辨率的视频来试错。
生成的视频的边框更加合理。OpenAI 试过使用固定分辨率，这样带来一个很显然的问题——需要裁剪视频。这种数据的 bias 会被带入到模型中，促使模型生成很多内容在框外的视频。

优质的标注

和 DALL·E 3 一样，OpenAI 用内部工具（很可能基于 GPT4-v）给视频详尽的描述，提升了模型服从 prompt 的能力，以及视频的质量（还有视频中正确显示文本的能力）。我认为这是非常关键的一点，是 OpenAI 的杀手锏，对于视频尤其重要。原因很简单，可以从两个角度解释：

（1）神经网络是个单射函数，拟合的是文本到视频的映射。视频的动态性非常高，也就是有很大的值域，为了把这个函数学好，需要定义域也很大很丰富，这就需要复杂的 prompt 了。‍

（2）详细的文本也迫使神经网络学习文本到视频内容的映射，加强对于 prompt 的理解和服从。

另外一个细节：这种详尽的描述会导致在使用时的 bias——用户的描述都相对较短。和 DALL·E 3 一样，OpenAI 用 GPT 来扩充用户的描述来改善这个问题，并提高使用体验和视频生成的多样性。

除了文本以外，Sora 也支持图像或者视频作为 prompt，支持 SDEdit，并且可以向前或者向后生成视频，因此可以进行多样的视频的编辑和继续创作，比如生成一个首尾相连重复循环的视频：