在文字生成内容、图片之后,OpenAI 上周公布了最新产品 Sora,可以根据文字提示创建逼真的影片,再一次造成轰动。
OpenAI 在周四的博客文章中表示,名为 Sora 的文本到视频模型具有「对语言的深刻理解」,并且可以生成「表达充满活力的情感的引人注目的字符」。
这家微软支持的新创公司表示:「Sora 能够产生具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。」
「该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。」
3人核心团队,包括00后成员
媒体报道,根据OpenAI官网,Sora团队由William Peebles等3人领导,核心成员包括12人,其中有多位华人。 值得注意的是,这支团队十分年轻,成立时间尚未超过1年。
据报道,主要负责的 3 人包括:
William Peebles 大学就读 MIT,主修计算机科学,参加了 GAN 和 text2video 的研究,也曾在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。 他于去年5月毕业,与Saining Xie合着的扩散Transformer论文成为Sora的核心理论基础。
Tim Brooks,也是 DALL-E 3 的作者,去年 1 月刚从加州大学柏克莱分校博士毕业。
Aditya Ramesh 则是 OpenAI 的「老人」。 他是 DALL-E 的创造者,主导了三代 DALL-E 的研究,三个版本的论文当中他都是一作。
团队成员甚至还有00后。 团队中的Will DePue生于2003年,2022年刚从密西根大学计算机科系大学毕业,并在今年1月加入Sora项目小组。
此外,团队据称还有几位华人。 媒体报道,Li Jing 是 DALL-E 3 的共同作者,2014 年毕业于北京大学物理系,2019 年获得 MIT 物理学博士学位,于 2022 年加入 OpenAI。 Ricky Wang则是今年1月才刚从Meta跳槽到OpenAI。 其余华人员工包括 Yufei Guo 等尚未有太多公开资料介绍。
核心理论曾因缺乏创新性遭拒
Sora 靠着两项核心技术突破-Spacetime Patch(时空 Patch) 技术与 Diffusion Transformer(DiT,或扩散型 Transformer) 架构。
其中,时空 Patch 的技术论文其实是由 Google DeepMind 的科学家们于 2023 年 7 月发表的。 DiT 架构技术论文的第一作者则是 Sora 团队领导者之一 William Peebles,但戏剧性的是,这篇论文曾在 2023 年的电脑视觉会议上因「缺乏创新性」而遭到拒绝,仅仅 1 年之后, 就成为 Sora 的核心理论之一。
除此之外,Sora 的另一个重大突破是其所使用的架构,传统的文本到视频模型 (如 Runway、Stable Diffusion) 通常是扩散模型 (Diffusion Model),文本模型例如 GPT-4 则是 Transformer 模型 ,而 Sora 则采用了 DiT 架构,融合了前述两者的特性。
据报道,传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪声,直到图片变成完全无结构的噪声图片,然后在产生图片时,逐步减少噪声,直到还原出清晰的图片。 Sora 采用的架构是通过 Transformer 的编码器 - 解码器架构处理包含噪声的输入图像,并在每个步骤中预测出更清晰的图像。 DiT 架构结合时空 Patch,让 Sora 能够在更多的数据上进行训练,输出质量也大幅提升。