{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 通信 > 正文

OpenAI最新Sora模型背后:成立不到1年的核心团队打造

来源:IT商业科技网    时间:2024-02-19 15:54:27

在文字生成内容、图片之后,OpenAI 上周公布了最新产品 Sora,可以根据文字提示创建逼真的影片,再一次造成轰动。

OpenAI 在周四的博客文章中表示,名为 Sora 的文本到视频模型具有「对语言的深刻理解」,并且可以生成「表达充满活力的情感的引人注目的字符」。

这家微软支持的新创公司表示:「Sora 能够产生具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。」

「该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。」

3人核心团队,包括00后成员

媒体报道,根据OpenAI官网,Sora团队由William Peebles等3人领导,核心成员包括12人,其中有多位华人。 值得注意的是,这支团队十分年轻,成立时间尚未超过1年。

据报道,主要负责的 3 人包括:

William Peebles 大学就读 MIT,主修计算机科学,参加了 GAN 和 text2video 的研究,也曾在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。 他于去年5月毕业,与Saining Xie合着的扩散Transformer论文成为Sora的核心理论基础。

Tim Brooks,也是 DALL-E 3 的作者,去年 1 月刚从加州大学柏克莱分校博士毕业。

Aditya Ramesh 则是 OpenAI 的「老人」。 他是 DALL-E 的创造者,主导了三代 DALL-E 的研究,三个版本的论文当中他都是一作。

团队成员甚至还有00后。 团队中的Will DePue生于2003年,2022年刚从密西根大学计算机科系大学毕业,并在今年1月加入Sora项目小组。

此外,团队据称还有几位华人。 媒体报道,Li Jing 是 DALL-E 3 的共同作者,2014 年毕业于北京大学物理系,2019 年获得 MIT 物理学博士学位,于 2022 年加入 OpenAI。 Ricky Wang则是今年1月才刚从Meta跳槽到OpenAI。 其余华人员工包括 Yufei Guo 等尚未有太多公开资料介绍。

核心理论曾因缺乏创新性遭拒

Sora 靠着两项核心技术突破-Spacetime Patch(时空 Patch) 技术与 Diffusion Transformer(DiT,或扩散型 Transformer) 架构。

其中,时空 Patch 的技术论文其实是由 Google DeepMind 的科学家们于 2023 年 7 月发表的。 DiT 架构技术论文的第一作者则是 Sora 团队领导者之一 William Peebles,但戏剧性的是,这篇论文曾在 2023 年的电脑视觉会议上因「缺乏创新性」而遭到拒绝,仅仅 1 年之后, 就成为 Sora 的核心理论之一。

除此之外,Sora 的另一个重大突破是其所使用的架构,传统的文本到视频模型 (如 Runway、Stable Diffusion) 通常是扩散模型 (Diffusion Model),文本模型例如 GPT-4 则是 Transformer 模型 ,而 Sora 则采用了 DiT 架构,融合了前述两者的特性。

据报道,传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪声,直到图片变成完全无结构的噪声图片,然后在产生图片时,逐步减少噪声,直到还原出清晰的图片。 Sora 采用的架构是通过 Transformer 的编码器 - 解码器架构处理包含噪声的输入图像,并在每个步骤中预测出更清晰的图像。 DiT 架构结合时空 Patch,让 Sora 能够在更多的数据上进行训练,输出质量也大幅提升。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
OpenAI最新Sora模型背后:成立不到1年的核心团队打造

OpenAI最新Sora模型背后:成立不到1年的核心团队打造

在文字生成内容、图片之后,OpenAI 上周公布了最新产品 Sora,可以根据文字提示创建逼真的影片,再一次造成轰动。OpenAI 在周四的博客文
2024-02-19
任天堂Switch次代机种开卖时间传延至明年Q1

任天堂Switch次代机种开卖时间传延至明年Q1

市场一直盛传任天堂将在今年推出Switch游戏机次代机种(新型Switch),不过据外媒最新报道指出,任天堂已告知游戏研发商、新型Switch开卖时间
2024-02-19
艾睿铂首席执行官:人工智能有望自动完成40%的代码

艾睿铂首席执行官:人工智能有望自动完成40%的代码

华尔街日报周日报导,思科首席资讯官Fletcher Previn在《首席信息官网络峰会》受访时表示,思科认为人工智能有望倍增人类潜能,事实证明、
2024-02-19
苹果降价策略无效 郭明錤:iPhone在中国出货续减

苹果降价策略无效 郭明錤:iPhone在中国出货续减

天风国际分析师郭明錤近日在社交平台X发文,更新手机产业自1月至中国农历年结束 (2月中旬) 的重点,指苹果iPhone在中国市场出货按年持续
2024-02-19
燃油车挫勒等! 比亚迪新款油电轿车狂降2成 售价不到35万元

燃油车挫勒等! 比亚迪新款油电轿车狂降2成 售价不到35万元

燃油车挫勒等! 龙年一开工,比亚迪祭大招抢市,今推出新版插电式混合动力轿车秦Plus DM-i,售价7 98万元起,较之前版本降价高达2成,正式
2024-02-19
Akasa Air宣布多哈成为推出仅19个月后的第一个国际目的地

Akasa Air宣布多哈成为推出仅19个月后的第一个国际目的地

Akasa Air宣布,在推出不到两年后,它将首次扩展到国际业务。走向国际19个月前,Akasa Air运营了第一架客运航班。在不到两年的时间里,这
2024-02-18
印度航空公司启动学员试点计划

印度航空公司启动学员试点计划

印度航空公司是印度最大的航空公司之一,也是印度的旗舰航空公司,现在正在为飞行员、机组人员、地勤人员、安保人员和工程师启动飞行培训计
2024-02-18
Google推出具有新功能和增强功能的Android 15

Google推出具有新功能和增强功能的Android 15

当三星粉丝热切期待 One UI 6 1 更新的到来时,谷歌发布了一个激动人心的公告,为开发人员发布了第一个测试版本,正式推出了 Android
2024-02-18
谷歌在海得拉巴建立其美国以外最大的园区

谷歌在海得拉巴建立其美国以外最大的园区

美国跨国科技公司谷歌正在海得拉巴建立其在美国以外最大的园区。工程于几个月前开始,预计将于2026年初完工。海得拉巴的 Gachibowli 将拥
2024-02-18

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com