腾讯控股发布了一款基于中国科技巨头浑源人工智能基金会模型的文本转视频生成工具,以与 OpenAI 的 Sora 竞争。
12月3日,腾讯宣布,混源视频是目前开源领域参数最丰富、性能最高的文本转视频模型,拥有130亿个参数,可生成物理精度高、场景丰富的5秒视频它补充说,一致性,将概念变为现实并促进创造性表达。
据腾讯 HunYuan 团队称,在从持续时间、文本对齐、运动质量和视觉质量等各个维度进行评估时,HunYuanVideo 得分为 41%。该团队补充说,它的得分高于两种国产工具和国际型号,例如 Runway GEN-3 Alpha 和 Luma 的 Dream Machine 1.6.
腾讯 HunYuan 多模态生成团队负责人 Kai Sa 告诉第一财经,文本转视频技术仍然不成熟,大多数模型的成功率都很低。Kai 补充说,根据这家总部位于深圳的公司的内部评估,该技术尚未达到适合大规模商业化的水平,仍需要技术改进。
Kai 指出,与每次生成单个图像的文本到图像模型不同,文本到视频模型每个视频创建 129 张图片,从而显着增加了计算需求。Kai 说,许多同行不愿意开源这种昂贵的模型,这使得许多人无法访问它们,因此 HunYuan 决定开源其视频工具。
此外,视频模型难以准确模拟物理定律,所涉及的数据处理、清理和物理定律的整合都非常复杂,Kai 指出,并补充说 HunYuan 计划将现实世界的知识整合到 HunyuanVideo 中。
其他中国公司也推出了视频生成工具,包括快手科技的科灵 AI、清华大学支持的圣书 AI 的 Vidu、知谱 AI 的青影、字节跳动的 Dreamina AI、MiniMax 的 abab-video-1 和阿里巴巴集团控股的同义千文。总部位于加利福尼亚州的 Open AI 的 Sora 正处于内部测试阶段,不对公众开放。