{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

腾讯宣布混元文生图大模型开源: Sora同架构 可免费商用

来源:互联网    时间:2024-05-16 11:14:28

  腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

  这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

  评测数据显示,最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型;整体能力属于国际领先水平。

  自研新一代文生图模型

  大模型的优异表现,离不开领先的技术架构。升级后的腾讯混元文生图大模型采用了全新的DiT架构(DiT,即Diffusion With Transformer),这也是Sora和 Stable Diffusion 3 的同款架构和关键技术,是一种基于Transformer架构的扩散模型。

  过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起,腾讯混元文生图团队就明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为DiT架构。

  在DiT架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,达到行业领先水平。同时,在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。

  中文原生也是腾讯混元文生图大模型的一大亮点,此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

  评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

  全面开源,惠及行业

  腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。《央视新闻》《新华日报》《深圳特区报》《南方都市报》《羊城晚报》等20余家媒体,也已经将腾讯混元文生图用于新闻内容生产。

  腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”

  基于腾讯此次开源的文生图模型,开发者及企业无需重头训练,即可直接用于推理,并可基于混元文生图打造专属的AI绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。

  同时,基于开放、前沿的混元文生图基础模型,也有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

  据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块,目前在Github上已累计获得超 47 万开发者关注及点赞。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
腾讯宣布混元文生图大模型开源: Sora同架构 可免费商用

腾讯宣布混元文生图大模型开源: Sora同架构 可免费商用

  腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模
2024-05-16
联想上了AI 是加了翅膀还是拖了后腿?

联想上了AI 是加了翅膀还是拖了后腿?

  在最近的2024 Lenovo Tech World大会上,联想公司隆重推出了配备"联想小天"功能的多款电脑设备,包括YOGABook 9i AI元启、YOGAPro
2024-05-16
5G网络深度覆盖再提速 湖南宣贯建筑物移动通信基础设施工程技术标准

5G网络深度覆盖再提速 湖南宣贯建筑物移动通信基础设施工程技术标准

  昨日,《建筑物移动通信基础设施工程技术标准》(以下简称《标准》)宣贯会在长沙召开。会议阐述了实施《标准》的重要性,对其重要内容进
2024-05-16
再次站在行业前沿 vivo成为首批适配Android 15 Beta手机厂商

再次站在行业前沿 vivo成为首批适配Android 15 Beta手机厂商

  5月15日,谷歌在2024年I O开发者大会上正式发布了备受期待的Android 15 Beta版本操作系统,这一新版本带来了诸多创新功能和性能优化
2024-05-16
鸿海与西门子策略结盟 携手优化前瞻性智能制造

鸿海与西门子策略结盟 携手优化前瞻性智能制造

  鸿海15日宣布与西门子共同签署合作备忘录,双方将携手优化前瞻性智能制造,专注于全球各地资通讯和电动车的制造生产流程。  鸿海表示
2024-05-16
下半年AI服务器需求大爆发 全年占服务器业务比重逾50%

下半年AI服务器需求大爆发 全年占服务器业务比重逾50%

  广达今日召开线上法说会,广达经营团队预期,第二季 AI 服务器将呈现温和成长,下半年开始有强劲需求将迎来大爆发,全年服务器业务有
2024-05-16

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com