字节跳动发表文生图开放模型SDXL-Lightning-IT商业科技网

据陆媒《界面新闻》报道，字节发表文生图开放模型SDXL-Lightning。 AI 开源社群 Hugging Face 的最新名单，SDXL-Lightning 跻身模型趋势榜，同时也成为 Hugging Face Spaces 上的热门模型。

报道称，与 SDXL-Lightning 一同上榜的，是 Google 新推出的「最强开放大模型」Gemma 系列，以及 Stability AI 的新一代文生图模型 Stable Cascade。

在影像生成领域，先进模型的生成技术依赖扩散过程，就是把噪声逐步转换为影像样本的迭代。这个过程通常需要20到40次呼叫神经网络，不仅会耗费庞大的运算资源，生成速度也比较慢。产生一张高质量影像，大约需要 5 秒。

知情人士透露，字节跳动的SDXL-Lightning通过渐进式对抗蒸馏的技术，实现前所未有的生成速度。此模型能够在2步或4步内产生极高质量和分辨率的图像，将产生速度加快十倍，是1024分辨率下速度最快的文生图模型，计算成本则降低为十分之一。

字节跳动智能创作团队对回应称，开源开放的浪潮已成为推动人工智能快速发展的关键力量，SDXL-Lightning 模型基于已有繁荣生态的文生图开放模型 SDXL，设计之初就考虑到与开放模型社区的兼容。 SDXL-Lightning 可以作为增速插件无缝整合到卡通、动漫等多样风格的 SDXL 模型中，并支持当前流行的控制插件 ControlNet、产生软件 ComfyUI，方便开发者、研究人员和创意从业者结合这些工具，助力整个产业的创新和协作。

此前有消息称，在 Sora 引爆文生视频赛道之前，字节跳动也推出了一款颠覆性视频模型 Boximator。与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通过文字精准控制产生影片中人物或对象的动作。

对此，字节跳动相关人士回应称，Boximator 是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。