据陆媒《界面新闻》报道,字节发表文生图开放模型SDXL-Lightning。 AI 开源社群 Hugging Face 的最新名单,SDXL-Lightning 跻身模型趋势榜,同时也成为 Hugging Face Spaces 上的热门模型。
报道称,与 SDXL-Lightning 一同上榜的,是 Google 新推出的「最强开放大模型」Gemma 系列,以及 Stability AI 的新一代文生图模型 Stable Cascade。
在影像生成领域,先进模型的生成技术依赖扩散过程,就是把噪声逐步转换为影像样本的迭代。 这个过程通常需要20到40次呼叫神经网络,不仅会耗费庞大的运算资源,生成速度也比较慢。 产生一张高质量影像,大约需要 5 秒。
知情人士透露,字节跳动的SDXL-Lightning通过渐进式对抗蒸馏的技术,实现前所未有的生成速度。 此模型能够在2步或4步内产生极高质量和分辨率的图像,将产生速度加快十倍,是1024分辨率下速度最快的文生图模型,计算成本则降低为十分之一。
字节跳动智能创作团队对回应称,开源开放的浪潮已成为推动人工智能快速发展的关键力量,SDXL-Lightning 模型基于已有繁荣生态的文生图开放模型 SDXL,设计之初就考虑到与开放模型 社区的兼容。 SDXL-Lightning 可以作为增速插件无缝整合到卡通、动漫等多样风格的 SDXL 模型中,并支持当前流行的控制插件 ControlNet、产生软件 ComfyUI,方便开发者、研究人员和创意从业者结合这些工具,助力整个产业的创新和协作。
此前有消息称,在 Sora 引爆文生视频赛道之前,字节跳动也推出了一款颠覆性视频模型 Boximator。 与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文字精准控制产生影片中人物或对象的动作。
对此,字节跳动相关人士回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频 时长等方面还有很大差距。