很多专业AI绘画爱好者,一直在等待Stable Diffusion 3发布,从年前期待到了年后的,如今看来,很可能等不到开源安装包了。
5月份,Stability AI 宣布推出 Stable Artisan,宣布希望让更广泛的受众能够使用 Stability AI 的 Developer Platform API 功能。
很多人对这个产品感到不解,这是个什么产品。从其官方公告,Stable Artisan 具有Stability AI 的高级型号,例如 Stable Diffusion 3、Stable Video 和 Stable Image Core,使用户能够直接在 Discord 中创建高质量的媒体。
什么,要去Discord 种使用,不是独立的本地安装软件了吗?这不得不说,开源实在是赚钱太难了,在4月份Stability AI CEO都要离职的背景下,公司舍命要从开源转向闭源,也是情有可原。
毕竟看闭源AI绘画软件Midjourney,依靠在Discord 社区中付费使用,2023年预计营收在2亿美元,但团队只有11个人,简直是躺着数钱。
Discord 中SD比MJ有何特别?
Stability AI终于走midjourney的这条路了,在Discord上搭建了频道,对C端收费,集合了生图/生视频/图片放大/背景删除等功能,支持的图像和视频模型包括Stable Diffusion 3、Stable Video Diffusion和Stable Image Core。
点击链接就可以进入官方Discord服务器:https://discord.com/invite/stablediffusion
首先是文生图的使用方式。进入discord服务器之后进入ARTISAN频道,任意选择一个:
接着在输入框中键入“/dream”,会显示没有权限,点击https://stability.ai/stable-artisan#choose-stable-artisan-plan链接,注册登录后填写信用卡信息和地址,能免费试用三天,三天后开始收费。
早期Stable Diffusion相比Midjourney最大的不同就是“详细”,可以调各种参数,使用起来比较复杂,适合专业人士。这些参数如今也被搬到了Discord上,输入框里会提示用户输入以下五类参数:
从上到下分别为negative- prompt(负面提示词)、seed(种子值)、aspect(长宽比)、model(模型)、image(图片张数)
来看看生成的图片效果如何:
Stable Artisan还有两项特色技能:
草图:通过精确控制将粗糙的手绘草图升级为精细的输出。对于非草图图像,它允许通过利用图像中的轮廓线和边缘来详细处理最终外观。
结构:通过维护输入图像的结构来生成图像,使其对于高级内容创建方案(例如重新创建场景或从模型渲染角色)特别有用。
升级核心架构的Stable Diffusion
Stability AI官方表示,和SDXL相比,SD3的亮点在于其对字体和提示的遵循能力,这一点在人类偏好评估中得到了突出体现。为了实现这一目标,SD3采用了新的多模态扩散变换器(MMDiT)架构,该架构改进了对图像和语言表示的权重分离处理,从而显著增强了模型的文本理解和拼写能力。
SDXL到MMDiT架构升级,这使得SD3在理解和执行用户的文本提示时更为精准,生成的图像更加符合用户的预期。
简单来讲,Stable diffusion将在生成文字上更智能。事实上也的确如此,上图中的““CROZ-080-Develops”格外清楚,并没有出现书写错误,如果用Midjourney或者Dalle,得到的可能是一堆乱码。
除了生图,还有很多其他功能。比如放大分辨率、
外扩:
删除背景:
功能的丰富程度比Midjourney强太多。不过,在生成视频上,还有很长的路要走,因为使用的是扩散模型,AI并没有真正懂得物理规律,所以视频中的猫咪变形严重……
开源还是闭源才是未来?
经历过总裁辞职、核心团队解散的困境,Stability AI依然还在坚持,发布了SD3论文后,又发布了SD3的API,上线了Discord版本。
一个月前,百度董事长李彦宏的内部讲话曝光,给开源大模型泼了不少冷水,他称大模型开源的意义不大,闭源模型在能力上会持续领先。
在内部讲话中,他给出的理由是,有商业模式的闭源模型才能聚集人力和财力,中国和美国最强的基础模型都是闭源的,而最好的小模型都是大模型降维做出来的,而且闭源在成本、效率上有优势,同等能力闭源模型推理成本更低,响应速度更快。
他还有另一个理由,即模型开源跟传统软件开源如Linux、安卓不同,“虽然开源模型Llama也鼓励大家贡献各种各样的数据、代码,但实际上最主要的开发者就是Meta,不是一个真正大家一起来协同开发的产品。”
李彦宏的讲话不无道理,目前,开源模型面临的最大挑战就是商业化。之前在Stable Diffusion 3 发布的同一时间,外媒还传出了 Stability AI 旗下图像生成应用公司 Clipdrop 被收购的消息。
总部位于巴黎的 Clipdrop 成立于 2020 年 7 月,使用开源 AI 模型允许用户生成和编辑照片。在 2023 年 3 月以未披露的金额出售给 Stability AI 之前,它已从 Air Street Capital 筹集了种子投资。当时,Clipdrop 表示它拥有超过 1500 万用户。但仅仅一年之后,Stability AI 就将它卖给了美国写作助理初创公司 Jasper。
有人评价说,Stable Diffusion 3 的发布就是在掩盖这个消息。和很多 AI 创业公司一样,Stability AI 面临的困境在于其以惊人的速度烧钱,但却没有明确的盈利途径。
去年年底,该公司还传出了 CEO 可能被投资者赶下台的消息,公司本身可能也在寻求卖身。在这样的背景下,Stability AI 迫切地需要提振投资者信心,上线Discord版本收费可能就是以解燃眉之急。