正在上海举行的世界人工智能大会WAIC,就像是对所有中国大模型公司的一个年中考试。大家都铆足劲,秀出了自己最新的进展。
2023百模大战” 各家都在刷榜比拼大模型的性能参数,在AI 2.0的“应用元年” ,今年各家AI公司都在基于自己对于AI应用和大模型技术理解的“非共识”,希望走出一条自己的破局之道。
在年初的大模型价格战,各家公司把API的价格彻底卷下来之后,似乎大模型市场就很少出现同时针对某一个单点因素不计代价的发力的情况。
纵观今年WAIC国内各家大模型公司的新品发布会,比拼模型性能强调参数的内容占比也越来越少,更多的是将自家模型和产品的特点,生态搭建等差异化因素展现出来,希望在应用层赶快找到落地的思路。
而依然在快速迭代模型性能的公司,也不仅仅是在测评集上下功夫,也更多的基于自己在技术路径上的特点和积累的优势,力图推出让人眼前一亮的技术和产品。
在5月份,OpenAI和谷歌前后脚放出了基于自身原生多模态大模型打造的最新模型产品——GPT-4o和“Project Astro”。它们都是利用自己模型的原生多模态能力,让用户能用声音和摄像头直接和模型自然地,低延迟地交互,希望能够重塑人机交互的新范式。
而商汤也成为了国内首家跟进的大模型公司,基于他们的原生多模态基础模型,快速地推出了“日日新5o”。商汤将它定义为国内首个所见即所得模型,希望能带来和AI实时的流式多模态交互的新模式。
从人类发明计算机以来,人机交互“平台级”的革命,最终都跑出了载入历史的产品和公司:人机图形化交互界面的革命,让微软成为了世界上最大的科技公司之一,让Windows成为了PC的灵魂;而iPhone的出现,开启了移动互联网时代,让苹果成为了最受用户欢迎,也是最赚钱的科技公司。
这也许是为什么OpenAI和谷歌都不约而同地选择将大模型技术朝着多模态方向上持续迭代背后的思考和逻辑。
商汤的发布会上发了很多东西,也讲了很多内容,有智能驾驶端到端的更新和突破,有可控视频生成的最新产品更新,有医疗行业落地的实例,有出海的举措。但也许日日新5o的发布,会成为那种在5年甚至10年之后,还会不断被人们回忆起,开启了一个新时代的时刻。
硬刚GPT-4o的流式多模态大模型
工作人员刚开始仅是和 “日日新5o”打个招呼,它就自动识别出工作人员脖子佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。
现场拍摄
接下来工作人员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴——一个带着印有商汤科技logo白帽子,很给主场人排面。
现场拍摄
再上些难度,随便翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结,这一切在瞬间即可完成,真正做到实时交互。
现场拍摄
画功” ,随手画了一只简笔画小兔子,“日日新5o”直呼画得可爱,而后工作人员又画了一个微笑表情,它从这个平静的表情中捕捉到了笑意,工作人员又改了一笔把嘴巴画大增添了舌头,“日日新5o”看到后立马说道这表情开心多了。
而在商汤的展台,我们也亲自体验了日日新5o的能力,有参观的用户觉得商汤准备好的几个固定的玩偶和书本可能有提前安排的嫌疑,就随手拿出自己带的一瓶矿泉水让模型去识别。模型丝毫不费力地就识别出这是一瓶喝了一半的农夫山泉。
现场拍摄
之后,观众又随手翻开旁边的书本,让模型通过摄像机去归纳内容,日日新5o也都能对答如流。
这些功能的实现,都是基于商汤训练的原生多模态大模型的能力。它能实时快速地处理多模态数据,从而让用户和AI的交互变得无比丝滑。商汤也第一次用中文界定了GPT-4o这样的交互方式——流式原生多模态交互模型。
WAIC镇馆之宝——Vimi视频生成模型
而除了这个流式多模态大模型的展示之外,商汤还带来了他们视频生成的最新进展——Vimi。
官方提供
Vimi是基于日日新5.5能力打造的首个可控人物视频生成大模型。只需一张任意风格照片,普通用户也能生成长达1分钟的视频。
“人物可控”一直是大模型生成的难题,就算强如Sora都难以精准控制动作,且连续性也不是太好,人物的五官和细节都很难避免畸变。
但Vimi不同,它能精确控制人物面部表情和半身像的自然姿态。此外,还能自动生成与人物匹配的头发、服装和背景变化,视频时长可达分钟级别。
官方放出的演示,一张自己照片马上变成冰雪女王。
官方提供
官方更是用Vimi将图灵,香农等计算机发展史上的大咖都复活起来,而且随着人物的运动,五官特征都得以保留的很好。
性能大幅升级,端云协同将大模型的成本彻底打下来
而商汤除了新点出的这两点科技树,日日新5.5在两个月的时间内又再次迭代 ,在性能上又有了接近30%的提升。在各大测试集上,日日新5.5重新占据了非常领先的位置。
官方提供
短时间内商汤模型能力取得如此大的提升,最主要是源于他们对训练数据进行更新。根据商汤的说法,他们使用超过 10TB tokens训练数据,包括大量人工合成数据,数据构造从基本的文本知识转向合成思维链数据。使得模型在数学、推理、长文本、编程等多个维度都有大幅提升。
而除了利用全新的合成数据对模型进行“增效”,商汤在“降本”层面上也取得了突破。模型采用混合端云协同架构,可最大限度发挥云边端协同,从而大幅降低了推理的成本,能够让用户以更低的成本获得更好的大模型使用体验。
商汤日日新端侧模型5.5 Lite同样也在性能指标的各维度上做到了全面升级。速度更快,效果层面在多个维度均全面升级,支持在智能手机、平板电脑、PC、车舱一体机等设备部署应用。
基于手机旗舰平台,5.5 Lite首次安装的耗时仅为0.19秒,相较于之前的版本减少了40%。它的推理速度提高了15%,达到每秒90.2个汉字的处理速度。
此外,商汤还推出了端侧模型矩阵,其中包括商量Mini写作助手、总结助手和百科助手等专门定制的模型。这些专项模型在相应的场景下具有更优异的性能,能够满足客户复杂业务场景的需求,同时也能够提供不同的专项模型供客户选择或定制。
而对于用户来说,端侧模型的使用成本,更是做到了几乎免费。