一个真正意义上符合大众想象的人工智能助手应该是什么样de ?基于GPT-4o的新ChatGPT无疑给整个业界打了个样。能进行实时语音对话、可使用文本和视觉进行交互,还有记忆功能的新ChatGPT,几乎媲美电影《她》(Her)中斯嘉丽·约翰逊饰演的AI助手。当OpenAI在5月14日凌晨的发布会似乎让“AI伴侣”触手可及之后,作为竞争对手的亚马逊自然也坐不住了。
日前有消息显示,亚马逊方面正在使用生成式人工智能来升级其智能语音助手Alexa,并计划向用户收取相应的订阅费。有知情人士透露,亚马逊将推出更具对话性的版本,令其能与谷歌、OpenAI的竞品展开竞争。
而这一消息也与此前亚马逊在不久前发给股东的年度信中所描述的事实相符,当时其就已确认正在消费者业务中构建GenAI应用程序,其中包括功能更为强大的Alexa。
从某种意义上来说,在这一轮人工智能的浪潮里,亚马逊如今才重新想起了此前就被束之高阁的Alexa。自从2021年Andy Jassy成为亚马逊新任CEO以来,由于Alexa部门的业绩多年来难以改善,这个此前在贝索斯时代被认为是亚马逊开拓创新能力代表的项目,也逐渐在亚马逊内部的优先级下降,甚至于成为了裁员的重灾区,更是大规模紧缩开支计划的主要对象。
然而如果要为亚马逊的消费者业务构建AIGC应用,Alexa确实几乎是最好的载体。
早在2014年亚马逊就推出了Alexa,最初用户只能使用Alexa语音助手进行播放音乐、设置定时器和闹钟等简单任务,随着后续的不断迭代,Alexa逐渐可以被用来控制智能家居、观看视频和电视节目、购物,甚至是给孩子们读睡前故事。再搭配Echo智能音箱,一个语音控制的新计算平台也呼之欲出,为了让语音控制真正落在实处,亚马逊甚至搞出了Alexa Skills。就如同苹果App Store中的海量应用为iPhone拓展了更多的使用场景一样,亚马逊也希望借助Alexa Skills让Alexa语音助手可以执行更为多样化的任务。
只可惜在当时的技术条件下,用语音来进行操作终究是空中楼阁,单单Alexa难以理解复杂指令,就让Alexa Skills被局限于数个与语音强关联的场景。为此在2018年时,亚马逊也曾尝试改造Alexa Skills,以允许Alexa直接执行任何技能,而无需先安装。比如说在这一新模式下,用户不再需要对Alexa说出“打开美团、订一份肯德基”,而是只用说“我想点外卖”,Alexa就会使用上下文的线索来弄清楚用户的真实意图,并利用用户的位置、订阅、服务和历史记录,来确定需要使用的应用。
然而遗憾的是,彼时的自然语言理解(NLP)技术还不足以支撑亚马逊的这番愿景,它依然只能简单、机械地从预设的数据库里提取、并匹配信息。最终用户发现,无论Alexa、还是Siri,或者Google助理,语音助手与智能实在是没有太大的关系,也并不足以改变日常生活,以至于在消费者口中Alexa变成了一个“被美化的收音机”。
如今ChatGPT的出现,则给了亚马逊重振Alexa的理由。在大模型相关技术的支撑下,ChatGPT具备了Alexa、Siri等上一代语音助手所不具备的广度、灵活性和复杂性。从某种意义上来说,ChatGPT正是亚马逊想要将Alexa塑造成的理想模样。而ChatGPT之所以能够在2022年年末重燃大众对于AI的热情,无疑靠的就是擅长“说人话”,能够让用户有真的在与“人”、而不是“机器”交流的感觉。
到了2024年年初,GPTs Store的出现更是让ChatGPT如虎添翼,进而到了当下的GPT-4o,ChatGPT已经能够快速响应来自实时对话的文本、音频和视频输入,同时以传达强烈情感和个性的语调与措辞进行对话。通过自然语言理解用户请求,并在一个或跨多个GPTs来执行这些请求,最终实现“听用户说、帮用户做”。
不难发现,现在的ChatGPT几乎就是亚马逊Alexa想要“活成的样子”。
既然有了OpenAI的珠玉在前,亚马逊对Alexa进行全面的技术改造,以崭新的姿态重回战场显然就毫不突兀了。用亚马逊Alexa新负责人Rohit Prasad的话来说,“Alexa不仅是推进广义智能最肥沃的试验场之一,而且还进化出超越语音交互的类人交互能力。希望Alexa未来能做到更类人的交流,不仅仅是语音,还包括面部表情、手势和肢体语言”。
那么问题就来了,亚马逊能够用AI大模型来重塑Alexa吗?
目前,亚马逊已经在全球售出了超过1亿台搭载Alexa的设备,甚至三分之一的美国家庭里都有Alexa的存在,所以它有着极为出色的用户基础,如果GPT-4o出现在Alexa上,后者可以说是会“原地飞升”。
只可惜如今亚马逊在AI方面的能力,特别是面向C端的AI能力从未得到过证明。事实上,亚马逊在AI大模型赛道的探索进度和苹果相比于也不遑多让,即便抛开与OpenAI深度绑定的微软不谈,在Meta的LLaMA、谷歌的Gemini之外,到目前为止亚马逊的大模型“Titan”不仅推出时间最晚,而且几乎没有引发大众的讨论。
如果“Titan”真的在技术层面有任何突破,显然不可能没人去谈论它。事实上,把语音助手与大模型衔接在一起并不难,过去一年里智能音箱行业一直在试图这样去做,但结果却不太尽如意。
原因其实也很简单,因为多模态技术的限制使得大模型“附身”语音助手的过程并不顺利。为什么GPT-4o刚刚面世时,外界会给出“炸场”的评价,其对于音频输入的平均反馈时间仅有320毫秒无疑是重中之重,这个数字即便是与人类对话中的响应时间也相当接近。
目前,用户在面对有GPT-4o加成的ChatGPT时是感觉在与人对话,但在与其他语音助手对话时却需要面对漫长的等待。换而言之,亚马逊想要重塑Alexa,关键就在于其能否在大模型的多模态能力上取得突破性的进展。