最近,苹果遇到的事儿挺多的,不过都不是什么好事。
首先是在3月底,美国司法部挥舞着反垄断的大棒,给苹果来了一记重击,指控它搞封闭生态系统,限制竞争对手。
这事儿一出,苹果股价那是“嗖”的一声,市值缩水了934亿美元,折合人民币约6724亿,简直比A股的过山车还刺激!
紧接着,外界又有传闻称,苹果竟然还悄咪咪地跟谷歌和百度勾搭上了,打算在今年发布的iPhone16、Mac系统和ios18中,使用谷歌的双子座作为英文AI,使用百度的文心一言作为中文AI,把两家的AI技术整合到Siri里。
当然这只是一条传闻啦。
不过,这两桩看似不相关的事,其实背后都绕不开同一个主题——那就是AI。
在2024年,哪个科技巨头敢说自己离得了AI?苹果也不例外,但让库克有些发愁的是,面对汹涌而来的AI大势,苹果自身在AI方面的进展,却不怎么明朗,甚至到现在连自家大模型都没真正弄出来。
于是才有了苹果破天荒地打算让别家的AI,进入自家的封闭系统的传闻。
尽管这事儿目前还真假未定,但苹果在AI方面滞后的情况,却让库克不得不深思,倘若这次的生成式AI,真的会带来一场手机领域的颠覆性变革,那苹果的处境就危险了。
到了那时,即使没有司法部的制裁,苹果自家的封闭生态,也迟早会在其他AI的围攻下逐渐崩解。——因为用户不会接受一个没有好AI的手机。
那么,手机与AI的结合,到底有没有人们想象中的那么重要呢?
噱头or变革?
讲真,关于手机AI这件事,其实很多大厂都已经开始了布局。
例如三星发布Galaxy S24系列产品引入“Galaxy AI”;小米的澎湃OS融入AI大模型能力,OPPO发布“首款端侧应用70亿参数AI大模型手机”——OPPO Find X7 Ultra;荣耀在Magic6系列新机上置入自研70亿参数AI大模型——“魔法大模型”。
然而,这一系列火热表象的背后,却是手机AI雷声大雨点小的情况,现阶段,似乎很少有用户将手机AI当成换机的动力。
究其原因,还是目前手机AI能干的事儿,实在太少了——而且干得往往还不如云端AI好。
现在的各种手机AI,新增的功能无非就是图像生成,照片消除,以及文档摘要,语音通话总结,语音翻译等等。
但这些功能,实际上不用内置的大模型,第三方App联网的云端AI也能完成……
而那些内置于手机的AI,由于端侧硬件的限制,往往参数很小,发挥不了与云端AI等效的性能。
就比如语音翻译功能,手机端侧的AI可能可以快那么两秒钟,但翻译出来的话狗屁不通,那还不如等一下联网翻译呢。
所以,一个直击灵魂的问题来了:手机AI存在的意义,究竟是什么?
关于这个问题,最近苹果披露的一篇技术论文,似乎提供了某种可能的答案。
在这篇名为《ReALM: Reference Resolution As Language Modeling》的论文中,苹果不但发布了自家的最新模型ReALM,而且还提出了一种新颖的思路:让AI将屏幕上的东西都转化成文字,然后让语言模型去理解。
具体来说,ReALM在运作过程中,会先通过视觉技术识别屏幕上的各种元素,例如按钮、图标、文本框等。之后,再对这些实体进行编码,记录每个元素的确切位置和它们的关系。
最后,AI会将这些实体和位置信息,转换成详细的文本描述,并输入语言模型,让其学会解析用户的指令。
例如,你现在在手机上用微信聊天,AI就能把聊天框里所有的记录、文件,和它们在屏幕上的位置都记下来,转化成一段话,比如“聊天框中部有个连接,是一篇关于自动驾驶的文章”。
换句话说,有了这个技术,你无论在屏幕上干什么,甚至在想什么,都逃不过AI的法眼。
并且,因为AI有了和你“同时观看”屏幕的能力,所以在交互的时候,即使有些指令说得模糊,或者不太清晰,AI也能理解你在指的是什么。
比如你跟AI说,“刚才视频的那个东西是什么?”,AI就能知道“那个”是指的是苹果还是香蕉,这就是所谓的“实体参考解析”。
根据论文,研究者将来还打算探索更精细的空间编码技术,比如用一种更高级的方法来“画”屏幕,就像用网格一样标出每个东西在哪儿。
在此基础上,研究者还想让模型拥有记忆,“记住”和用户在一段时间内的交互历史,并结合这些“记忆”来解析当前的查询。
那诸如此类的功能,将来应用在手机上,究竟能发挥怎样的功效呢?
一种可能的答案,就是用来针对某些信息密集型APP在使用过程中的复杂查询。
手机AI的三个阶段
什么是信息密集型APP?简单来说,就是那种用起来会生成、处理或者显示一大堆信息的应用程序。
例如某些社交媒体APP,像微博、微信那样的,每天得有几百万人在上面发状态,有数不清的文章、动态要看,回不完的消息在显示。
再就是某些电商APP,比如淘宝、京东,上面有成千上万的商品信息,每个商品都有自己的图片、价格、评价、销量等等。
针对这些APP,简单的摘要、总结,或是图片识别等功能,显然是不够用了,因为在使用这些APP进行信息筛选的过程中,人们常常会遇到那些不是一两句话就能说清楚的问题,或者是那种需要绕几个弯才能搞明白的请求。
举例来说,假设你在视频APP上看了一部科幻电影,觉得特效特别棒,于是就问:“这部电影的特效用的是什么技术?”
又或者,有时你想起在微信上看过的一篇公众号文章,觉得其中有一句话很有意思,但想不起文章名了,只能大概地说:“我想找一篇关于问界汽车的文章,里面好像提到了自动驾驶”。
这样的需求,就叫做“复杂查询”。
如果说,现阶段各类手机AI所具有的总结、摘要,以及AI照片消除等功能,是AI在手机上较为初级的第一阶段,那么这种针对密集信息进行复杂查询的AI,则代表了将来AI在手机上进阶的第二阶段。
而这第二个阶段,也在某种程度上解释了,为什么AI大模型非得内置在手机系统里,因为只有一个内置在系统中的AI,才能进行跨应用,跨平台的功能调用,从而让AI的触手伸向每一个APP。
但如果只是做到了这点,其实还不足以完全颠覆各大互联网巨头打造的APP孤岛,因为各个APP,实际上也可以通过在应用内置AI的方式,在一定程度上实现这样的复杂查询(实际上,某些APP,例如B站,已经开始尝试那么做了)。
真正对当前手机生态造成颠覆性影响的,或许是手机AI的第三个阶段,也就是AI在手机上通过AI智能体(Agent)技术实现各种自动化操作,并初步建立起一种轻量级人机融合的阶段。
举两个简单的例子,比如我们卖飞机票订酒店,很多时候携程、飞猪等等平台里面的价格都是不一样的,能不能让手机上的AI智能体跨平台总结三个合适的选项让我做最终决定?
或者说,我一觉醒来,微信里面诸位大佬发了好几百条朋友圈,我没时间一一去看,能不能让我的手机自己去帮我看,如果朋友分享的是好事,就鼓励互动一番?
做到这些的前提就是手机要足够了解我。
也这就需要通过前面提到的类似ReALM的技术,让手机AI可以在伴随用户的过程中,通过观察屏幕上的各种操作,分析和总结出一个人使用手机时既定的行为模式,之后再结合机器学习算法,建立起每个用户的个人大脑/思维模型。
之后,再将这样的模型,与Agent技术结合,从而在手机上实现一种更为自动化、个性化的操作。
这也是当前的大模型,走向手机、PC,以及所有个人化终端最大的意义之一。
人机融合
与马斯克的脑机接口有点类似,手机AI与个人思维、习惯的结合,本质上也是让手机作为人体一种延伸出来的“器官”或“义体”,去实现人类现有的思维和肉体难以实现的操作。
例如同时写好几份报告、文章,还能同时刷视频,逛淘宝啥的。
那具体怎么才能实现这点?前面提到的Agent技术就成了关键。
今年2月,由北京交通大学和阿里的研究人员共同发布的一项研究成果,就揭示了将来在手机上实现这种全自动操作的可能。
简单来说,在这个研究里,这个叫做Mobile-Agent的智能体助手,用了一种特别的“视力检查”技术,能认出屏幕上的字啊、图标啊这些东西,有点类似于前面苹果的ReALM技术。
但比苹果的技术更进一步的是,这个智能体在识别屏幕的基础上,还具备了自主规划的能力。
在测试中,用户想让它在Youtube上找金州勇士队当家球星,小球时代的开创者,两届MVP得主斯蒂芬·库里的视频,并在下面发表个评论,它还真的就在全程无人为控制的情况下完成了这些操作,而且没有任何错误。
同样地,即使是面对某些操作多App 的要求,它也能得心应手。
例如用户让它查询今天的比赛结果,然后根据结果写一个新闻。Mobile-Agent接到任务后,先在浏览器App里找到了比赛的比分,接着,它退出了浏览器,打开了记事本App。最后,它把比分写了下来,还按照新闻的样子给整理了一下。
而Mobile-Agent之所以能实现这种多APP、多任务的操作,靠的正是自我规划与自我反思的能力。
在Mobile-Agent做事的过程中,在做完第一步后,它就会看一下当前手机屏幕的截图,看显示的是不是所需的APP界面,如果是的话,它就知道上一步做对了,然后继续规划并执行下一步操作。
如果不是,它就会“反思”一下,重新修正操作,根据不断变化的截图,调整下一步的操作,直至最终完成任务。
这种自动化的流程,倘若与前面苹果的ReALM技术相结合,那么AI在观看并学习了用户操作习惯、行为后,就能基于个人习惯,更熟练地进行各种多APP、多任务的复杂操作。
例如对于某个经常需要写稿的编辑来说,AI在观看了他对手机的使用习惯后,便可以知道,他经常上的是哪些网站,看的是哪些公众号、视频。
进一步地,AI会根据这样的轨迹和习惯,建立起一个大致的思维/习惯模型,在他需要写稿时,从不同的APP搜集文章、视频,与他进行交流。最后再将交流的成果凝练,输入进其常用的文档工具。
当这样轻量级人机融合进一步演化,并延伸到其他领域时,人类智能的提升和优化,以及对生产力的影响,也将进入一个新的阶段。
例如在复杂工业环境中,手机上的多模态感知,能让AI实时规划和指导作业流程;
在医疗领域,集成生物传感器、医疗影像分析等AI能力,手机等终端能够全面感知和分析人体健康状况;
甚至在军事领域,这种人机融合的能力,在战场上还能加深各种智能化装备与士兵的契合度,出现一种类似“贾维斯”的存在。
意义与影响
如果要论手机AI带来的最直接的影响,那恐怕就是将现在愈发萎靡的手机市场给盘活了。
去年,在华为Mate60系列的引领下,全球智能手机市场似乎有了复苏的迹象。但国际数据公司IDC却揭示了这种复苏背后的“危机”。
IDC数据显示,2023年全球智能机出货量同比下降3.2%至11.7亿部,为十年来最低,当年中国智能机出货量约2.71亿台,同比下降5%,也创下近10年以来最低出货量。而苹果虽在去年以20%的市场份额稳居第一,但新机激活量同比出现—10.6%的下滑。
由于同质化和性能过剩问题,很多人觉得没有必要频繁更换新机。因此,消费者平均四年零三个月才会考虑换新机。
事实上如果没了销量,也就没必要研发先进制程的芯片了,到时候没人买,也没有海外市场可以占领,研发也没啥意义了。
而如果手机AI真的给人带来了颠覆性的体验,到时势必会刺激新一轮的换机潮,而相应的芯片需求也将水涨船高,因此手机AI便和端侧芯片形成了一种相互促进的关系。
而第二点较为重要的影响,就是通过手机AI,相应的厂商能够扩大AI数据积累。
具体来说,通过联邦计算的方式,AI会先利用手机本地的用户交互数据,对模型在设备端进行训练,这时只有模型的参数在更新,原始数据不会离开手机(这也解决了隐私问题)。
而分别在大量手机上训练出许多模型后,服务器会收集并聚合它们的参数,得到一个全局模型。全局模型再下发给各设备,重复上述训练聚合流程,形成迭代优化。
在此情况下,谁率先占领了手机AI的市场,谁就能让数以亿计的手机用户成为自己海量的“数据源”,从而为训练更强大的AI模型提供宝贵的资源。
虽然云端大模型(闭源),也能实现这样的“数据飞轮”,但效果却不会像本地化了的手机AI这样直接,原因就在于本地化部署使得数据采集更加直接,中间环节更少。
最后一点颇为重要的影响是,通过这一个个海量分布的手机AI,端侧小模型将有可能对云端大模型形成一种“农村包围城市”的态势。
具体来说,手机上有大量不同的应用场景,如拍照、打车、购物、办公等等,每个场景都有特定的AI需求。这些细分场景,难以用通用的云端大模型高效覆盖,因为需要针对性地训练和优化。
而端侧的小模型,则可以专门为每个应用场景量身定制,随着越来越多的应用场景"嵌入"端侧专用AI模型,就逐渐形成了一个覆盖手机各领域的完整AI生态系统。
用户在使用手机时,基本上所有AI需求都可在端侧得到满足,无需调用云端服务。
这样一来,云端大模型在手机场景的发展空间就会被逐步蚕食和压缩。
在这样的态势下,端侧小模型,最终将很可能将占据那些无处不在、渗透性较高的生活场景(相当于“农村”)。
而云端大模型,则将占据那些更加集中、通用,且对算力要求更高的场景(相当于“城市”),例如对长文档,长视频的总结、分析等任务。
各方进展
从技术上来说,决定手机AI将来发展的,主要有三大关键技术,分别是:端侧芯片、小模型技术、Agent技术。
就目前来看,在端侧芯片方面,表现较为突出的主要有高通、联发科和苹果,虽然从制程技术、CPU架构这两个关键指标来看,三者看上去都不分伯仲(都是4nm),然而具体在端侧大模型的部署方面,胜出的还是联发科的天玑9300.
其不仅支持在手机端运行最大330亿参数的大模型,而且能够在1秒内生成图像,以及以每秒20 Tokens的速度生成文本。
在此之前,大部分的手机厂商,都很难做到在手机端部署超过100亿参数的大模型。
而天玑9300其之所以能做到这点,最重要的,就是采用了硬件生成式AI引擎和全大核CPU架构这两个关键技术。
用大白话解释,前者是一种将AI引擎直接集成在芯片中的技术,而后者则是将所有的CPU核心都设计成高性能的大核心,这样CPU就都能够处理复杂的任务,而且处理速度很快。
但是,仅仅在硬件方面下功夫,还不足以在手机AI方面独占鳌头,毕竟端侧芯片的性能上限,再怎么也不可能和PC端的高性能GPU相提并论。这就决定了塞进手机里的大模型,参数终归不可能超越PC。
所以,想要在手机AI上取得突破,另一个需要发力的方向,就是小模型技术。
而这门技术的关键,就在于将模型变小,塞进手机(或其他终端)的同时,还能让模型保持不错的性能。
而在这方面,目前实力较为靠前的企业,当属微软和国内的面壁智能。
早在今年2月,微软就宣布收购了在小模型方面颇有建树的欧洲公司Mistral,而后者的过人之处,正是“四两拨千斤”,通过参数更小的模型,取得比大参数模型更好的效果。
其主要的代表作,就是参数只有70亿的Mixtral 8x7B。在许多基准测试中,Mistral 8x7B的性能已经达到甚至超越了规模是其25倍的Llama2 70B。
而微软自己推出的Phi-2.虽然规模更小(仅27亿参数),但得益于“教科书质量”数据的训练,目前已在基准测试中超过了更大的模型,如70亿参数的Mistral和130亿参数的Llama2.
这性能,这大小,看起来已经“压缩”得很极致了,可国内的面壁智能,在今年2月直接来了个王炸,用20亿参数的MiniCPM,就实现了参数是自己数倍,甚至数十倍模型相媲美的性能,例如Llama2-13B(130亿)、Falcon-40B(400亿)等。
最厉害的是,MiniCPM不仅能在手机上流畅运行,推理成本还低到令人发指——170万tokens仅1块钱!
如此一来,在小模型方面,国内已经做到了与国际巨头并驾齐驱,甚至略微反超的水平。
而将模型变小,除了能更好地将它“塞进”手机之外,更重要的一点,就是小模型比大模型更容易被灵活调度和部署,而这也是在手机上实现Agent技术的关键。
因为所谓的Agent技术,实际上就是让多个AI分工协作,实现自动化流程的一种技术,而大模型虽性能更强,但却结构复杂,像个不易驯服的大象,而小模型虽小,但胜在结构简单,输出和行为更易于控制。
这就好像训练十几只分别精通不同任务的猴子,要比训练一个什么活都会干的大象要容易多了。
之前提到,AI Agent在手机上的应用,是实现各种自动化操作,带来颠覆性体验的关键。而在这方面,上面提到的面壁智能,可以说取得了独占鳌头的优势。
其凭借自身Agent技术打造的项目ChatDev,甚至得到了斯坦福大学教授、AI科学家吴恩达的盛赞。
吴恩达讲解ChatDev
ChatDev就是让一群AI智能体扮演不同角色,合伙开发一个软件项目。
人类开个头,说做啥软件。设计师AI就给出创意界面设计;程序员AI写代码;测试员AI检查Bug。他们会像真人团队似的,反反复复讨论优化,最后呈现一个能运行的软件。
要是这种技术用在手机AI上,是能实现各种复杂操作的关键。
因为越是复杂操作,需要分工的环节就越多。比如你去开个会,用手机拍了视频,想剪辑加字幕、校对、配图片标题什么的,再发到某APP上。这么多环节,每一步都得有专门的“岗位”和“角色”在干活。
现在的一些Agent应用,比如AutoGPT,虽然“自动”、“高效”了,但处理不了这么多不同“角色”之间如何合作的问题。
面壁智能的ChatDev之所以牛逼,不仅仅在于它让多个AI智能体分工合作,而是在于它如何让这些智能体高效、协调地工作。
结语
倘若手机AI的“ChatGPT”时刻真的来了,那么有两种后果,是很可能会出现的。
其一就是软件和服务的主导权将改变。
与当前由谷歌、苹果等主导软件和服务不同,未来AI手机,很可能由AI公司或专门的AI应用公司主导生态系统。相较于“半路出家”的手机厂商来说,起步更早,投入也更专一的AI企业,例如OpenAI、面壁智能等,无疑能提供更好的端侧大模型。
到了那时,手机市场,乃至其他移动硬件市场的主导权,很可能就会变天了。苹果这种起步较晚,且处于“两线作战”(既要顾AI,又要顾硬件)的企业,能不能守住自身的封闭生态,会是个很大的未知数。
其二,则是“算力枷锁”的打破。
前面提到,随着手机AI的成熟,端侧小模型将有可能对云端大模型形成一种“农村包围城市”的态势。而在更大的国际尺度上,这种态势会呈现出更复杂的形态。
因为相较于对算力要求颇大的云端AI而言,手机上的端侧AI,对芯片、硬件的需求,实在是小巫见大巫了。
基于这一前提,加上华为在芯片领域撕开的缺口,以及中国庞大的移动用户体量,倘若手机AI将来真的盘活了,那相当于中国部分地规避掉了美国在AI算力方面的封锁。
更进一步地,这样对算力依赖较低的特点,还会让端侧小模型在发展中国家和新兴市场进一步普及。
如果说,端侧大模型,让人们看到了AI有多强大,而手机AI这样的端侧模型,则将让人看到,AI究竟可以惠及多少普通人。