{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

苹果又发大模型论文 Siri未来也许能“看懂”屏幕了

来源:互联网    时间:2024-04-03 14:28:29

  苹果近日发布的一篇语言模型相关的论文,预示了未来的Siri可能拥有读懂屏幕的能力,这意味着苹果终端设备更智能的交互能力。

  4月2日消息,苹果研究团队发表了一篇名为《ReALM: Reference Resolution As Language Modeling》的论文,主题在于解决非对话实体(non-conversational entities)中的指代消解(Reference resolution)问题。

  文章摘要指出,虽然大语言模型被证明在许多任务处理中表现强大,但在屏幕实体、后台实体等非对话实体中的指代理解能力,还没有得到充分的开发利用。

  其中,“对话实体”指的是在对话过程中出现的具体对象或概念,可以是任何提及并被讨论的事物,例如人名、地点、事件、产品、观点等;“屏幕实体”指的是用户在电子设备屏幕上可以看到的各种元素,例如文本、图标、按钮、图片、视频等;“后台实体”通常指的是在电子设备的操作系统或应用程序中运行的、对用户不可见的进程和服务。

  这篇文章主要展示了,如何利用大语言模型建立能够解析各种类型指代(尤其是非对话实体)的高效系统。团队的方法是将其转化为一个纯粹的语言建模问题,具体而言,ReALM(该模型的名称)通过已经解析的实体及其位置来重建屏幕,生成一个可视觉识别的文本,并通过对屏幕中的实体进行标注,使其具备出现所在位置的上下文,这就使得系统能够理解用户在屏幕上看到的内容。

  苹果研究团队在结果中展示了不同模型在各种数据集上的准确性结果,包括ReALM-80M/250M/1B/3B四种参数大小模型,并与GPT-3.5和GPT-4都进行了对比。数据显示,这种针对指代消解进行微调的语言模型,在多数表现上优于GPT-4.

  最新发表的这篇论文,表明了苹果的努力方向之一就在于加强Siri以及其他产品对于实体及其上下文的感知和解析能力,这可能让苹果在硬件设备的智能交互水平上相较竞争者占据优势。不过研究人员也明确指出,依靠屏幕的自动解析存在局限性,因为在更复杂的视觉指代解析中,如区分多个图像,可能需要结合计算机视觉和多模态技术。

  在AI大模型、生成式AI等AI技术上,苹果虽然入局稍晚,但动作高效且成果颇为明显,在AI上的投入方向也越来越明朗。本月初,苹果已经发表了一篇论文,公布自己研发的MM1多态大语言模型(Multimodal LLM),最大拥有300亿参数(并不算一个很高的数值),但尚未公测或公布上线时间。

  公司似乎也正在筹备让Siri接入大模型。据极客公园报道,今年1月,有开发者在iOS 17.4的开发者预览版Beta中发现了与大模型相关的技术代码。这些代码表明,苹果正在开发一个由大模型支持的新版本Siri。

  在苹果之前,其全球范围内最大竞争对手三星已经在AI手机上抢跑,在最新旗舰系列中打出Galaxy AI战略,从翻译、拍照、修图、搜索等方面全面加入AI能力,并在中国市场也迅速找到百度、WPS、美图等公司完成本土化落地。

  而从去年下半年开始,国内手机厂商的AI布局声量已经渐起。去年8月,华为HarmonyOS 4全面接入盘古大模型;10月,小米自研AI大模型“MiLM-6B”接入澎湃OS;11月,vivo发布自研“蓝心大模型”,OPPO在ColorOS 14引入“安第斯大模型”。今年1月,荣耀也发布自研70亿参数端侧AI大模型“魔法大模型”。

  事实上,现有智能手机的AI功能主要围绕应用层,效果在于提升个别功能的使用效率,但除了实时通话翻译这样的场景属于刚需的一种,其他方向的效果还没有足够惊艳。所以如果是要强大到撬动用户的换机诉求,赛道中还没有出现这样的AI手机选手。

  苹果这篇论文留出的想象空间在于,如果Siri对于屏幕实体有了足够强的理解能力,那用户可以发起的智能交互范畴就会明显扩大。例如,也许未来用户可以通过语音让Siri在某个外卖平台上进入某家店铺订一份餐——这个交互步骤的确是基于现状的大幅度简化。

  但这会是用户想要的新iPhone吗?或许苹果也没有答案。市场可以期待的是,在苹果今年的WWDC(全球开发者大会)上,它会给这场挑战起一个什么样的开头,使得观众不会唏嘘它迟到如此之久。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
福布斯2024全球亿万富豪榜 上榜富豪财富总额达14.2万亿

福布斯2024全球亿万富豪榜 上榜富豪财富总额达14.2万亿

  原标题:福布斯2024全球亿万富豪榜:LV老板阿尔诺蝉联世界首富 马斯克排第二  4月3日消息,日前,福布斯发布2024全球亿万富豪榜,今
2024-04-03
iOS 17.5的首个测试版正式发布 iPhone用户可从网站侧载App

iOS 17.5的首个测试版正式发布 iPhone用户可从网站侧载App

  原标题:iOS 17 5测试版上线:iPhone用户可从网站侧载App  4月3日消息,今天,iOS 17 5的首个测试版正式发布,在欧盟地区,新版iOS
2024-04-03
小米正式成为一家车厂 应该叫雷军雷厂长了

小米正式成为一家车厂 应该叫雷军雷厂长了

  原标题:雷军:从今天开始小米正式成为一家车厂,将亲自交付首批 SU7  4 月 3 日消息,刚刚小米集团董事长雷军在微博发文称,三
2024-04-03
苹果发布AirPods Max新固件更新 从6A324升级到6A325

苹果发布AirPods Max新固件更新 从6A324升级到6A325

  原标题:苹果发布 AirPods Max 新固件 6A325  4 月 3 日消息,苹果今日为 AirPods Max 发布了新固件更新,版本号从 1 月
2024-04-03
光储发展势头正猛 领英助力光储企业解锁全球化发展新“绿”境

光储发展势头正猛 领英助力光储企业解锁全球化发展新“绿”境

  全球能源转型趋势下,我国能源结构也加速进行深度调整,迈向更加低碳、绿色可持续发展道路。今年两会期间,政府工作报告中首次提及新型
2024-04-03
改采新供应链Rivian上季产量未达预估

改采新供应链Rivian上季产量未达预估

  Rivian Automotive周二公布上季产量未达市场预期,因这家电动车制造商为了降低成本和提高效率而转向新材料供应商。  这家获亚马逊支
2024-04-03

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com