{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

GPT-4o重磅发布RTC成为大模型关键能力

来源:互联网    时间:2024-05-20 14:26:56

  北京时间5月14日凌晨,OpenAI 发布了新一代旗舰生成模型 GPT-4o,这是一款真正的多模态大模型,可以「实时对音频、视觉和文本进行推理」。核心亮点包含:支持与 AI 实时语音对话,且响应时间达到毫秒级;交互中可识别人类情绪并以相应的情感做出回应;多语言能力的提升。

  包括 OpenAI CEO 山姆·奥特曼在内的很多人都联想到了科幻电影《Her》里那个幽默风趣、善解人意、似有心灵感应一般的 AI,GPT-4o 在语音视频上的交互能力,让科幻正在加速走向现实。

  大模型的实时音视频交互成趋势

  相比于 GPT3.5、GPT4.GPT-4o 最核心的区别在于文本、视觉和音频由同一个神经网络处理,不仅降低了延时,还捕捉到了更多的信息。此前基于 GPT3.5或 GPT4的 AI语音助手是通过 STT 将语音转成文字再输入给大模型,大模型生成文本响应后再通过 TTS 输出语音给到用户,平均延时达到2.8秒(GPT-3.5)和5.4秒(GPT-4)。而GPT-4o 直接将语音实时输入给大模型,并大幅提升响应时间,最终实现了与真人聊天一样自然流畅,AI的处理反应已经达到人类的高度和速度,而实现这一跨越式技术进步的关键,一是大模型的进化,二是RTC能力的应用

  GPT-4o 的发布引起了业界的广泛关注与强烈讨论,也透露出一个重要的信号: 支持端到端实时多模态将成为当下大模型发展的新趋势,实时文本、音视频传输能力,将成为实时大模型的标配。在 GPT-4o 的推动引领下,未来其他大模型厂商或将快速跟进,提供端到端实时多模态能力。

  未来大模型的

  GPT-4o 还有一大核心亮点就是支持实时视频输入,通过前置摄像头设别你周围的环境,观察用户的面部表情,分析其情绪,再根据场景生成多种音调 Tones,带有人类般的情绪和情感,如兴奋、冰冷、含羞等,通过实时视频输入还能让它在线解答各种问题,支持数学运算、游戏输赢判断等。

  通过实时语音、视频输入信息的理解和高度拟人化的语音输出,GPT-4o 所呈现的 AI 交互 更具真实感与沉浸感,这也是所有大模型一直在发力的方向,未来借助低延时、高音质的 RTC 技术,有望打造更极致的人与 AI 交互体验。

图:相比 Whisper-v3.GPT-4o 在语音识别性能方面有了大幅提升

图:GPT-4o 的视觉理解评估能力也遥遥领先

  在大模型的应用场景方面,除了已经在应用的AI口语老师、AI电话客服、AI社交陪聊场景,未来实时互动+AI+智能硬件也有望诞生新的场景。想象一下,一款加载了GPT4o 的智能眼镜或耳机可以变成你工作中的助手,解答各类难题,也可以是生活中的“倾听者”陪你聊天,也可以是旅游中的虚拟导游,为你提供视觉攻略,这很可能是下一个时尚与科技兼具的爆款硬件。

  在GPT-4o 发布后,很多网友也提到了 GPT-4o 的社会公益价值,例如大模型通过智能眼镜的摄像头开启视觉能力后,可以给盲人带来精准的路线导航,盲人通过与搭配大模型的智能眼镜对话问路,智能眼镜在识别人周围的环境后,做出最精准的路线指引。

  声网

  针对大模型的交互能力,声网目前已可以提供 基于大模型的全链路实时音视频方案,可以帮助大模型厂商构建实时音视频互动的能力,用户可通过麦克风与 AI 进行语音、视频形式的实时互动,并且对话中做到行业内遥遥领先的低延时对话体验。

  声网的 AIGC 一站式音视频解决方案也可以实现像 GPT-4o 的音频对话能力。声网提供封装完整的 SDK,并支持模块化能力的灵活拼装,包含 RTC 实时音视频、实时消息等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。

  如您想进一步了解声网的 AIGC一站式音视频解决方案,可以在声网公众号找到这篇文章,扫描文章底部的二维码进一步咨询。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
GPT-4o重磅发布RTC成为大模型关键能力

GPT-4o重磅发布RTC成为大模型关键能力

  北京时间5月14日凌晨,OpenAI 发布了新一代旗舰生成模型 GPT-4o,这是一款真正的多模态大模型,可以「实时对音频、视觉和文本进行推理」
2024-05-20
激活场景应用深层价值 Qverse三维空间云平台赋能行业数字化升级

激活场景应用深层价值 Qverse三维空间云平台赋能行业数字化升级

  众所周知,数字经济时代,空间信息的应用已提升到新的高度。且伴随着国家政策、VR技术及3D创作工具门槛的降低,三维应用趋向数字化、平
2024-05-20
iOS 18新功能曝光:利用AI自动总结通知 智能管理日历

iOS 18新功能曝光:利用AI自动总结通知 智能管理日历

  5月20日,CNMO了解到,在最新的Power On新闻简报中,知名爆料记者Gurman(古尔曼)为我们揭示了苹果在全球开发者大会(WWDC)上首次大规模
2024-05-20
零科技助力长宁跑出法律科技“加速度”

零科技助力长宁跑出法律科技“加速度”

  5月10日,智慧法治 赢在虹桥法律科技交流展示活动暨2024长宁法治文化节启动仪式在大虹桥营商服务中心举行。区委书记、区委依法治区委
2024-05-20
华卓科技:新政加持 数字化重塑重症医学服务模式

华卓科技:新政加持 数字化重塑重症医学服务模式

  重症医学科是与死神抢时间和抢生命的临床学科,是所有重症患者生命的最后一道防线。历经40余年,我国重症医学发展完成从无到有的进阶。
2024-05-20
康迈轮端:精于成本管控 实现更优TCO

康迈轮端:精于成本管控 实现更优TCO

  TCO理念诞生于欧美,由奔驰卡车在2012年引入中国,其全称是TotalCostOf Ownership,即车辆全生命周期使用成本。简单的说就是一辆车初始
2024-05-20
向新而行 智驭未来 踏歌智行联合产业伙伴在国际煤博会解读新质生产力实践与未来

向新而行 智驭未来 踏歌智行联合产业伙伴在国际煤博会解读新质生产力实践与未来

  5月16日,踏歌智行携最新的全矿无人驾驶运输解决方案亮相第18届中国鄂尔多斯国际煤博会。同期踏歌智行举办了向新而行、智驭未来新质生
2024-05-20
AICon 2024北京圆满谢幕 AI+∞的奇妙之旅将于8月登陆上海

AICon 2024北京圆满谢幕 AI+∞的奇妙之旅将于8月登陆上海

  近日,由极客邦旗下 InfoQ 中国倾力打造的 AICon 全球人工智能开发与应用大会暨大模型应用生态展在北京正式举办,演讲嘉宾阵容强大
2024-05-20
智启AI 深信服携手卫宁发布WiN-AI卫信云

智启AI 深信服携手卫宁发布WiN-AI卫信云

  5月16日,中国医院协会信息专业委员会主办的2024年中国医院信息网络大会(CHIMA 2024)在南京国际展览中心召开。本次大会以新质生产力理
2024-05-20

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com