{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

声网对话式AI解决方案上新 构建实时多模态AI交互

来源:互联网    时间:2024-09-09 14:30:48

  在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。

  今年5月,GPT-4o 的发布开创了AI 实时语音交互的先河。在此之前,一些传统的大模型已经具备语音交互的能力,但一般采用 WebSocket 方案,这一方案虽然应用广泛,但其传输架构是基于 TCP 协议来构建,延迟较高,在 STT-LLM-TTS 的三步骤中,一个来回的延迟就要2-3秒,在弱网等非理想网络环境下,整体语音交互的延时更达到4秒+。在 GPT-4o 采用 RTC 方案后,展现出了自然、流畅的低延时语音交互体验,也让更多企业与开发者看到了在 AI 语音交互中 RTC 方案的更优性,并积极与 RTC 厂商合作,升级 AI 语音交互的体验。

  声网对话式

  声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过与客户在 AIGC 场景的深度合作,探索出了一套实时多模态对话式 AI 解决方案,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,通过丰富的功能构建真实、自然的AI语音交互体验。

  例如对交互延迟进行优化,延迟可做到

图:声网实时多模态对话式AI解决方案架构图

  1、延迟低于1s,速响应:声网实时多模态对话式AI解决方案可做到语音对话延迟低于1s。通过在客户端进行低延迟的音频采集和播放、借助声网自研的 SD-RTN™ 实时传输网络实现全球范围的低延时 RTC 传输,并进一步通过更精准低延迟的AI VAD、更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性。

  2、智能打断,贴近真实会话:在人类真实的语音对话中,打断对方并提出新的疑问是非常常见的现象,而在 AIGC 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网的方案也支持先进的 AI 语音活动检测(AI VAD)技术,可实现灵敏的自然语音打断,模拟人类对话的自然流动,让对话更加真实、自然。

  3、嘈杂环境下也能清晰对话:即使在嘈杂的环境中,声网的解决方案也能保证清晰的语音交流。通过AI噪声抑制、背景人声过滤、音乐检测/过滤等算法,确保人与 AI 的对话不受环境干扰,始终保持顺畅。

  4、灵活可扩展的AI Agent架构:AI Agent 作为大模型的应用框架,其重要性不言而喻。对于开发者而言,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。

  5、超拟人化人声合成:在一些传统的AI语音对话中,AI角色机械式的声音大大降低了对话的真实感。针对这一痛点,声网的解决方案超可实现超拟人真实音色,合成的声音几乎与真人无异,且支持私人定制音色,模拟喜怒哀乐等多种情绪表达,提升用户体验,使互动更加自然,还原真实体验感。

  6、支持RTCSIP网关互通:AI电话客服是当下 AIGC 应用最广泛的场景之一,具备呼叫中心坐席的特性,对此,声网的解决方案也支持 RTC 与 SIP 网关互通,用户可直接通过声网的RTCSDK 直接呼叫企业客服中心坐席,有效的降低客服成本,提升客服效率。

  RTC

  声网在与客户的合作中发现,在RTC 的加持下,AIGC应用场景迎来进一步爆发,AI智能助手、AI情感陪伴、AI口语老师、AI客服的 AI 交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。

  来自量子位智库推出的 AI智能助手用户数据报告显示,截止8月国内市场的 AI智能助手 App 已超过64款。在 AI情感陪伴领域也涌现了 Soul、星野、Wow等一系列人气社交APP。

  AI情感陪伴为例,随着多模态交互能力的升级,当下 AI情感陪伴类产品正呈现出三个特征:

  1、语音/视觉交互:除了传统的文本交互外,越来越多的 AI情感陪伴类 APP 也在加入语音通话的功能,让 AI陪伴更具有真实感。同时在视觉交互方面,部分产品也支持了视频通话功能,通过3D建模、拟真渲染等技术构建逼真的数字人,让人与 AI 的情感交互更加拟人化。

  2、情感计算:人与 AI 的一个核心区别就是人具备情感,为了让 AI 的回答更加智能与真实,许多 AI 陪伴产品开始加入情感计算的能力。通过语义识别、面部表情等信号检测用户的喜怒哀乐等情绪状态,并做出对应的情感回应,实现更加人性化的交互体验。

  3、私人定制:标准化的人机交互千篇一律,个性化的定制才更有新意。具备个性化定制能力,提供自主创作和个性化选项已经成为 AI陪伴类产品的新趋势,例如定制原生IP角色、定制IP专属画风和语音体系、定制专属互动话题等一系列功能。

image.png

图:电影《Her》里的AI助理被视为AI情感陪伴的启蒙

  AI口语老师场景,声网观察发现,1v1教学场景非常适用 AI口语老师,从真人教学变成自学模式,例如正价课1v1与 Demo 课1v1教学,AI数字人老师将代替真人,1v1 AI 口语老师将成为未来语言学习机构必备的应用,AI 数字人老师可能用于大龄学生与成人,卡通 IP 可用于低幼龄的课程。同时在职业教育赛道,已经有不少教育机构在大班课场景利用 AI数字人老师教学。

  同时,在游戏社交、AI分身、实时语音翻译等场景,实时AI语音也大有可为。例如,在狼人杀、谁是卧底等场景,AI NPC 角色虽然已经在应用,但是 AI 的痕迹还是较为明显。在大模型具备实时语音交互能力后,谁是卧底中的 AI 角色可以做到快速的推理并发言,再搭配语音仿真技术,有望做到 AI 角色的以假乱真。

  声网的实时多模态对话式AI解决方案目前已经上线,如您想进一步体验我们的 Demo或者接入该方案,可在声网公众号找到这篇文章,扫描文章底部的二维码联系我们。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
声网对话式AI解决方案上新 构建实时多模态AI交互

声网对话式AI解决方案上新 构建实时多模态AI交互

  在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,
2024-09-09
万兴科技吴太兵:出海关键在于抓住时机 顺势而为

万兴科技吴太兵:出海关键在于抓住时机 顺势而为

  近日,由靖亚资本及崔牛会联合主办的Cloud 100 China 2024榜单发布暨CEO峰会在上海成功举办,AIGC软件A股上市企业万兴科技董事长吴太
2024-09-09
考拉悠然发布悠然远智全模态AI应用平台 引领行业应用新未来

考拉悠然发布悠然远智全模态AI应用平台 引领行业应用新未来

  9月6日,成都市大模型新技术新成果发布暨供需对接系列活动——考拉悠然专场,在成都市高新区菁蓉汇盛大举行。考拉悠然重磅发布了悠然远
2024-09-09
腾讯数据库实现全栈国产升级 助力产业全面自主创新

腾讯数据库实现全栈国产升级 助力产业全面自主创新

  9月6日,在2024腾讯全球数字生态大会数据库技术与实践专场上,腾讯云数据库研发总经理潘安群表示,随着自主创新进程迈入快车道和深水区,腾
2024-09-09
登陆应用宝电脑版即可下载平精英模拟器高清版 开启极致游戏体验

登陆应用宝电脑版即可下载平精英模拟器高清版 开启极致游戏体验

  在广大游戏爱好者的热切期待中,9月6日起前往应用宝电脑版即可下载体验拥有240帧极清4K画质,支持双端数据全面互通的和平精英模拟器高
2024-09-09
亿道三防AI加固平板电脑首亮相 工业级AI PC开启行业新纪元!

亿道三防AI加固平板电脑首亮相 工业级AI PC开启行业新纪元!

  8月28日至30日,亿道三防在第22届国际物联网展·深圳站上隆重发布了多款AI加固平板电脑和户外三防新品,首次亮相便赢得了现场观众的热
2024-09-09
“摩托”热销海外 投融界助企业稳抓机遇

“摩托”热销海外 投融界助企业稳抓机遇

  在国内新能源汽车卷到极致之时,同样作为代步工具的摩托车躲开了这个竞争激烈的市场,阔步走向海外并取得了不凡的成绩。  海关数据统计
2024-09-09
钉钉推出“AI班级群” 用科技打造智慧班级

钉钉推出“AI班级群” 用科技打造智慧班级

  为迎接我国第40个教师节,钉钉再度上新,重磅推出AI班级群,为学校管理和日常教学减负增效,打造智慧、和谐的教育环境。  在传统的班
2024-09-09
咕咚骑行路线功能亮相:引领户外运动新风尚 解锁城市骑行新体验

咕咚骑行路线功能亮相:引领户外运动新风尚 解锁城市骑行新体验

  随着健康意识的不断提升和户外运动热潮的持续涌动,骑行作为备受喜爱的运动方式之一,正以其独特的魅力吸引着越来越多的人参与其中。咕咚
2024-09-09

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com