{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

亚马逊宣布推出10亿个参数语音模型BASE TTS

来源:IT商业科技网    时间:2024-03-06 15:24:28

Amazon Science 最近发表了他们在具有紧急能力的大型自适应可流式 TTS上的工作。BASE TTS 支持语音克隆,在人工评委评估时优于基线 TTS 模型。此外,亚马逊的实验表明,缩放模型和数据大小可以提高模型输出的主观质量。

BASE TTS 的核心是一个自回归 Transformer,类似于大型语言模型。该模型使用从网络上抓取的 100k 小时的未标记语音音频进行训练;研究人员使用自动语音识别自动生成数据的成绩单。为了评估数据和模型大小对质量的影响,亚马逊团队训练了模型的中小型版本。他们还创建了一个测试数据集,供语言专家用来评估模型的涌现能力,例如表达情感,而该模型没有被明确训练来执行。根据亚马逊的说法:

从 BASE TTS 在英语和西班牙语上的强劲表现中,我们第一次看到了一种多语言 TTS 方法,它实现了高表现力、对文本线索的适应和数据效率,仅使用公共领域的数据,并适用于流式 TTS 用例,例如为 LLM 输出配音。我们的方法指向了[大型TTS]模型的潜在缩放定律,其中需要大量的语音和其他(文本,图像)数据来支持多模态目标,并在TTS中开辟新天地。

BASE TTS 是支持语音克隆或传输的几个受 LLM 启发的 TTS 模型中的最新模型。2023 年,InfoQ 报道了 Microsoft 的 VALL-E,它可以在三秒钟的录音中复制语音;Google 的 AudioPaLM,它基于 LLM,可以执行 TTS、自动语音识别和语音到语音翻译以及语音传输;以及 Meta 的 Voicebox,这是一种非自回归模型,可以用六种语言执行 TTS,以及编辑和删除语音录音中的噪音。

BASE TTS 中的关键思想是将语音音频与离散语音令牌相互转换。亚马逊使用一种名为WavLM的模型创建了一个编码器,该编码器将“语音和韵律信息”与音频分开,并提取说话者声音的表示。然后,一个名为 SpeechGPT 的自回归转换器可以生成用于合成的语音令牌,条件是文本标记(要说话的文本)和用于合成的参考语音。最后,为了产生音频,SpeechGPT 的输出被传递给语音令牌解码器。

在 Hacker News 上关于 BASE TTS 的讨论中,用户将其输出示例与其他模型生成的语音进行了比较:

情感的例子很有趣。目前人工智能生成的声音/语音克隆最明显的指标之一是缺乏情感和范围,这使得他们客观上与专业配音演员相比更糟,除非缺乏情感和范围是理想的声音方向。但是,如果你听情感的例子,这个范围基本上是你从有声读物叙述者那里得到的,而不是更传统的配音。

虽然 BASE-TTS 演示站点包含几个示例音频文件,但亚马逊选择不开源该模型,理由是担心其语音克隆功能可能被滥用。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
亚马逊宣布推出10亿个参数语音模型BASE TTS

亚马逊宣布推出10亿个参数语音模型BASE TTS

Amazon Science最近发表了他们在具有紧急能力的大型自适应可流式 TTS上的工作。BASE TTS 支持语音克隆,在人工评委评估时优于基线 TTS
2024-03-06
联发科技已成为全球最大的移动处理器供应商

联发科技已成为全球最大的移动处理器供应商

Canalys发布了2023 年第四季度智能手机市场报告,按处理器供应商细分。事实证明,在去年最后一个季度,联发科处理器上销售的设备比任何其
2024-03-06
高通CEO表示生成式AI将成为“不可或缺的伴侣”

高通CEO表示生成式AI将成为“不可或缺的伴侣”

高通首席执行官克里斯蒂亚诺·阿蒙在该公司的年度股东大会上吹捧了生成式人工智能的前景及其对世界的影响,称其为科技行业的革命性发展。我
2024-03-06
高通为智能设备开设AI库

高通为智能设备开设AI库

适用于 Snapdragon 和 Qualcomm 小工具高通公司推出了其AI Hub,这是一组现成的AI模型,可以在任何由Snapdragon和Qualcomm提供支持的
2024-03-06
三星电子在NVIDIA AI活动上推出全球首款HBM3E 12层

三星电子在NVIDIA AI活动上推出全球首款HBM3E 12层

三星电子将在 Nvidia 活动中进行开创性的展示,展示物理高带宽内存 3E 12 层 ,该内存计划于今年上半年量产。由于 HBM 的主要客户
2024-03-06
鸿腾携旗下Voltaira 展出E-Bike智能仪表板与感测产品

鸿腾携旗下Voltaira 展出E-Bike智能仪表板与感测产品

鸿海子公司鸿腾精密科技携手旗下车用事业品牌 Voltaira 产品,首次现身台北自行车展,除了展出 E-Bike 感测产品外,也带来升级版的解决
2024-03-06
IBM新1轮全球裁员 部分部门目标裁减80%

IBM新1轮全球裁员 部分部门目标裁减80%

出于重组公司及财务压力,IBM启动新1轮的全球进行人员精简,而该公司称其为「资源行动」,而不是裁员。 据传,IBM部分部门的裁减目标高达8
2024-03-06
第1个主权基金进驻?新加坡淡马锡拟投资OpenAI

第1个主权基金进驻?新加坡淡马锡拟投资OpenAI

ChatGPT之父OpenAI首席执行官奥特曼日前抛震撼,拟筹资逾156万亿重塑全球半导体之际,传出新加坡的国家投资公司淡马锡控股正在与OpenAI探讨
2024-03-06
苹果发布iOS 17.4和iPadOS 17.4 其中包含欧盟应用程序更改、新表情符号、播客脚本等

苹果发布iOS 17.4和iPadOS 17.4 其中包含欧盟应用程序更改、新表情符号、播客脚本等

苹果今天发布了 iOS 17 4 和 iPadOS 17 4 这是2023 年 9 月推出的 iOS 17操作系统的第四次重大更新。软件更新是在苹果发布 iOS
2024-03-06
传闻新款Apple Pencil将于本月推出

传闻新款Apple Pencil将于本月推出

苹果终于计划在本月更新第二代Apple Pencil。这证实了彭博社记者马克·古尔曼最近的说法,即新的Apple Pencil将在未来几周内推出。关于更
2024-03-06

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com