Amazon Science 最近发表了他们在具有紧急能力的大型自适应可流式 TTS上的工作。BASE TTS 支持语音克隆,在人工评委评估时优于基线 TTS 模型。此外,亚马逊的实验表明,缩放模型和数据大小可以提高模型输出的主观质量。
BASE TTS 的核心是一个自回归 Transformer,类似于大型语言模型。该模型使用从网络上抓取的 100k 小时的未标记语音音频进行训练;研究人员使用自动语音识别自动生成数据的成绩单。为了评估数据和模型大小对质量的影响,亚马逊团队训练了模型的中小型版本。他们还创建了一个测试数据集,供语言专家用来评估模型的涌现能力,例如表达情感,而该模型没有被明确训练来执行。根据亚马逊的说法:
从 BASE TTS 在英语和西班牙语上的强劲表现中,我们第一次看到了一种多语言 TTS 方法,它实现了高表现力、对文本线索的适应和数据效率,仅使用公共领域的数据,并适用于流式 TTS 用例,例如为 LLM 输出配音。我们的方法指向了[大型TTS]模型的潜在缩放定律,其中需要大量的语音和其他(文本,图像)数据来支持多模态目标,并在TTS中开辟新天地。
BASE TTS 是支持语音克隆或传输的几个受 LLM 启发的 TTS 模型中的最新模型。2023 年,InfoQ 报道了 Microsoft 的 VALL-E,它可以在三秒钟的录音中复制语音;Google 的 AudioPaLM,它基于 LLM,可以执行 TTS、自动语音识别和语音到语音翻译以及语音传输;以及 Meta 的 Voicebox,这是一种非自回归模型,可以用六种语言执行 TTS,以及编辑和删除语音录音中的噪音。
BASE TTS 中的关键思想是将语音音频与离散语音令牌相互转换。亚马逊使用一种名为WavLM的模型创建了一个编码器,该编码器将“语音和韵律信息”与音频分开,并提取说话者声音的表示。然后,一个名为 SpeechGPT 的自回归转换器可以生成用于合成的语音令牌,条件是文本标记(要说话的文本)和用于合成的参考语音。最后,为了产生音频,SpeechGPT 的输出被传递给语音令牌解码器。
在 Hacker News 上关于 BASE TTS 的讨论中,用户将其输出示例与其他模型生成的语音进行了比较:
情感的例子很有趣。目前人工智能生成的声音/语音克隆最明显的指标之一是缺乏情感和范围,这使得他们客观上与专业配音演员相比更糟,除非缺乏情感和范围是理想的声音方向。但是,如果你听情感的例子,这个范围基本上是你从有声读物叙述者那里得到的,而不是更传统的配音。
虽然 BASE-TTS 演示站点包含几个示例音频文件,但亚马逊选择不开源该模型,理由是担心其语音克隆功能可能被滥用。