亚马逊宣布推出10亿个参数语音模型BASE TTS-IT商业科技网

Amazon Science 最近发表了他们在具有紧急能力的大型自适应可流式 TTS上的工作。BASE TTS 支持语音克隆，在人工评委评估时优于基线 TTS 模型。此外，亚马逊的实验表明，缩放模型和数据大小可以提高模型输出的主观质量。

BASE TTS 的核心是一个自回归 Transformer，类似于大型语言模型。该模型使用从网络上抓取的 100k 小时的未标记语音音频进行训练;研究人员使用自动语音识别自动生成数据的成绩单。为了评估数据和模型大小对质量的影响，亚马逊团队训练了模型的中小型版本。他们还创建了一个测试数据集，供语言专家用来评估模型的涌现能力，例如表达情感，而该模型没有被明确训练来执行。根据亚马逊的说法：

从 BASE TTS 在英语和西班牙语上的强劲表现中，我们第一次看到了一种多语言 TTS 方法，它实现了高表现力、对文本线索的适应和数据效率，仅使用公共领域的数据，并适用于流式 TTS 用例，例如为 LLM 输出配音。我们的方法指向了[大型TTS]模型的潜在缩放定律，其中需要大量的语音和其他(文本，图像)数据来支持多模态目标，并在TTS中开辟新天地。

BASE TTS 是支持语音克隆或传输的几个受 LLM 启发的 TTS 模型中的最新模型。2023 年，InfoQ 报道了 Microsoft 的 VALL-E，它可以在三秒钟的录音中复制语音;Google 的 AudioPaLM，它基于 LLM，可以执行 TTS、自动语音识别和语音到语音翻译以及语音传输;以及 Meta 的 Voicebox，这是一种非自回归模型，可以用六种语言执行 TTS，以及编辑和删除语音录音中的噪音。

BASE TTS 中的关键思想是将语音音频与离散语音令牌相互转换。亚马逊使用一种名为WavLM的模型创建了一个编码器，该编码器将“语音和韵律信息”与音频分开，并提取说话者声音的表示。然后，一个名为 SpeechGPT 的自回归转换器可以生成用于合成的语音令牌，条件是文本标记(要说话的文本)和用于合成的参考语音。最后，为了产生音频，SpeechGPT 的输出被传递给语音令牌解码器。

在 Hacker News 上关于 BASE TTS 的讨论中，用户将其输出示例与其他模型生成的语音进行了比较：

情感的例子很有趣。目前人工智能生成的声音/语音克隆最明显的指标之一是缺乏情感和范围，这使得他们客观上与专业配音演员相比更糟，除非缺乏情感和范围是理想的声音方向。但是，如果你听情感的例子，这个范围基本上是你从有声读物叙述者那里得到的，而不是更传统的配音。

虽然 BASE-TTS 演示站点包含几个示例音频文件，但亚马逊选择不开源该模型，理由是担心其语音克隆功能可能被滥用。