英伟达秀出新AI模型Fugatto各种声音生成难不倒它

　　英伟达周一展示新的生成式人工智能模型Fugatto(为 Foundational Generative Audio Transformer Opus 1的缩写)，这款模型能生成音乐、音频，还可以修改声音并生成新的声音，该技术主要瞄准音乐、电影和游戏制作人，不过目前还没有公开推出的计划。

　　据了解，「Fugatto」加入 Runway 等初创公司和 Meta Platforms 等大公司的其他技术，其中包括从文本提示生成音频或影片。不只如此，这款新的模型还能创造出一些新奇的声音，例如让小号发出狗叫声。

　　这款模型与其他 AI 技术不同支出在于，其能够吸收和修改现有音频，例如能把一段钢琴曲转换成人声歌唱，或者通过录好的语音改变口音和表达情绪。

　　辉达应用深度学习研究副总裁 Bryan Catanzaro 说：「如果我们回想一下过去 50 年的合成音频，现在的音乐听起来大不同，因为有计算机和合成器。我认为生成式 AI 能将音乐、电动游戏以及想要创造东西的普通人带来新的能力。」

　　英伟达的新模型是在开放源代码数据上进行训练，该公司表示仍在讨论是否以及如何公开发表。

　　Catanzaro 说：「任何生成式技术都会带来一些风险，因为人们可能会用他来生成我们不希望他们使用的东西。因此需要保持谨慎，这就是为什么没有立即推出这款模型的原因。”

　　生成型 AI 模型的创造者还没有确定如何防止用户产生错误讯息或通过产生受版权保护的角色来侵犯版权等滥用技术。

　　与此同时，OpenAI和Meta也同样没有说他们计划什么时候向大众推出他们的生成音频或视频的模型。

(责任编辑：admin)