2022 年被称为 AIGC 元年,ChatGPT、Stable Diffusion、MidJourney 为代表的文字、图像应用带火了 AI 领域。2023 年,AI 孙燕姿、AI 郭德纲、音效生成、音乐生成也在社交媒体上火了一把。

今天,我们还能听到泰勒 · 斯威夫特唱周杰伦的稻香。

,时长01:03

这看似简单,但实际上背后的技术十分复杂,也正是由于音频领域的领域知识壁垒,工程师们上手并不容易。

近日,香港中文大学(深圳)数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个面向科研群体及刚进入或想要进入该领域的工程师的,集语音合成及转换、歌声合成及转换、音效及音乐生成等多功能为一体的开源平台。目前,该研究已经在海外社交平台上引发了极大的关注。

Amphion

Amphion 是一个综合的音频生成平台。该项目涵盖多种经典的音频生成任务,如语音合成、语音转换、歌声合成、歌声转换、音效生成、音乐生成、语音增强,以及多元的 AIGC 音频任务,诸如多模态控制的音效生成和音乐生成。Amphion 独有的可视化功能可以帮助初级研究人员和工程师更好地理解相关模型,从而协助初级研究人员和工程师在音频、音乐和语音生成等方面实现可持续的研究与开发。

Amphion 的技术报告里的主观评测显示,Amphion 在自然度和相似度上均超过了之前流行的 So-VITS-SVC 系统。目前,Amphion 的特征设计已被 So-VITS-SVC 5.0 系统借鉴。

Amphion 的技术报告显示,在客观指标和主观指标上,Amphion 均达到乃至超越了当前最受关注的开源系统的水平。

Amphion 的技术报告的客观指标显示,Amphion 在 TTA 任务上达到了领先的技术水平。

可视化

与传统的语音、音频开源工具不同,Amphion 提供了可视化功能。Amphion 团队希望可视化功能能让初学者更好地理解模型的原理和细节。目前,Amphion 团队提供了扩散模型的可视化截图。该功能通过扩散模型在歌声转换上的可视化,形象地呈现出一位歌手模仿另外一位歌手的渐变过程。

Amphion 在线 Demo 体验链接:

  • Text to Speech
  • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Speech
  • OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Speech
  • Singing Voice Conversion
  • HuggingFace Space: https://huggingface.co/spaces/amphion/singing_voice_conversion
  • OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/singing_voice_conversion
  • Text to Audio
  • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Audio
  • OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Audio