找回密码
 立即注册
查看: 618|回复: 0

[教程] 如何使用so-vits-svc分支的AI克隆任何声音

[复制链接]

3868

主题

36

回帖

4268

积分

管理员

积分
4268
发表于 2023-6-26 08:24:58 | 显示全部楼层 |阅读模式

How-to-Clone-Any-Voice-with-AI-with-so-vits-svc-fork.jpg

您想使用AI和机器学习在任何语言中唱任何歌曲吗?如果是的话,您应该尝试在GitHub上的so-vits-svc唱歌声音转换分支。这是一个功能强大且易于使用的工具,可以在几秒钟内将任何声音转换为另一个声音。

声音转换是将说话者的声音转换为另一个声音,而不改变言语的含义或情感的过程。这可以有各种应用,如娱乐、教育、辅助功能和隐私保护。

so-vits-svc分支基于VITS,这是一个先进的神经网络模型,可以以端到端的方式从文本合成语音。so-vits-svc分支添加了一些功能和改进,例如实时声音转换、QuickVC集成、更快的训练、GUI和统一的CLI等。

在本博客文章中,我将向您展示如何在自己的计算机或Google Colab上安装和使用so-vits-svc分支。我还将演示如何仅需几次点击将任何声音转换为另一个声音。最后,我将分享使用不同说话者和风格进行声音转换的一些示例和比较。

SVC分支是什么?AI语音克隆的开源解决方案

so-vits-svc(SVC)分支是在GitHub上开发的开源软件,可以让任何人训练自己的AI模型以任何声音和语言进行语音合成。您只需要一张合理的显卡和Linux或Microsoft Windows操作系统,就可以开始使用了。

该过程涉及使用任何语言的语音样本,结合一些机器学习技术。您现在将拥有一个不仅听起来像那个声音,而且可以以与原始声音相同的语调和语音语气说任何语言的AI模型。

您可以使用HuggingFace上的预训练模型。

安装

so-vits-svc分支的安装非常简单明了。您可以使用pip或GitHub进行安装。

使用pip

要使用pip安装so-vits-svc分支,只需在终端中运行以下命令:

pip install -U so-vits-svc-fork

这将安装最新版本的so-vits-svc分支及其所有依赖项。

使用GitHub

要使用GitHub安装so-vits-svc分支,您需要克隆存储库并手动安装。您可以通过在终端中运行以下命令来实现:

git clone https://github.com/voicepaw/so-vits-svc-fork.git
cd so-vits-svc-fork
pip install -e .

这将克隆存储库并以可编辑模式进行安装。

在Google Colab上

您无需拥有搭载GPU的强大计算机即可使用so-vits-svc唱歌声音转换分支。您可以使用Google Colab,它将为您设置一切。您可以上传自己的数据集,或者使用so-vits-svc分支中的数据集。

要在Google Colab上使用so-vits-svc分支,请打开此笔记本并按照说明操作。它将向您展示如何运行一些示例。

更新

要将so-vits-svc分支更新到最新版本,您可以使用pip或GitHub。

使用pip

要使用pip更新so-vits-svc分支,只需在终端中运行以下命令:

pip install -U so-vits-svc-fork

这将更新软件包及其所有依赖项。

使用GitHub

要使用GitHub更新so-vits-svc分支,您需要从存储库中拉取最新的更改并重新安装它。您可以通过在终端中运行以下命令来实现:

cd so-vits-svc-fork
git pull
pip install -e .

这将拉取最新的更改并以可编辑模式重新安装软件包。

用法

使用so-vits-svc分支非常简单直观。您可以使用GUI或CLI来执行声音转换。

使用GUI

so-vits-svc分支的GUI是一个图形界面,允许您选择源说话者和目标说话者,调整一些参数,并听取转换后的声音。您可以通过在终端中运行以下命令启动GUI:

svc gui

这将打开一个类似下面这样的窗口:

so-vits-svc-GUI.png

在这里,您可以看到一些按钮和滑块,可以控制声音转换过程。您可以执行以下操作:

  • 从预训练的说话者列表中选择源说话者,或从文件中加载自己的说话者。
  • 从预训练的说话者列表中选择目标说话者,或从文件中加载自己的说话者。
  • 调整音高变化因子以改变转换后声音的音高。
  • 调整能量比例因子以改变转换后声音的响度。
  • 调整持续时间比例因子以改变转换后声音的速度。
  • 按下播放按钮以听取原始源声音。
  • 按下转换按钮将源声音转换为目标声音。
  • 按下停止按钮停止播放或转换。
  • 按下保存按钮将转换后的声音保存为WAV文件。

您还可以将WAV文件拖放到GUI窗口中,以将其作为源声音加载。您还可以使用键盘快捷键控制GUI。例如,您可以按下空格键播放或停止声音,或按下回车键转换声音。

GUI还显示了有关源和目标说话者的一些信息,例如它们的名称、性别、语言和采样率。您还可以看到原始和转换声音的频谱图和F0轮廓的一些绘图。

GUI是尝试不同声音和风格的便捷和有趣方式。您可以尝试将自己的声音转换为另一个声音,或将著名歌手的声音转换为另一个歌手的声音。您还可以改变声音的音高、能量和持续时间,以创建不同的效果。

使用CLI

so-vits-svc分支的CLI是一个命令行界面,允许您使用一些参数和选项进行声音转换。您可以通过在终端中运行以下命令来使用CLI:

svc convert [OPTIONS] SOURCE_VOICE TARGET_SPEAKER

这将将源声音转换为目标说话者并将其保存为WAV文件。您可以指定一些选项来更改声音转换过程的某些参数。例如,您可以使用以下选项:

  • -o--output-path指定转换后声音的输出路径。
  • -p--pitch-shift-factor指定转换后声音的音高变化因子。
  • -e--energy-ratio-factor指定转换后声音的能量比例因子。
  • -d--duration-ratio-factor指定转换后声音的持续时间比例因子。
  • -s--speaker-mode指定如何加载目标说话者。可以是pretrained(预训练)、file(文件)或cluster(聚类)。
  • -c--cluster-model-path指定聚类模型的路径(如果使用cluster模式)。

您还可以使用-h--help选项查看有关CLI用法和选项的更多信息。

CLI是一种快速灵活的方式,可使用不同的声音和参数进行声音转换。您可以使用它批量转换多个声音,或将其与其他工具和脚本集成使用。

示例和比较

为了展示so-vits-svc分支的能力,让我们看一些使用不同声音和风格进行声音转换的示例。

在这个YouTube视频中,您可以看到Nerdy Rodent如何使用Pixabay上的法语歌曲进行转换和演唱。他播放原始歌曲,然后播放转换后的版本。是不是很神奇?

https://www.youtube.com/watch?t=28&v=tZn0lcGO5OQ&embeds_referring_euri=https%3A%2F%2Fthelearness.com%2F&feature=emb_imp_woyt

将男性声音转换为女性声音

您会注意到转换后的声音听起来像是一个女性说话者,与源声音具有类似的语调和表达方式。语音的含义和自然度都得到了保留。

将女性声音转换为男性声音

您会注意到转换后的声音听起来像是一个男性说话者,与源声音具有类似的语调和表达方式。语音的含义和自然度都得到了保留。

改变声音的风格和情感

您可以将转换后的声音听起来像源声音的不同版本,具有不同的风格和情感。语音的含义得到了保留,但自然度可能会根据风格和情感的改变程度而有所不同。

结论

Sovits SVC Fork 是声音转换技术中的一次创新。它使用最先进的深度学习模型实现了实时的声音转换,可以转换任何声音和语言。

它还具有QuickVC、改进的GUI、统一的CLI、准确的音高估计、更快的训练和推断、简单的安装和更新以及预训练模型的自动下载等特点。通过使用Sovits SVC Fork,您可以创建自己的声音,并用任何语言演唱。立即尝试,看看人工智能能为您带来什么。

参考资料

如果您想了解更多关于 so-vits-svc fork 和声音转换的内容,可以查阅以下链接和资源:

  1. so-vits-svc fork 的 GitHub 仓库,您可以在此处找到源代码、文档、问题和讨论:https://github.com/voicepaw/so-vits-svc-fork
  2. so-vits-svc fork 的 Google Colab 笔记本,您可以在 Colab 上运行该软件包,无需安装任何东西:https://colab.research.google.com/github/34j/so-vits-svc-fork/blob/main/notebooks/so-vits-svc-fork-4.0.ipynb
  3. so-vits-svc fork 的 PyPI 页面,您可以在此处找到软件包信息和安装说明:https://pypi.org/project/so-vits-svc-fork/
  4. so-vits-svc 的原始仓库,您可以在此处找到原始实现和模型:https://github.com/sooftware/so-vits-svc
  5. SoftVC 的论文:A Soft Vocoder for End-to-End Singing Voice Conversion,您可以在该论文中找到模型的技术细节和评估结果:https://arxiv.org/abs/2105.07894
  6. VITS 的论文:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech,您可以在该论文中找到模型的技术细节和评估结果:https://arxiv.org/abs/2006.04558

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|金房子

GMT+8, 2024-5-20 02:04 , Processed in 0.043082 second(s), 20 queries .

© 2023 金房子|AI发烧友社区

快速回复 返回顶部 返回列表