Github 开源现在最好的TTS声音克隆

电脑软件 · 2024-12-11 · 161 人浏览
Github 开源现在最好的TTS声音克隆

VideoLingo

2024-12-11T14:24:16.png
VideoLingo 是一站式视频翻译本地化配音工具,能够一键生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的克隆配音,让全世界的知识能够跨越语言的障碍共享。
主要特点和功能:
🎥 使用 yt-dlp 从 Youtube 链接下载视频
🎙️ 使用 WhisperX 进行单词级和低幻觉字幕识别
📝 使用 NLP 和 AI 进行字幕分割
📚 自定义 + AI 生成术语库,保证翻译连贯性
🔄 三步直译、反思、意译,实现影视级翻译质量
✅ 按照 Netflix 标准检查单行长度,绝无双行字幕
🗣️ 支持 GPT-SoVITS、Azure、OpenAI 等多种配音方案
🚀 整合包一键启动,在 streamlit 中一键出片
📝 详细记录每步操作日志,支持随时中断和恢复进度
项目地址:
https://github.com/Huanshere/VideoLingo

FishSpeech

2024-12-11T14:24:25.png
特性
零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。
多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。
高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。
快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。
GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。
易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。
项目地址:https://github.com/fishaudio/fish-speech

MockingBird

2024-12-11T14:24:32.png
🌍 中文 支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等
🤩 PyTorch 适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060
🌍 Windows + Linux 可在 Windows 操作系统和 linux 操作系统中运行(苹果系统M1版也有社区成功运行案例)
🤩 Easy & Awesome 仅需下载或新训练合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器,或实时的HiFi-GAN作为vocoder
🌍 Webserver Ready 可伺服你的训练结果,供远程调用
项目地址:https://github.com/babysor/MockingBird

Theme Jasmine by Kent Liao