Github 开源现在最好的TTS声音克隆 - 喜欢网络

VideoLingo

2024-12-11T14:24:16.png
VideoLingo 是一站式视频翻译本地化配音工具，能够一键生成 Netflix 级别的高质量字幕，告别生硬机翻，告别多行字幕，还能加上高质量的克隆配音，让全世界的知识能够跨越语言的障碍共享。
主要特点和功能：
🎥 使用 yt-dlp 从 Youtube 链接下载视频
🎙️ 使用 WhisperX 进行单词级和低幻觉字幕识别
📝 使用 NLP 和 AI 进行字幕分割
📚 自定义 + AI 生成术语库，保证翻译连贯性
🔄 三步直译、反思、意译，实现影视级翻译质量
✅ 按照 Netflix 标准检查单行长度，绝无双行字幕
🗣️ 支持 GPT-SoVITS、Azure、OpenAI 等多种配音方案
🚀 整合包一键启动，在 streamlit 中一键出片
📝 详细记录每步操作日志，支持随时中断和恢复进度
项目地址：
https://github.com/Huanshere/VideoLingo

FishSpeech

2024-12-11T14:24:25.png
特性
零样本 & 小样本 TTS：输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。
多语言 & 跨语言支持：只需复制并粘贴多语言文本到输入框中，无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖：模型具备强大的泛化能力，不依赖音素进行 TTS，能够处理任何文字表示的语言。
高准确率：在 5 分钟的英文文本上，达到了约 2% 的 CER（字符错误率）和 WER（词错误率）。
快速：通过 fish-tech 加速，在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5，在 Nvidia RTX 4090 上约为 1:15。
WebUI 推理：提供易于使用的基于 Gradio 的网页用户界面，兼容 Chrome、Firefox、Edge 等浏览器。
GUI 推理：提供 PyQt6 图形界面，与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。
易于部署：轻松设置推理服务器，原生支持 Linux、Windows 和 macOS，最大程度减少速度损失。
项目地址：https://github.com/fishaudio/fish-speech

MockingBird

2024-12-11T14:24:32.png
🌍 中文支持普通话并使用多种中文数据集进行测试：aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等
🤩 PyTorch 适用于 pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中测试，GPU Tesla T4 和 GTX 2060
🌍 Windows + Linux 可在 Windows 操作系统和 linux 操作系统中运行（苹果系统M1版也有社区成功运行案例）
🤩 Easy & Awesome 仅需下载或新训练合成器（synthesizer）就有良好效果，复用预训练的编码器/声码器，或实时的HiFi-GAN作为vocoder
🌍 Webserver Ready 可伺服你的训练结果，供远程调用
项目地址：https://github.com/babysor/MockingBird