Fish Speech 是 Fish Audio 开发的 SOTA 开源 TTS 工具,训练数据超 1000 万小时,支持 50 种语言。采用双自回归架构和强化学习对齐,支持[laugh]、[whispers]等情感标签控制,仅需 4GB 显存即可语音克隆,推理速度达 500 token/秒。
🎤 引言
做视频配音、有声书或者 AI 助手开发的朋友,肯定被 TTS(文本转语音)的质量困扰过。要么声音太机械像机器人,要么情感表达僵硬,要么对硬件要求太高跑不动。
Fish Speech 这个项目在 GitHub 上已经斩获 25.8k Stars,被称为开源界 SOTA(State of the Art)级别的 TTS 工具。它到底强在哪?实测告诉你。
⭐ 核心亮点
海量数据训练
Fish Speech S2 模型由 Fish Audio 开发,训练数据超过 1000 万小时 音频,覆盖约 50 种语言。这个数据量在同类型开源项目中算是顶级配置。
双自回归架构 + RL 对齐
技术架构上采用了双自回归(Dual-Autoregressive)设计,配合强化学习对齐(Reinforcement Learning Alignment)。说人话就是:生成的语音更自然、更真实、情感更丰富。
细粒度情感控制
这是 Fish Speech 的一大杀器。你可以用自然语言标签直接控制语音的情感和语气:
[laugh]- 让 AI 笑出来[whispers]- 耳语效果[super happy]- 超级开心的语气
不需要复杂的参数调节,直接写在文本里就行。
超低硬件门槛
官方宣称仅需 4GB 显存 就能跑起来。这个配置要求对普通用户非常友好,甚至一些集成显卡都能胜任。
极速推理
开启 CUDA 内核融合后,推理速度可达 500 token/秒,比默认的 30 token/秒 快了十几倍。
📥 安装与使用
三种使用方式
Fish Speech 提供了灵活的接入方式:
- WebUI - 图形界面,适合新手快速体验
- 命令行 - 适合批量处理和脚本集成
- HTTP API - 适合开发者集成到自己的应用中
语音克隆流程
只需提供一段约 10 秒的参考语音:
- 用 VQGAN 编码参考语音
- 输入文本生成语义 token
- VQGAN 解码生成最终语音
整个过程不需要繁琐的训练,即开即用。
Docker 一键部署
官方提供了 Docker 镜像,一条命令就能跑起来:
docker run -it --gpus all fishaudio/fish-speech🛠️ 适用场景
Fish Speech 特别适合这些场景:
- 视频配音:YouTube、B 站视频的多语言配音
- 有声书制作:将电子书转换为有声内容
- AI 助手开发:给聊天机器人添加语音交互能力
- 游戏配音:独立游戏开发者的低成本配音方案
- 语音克隆:用自己的声音生成内容,或者模仿特定音色
🔍 与同类工具对比
| 特性 | Fish Speech | GPT-SoVITS | ChatTTS |
|---|---|---|---|
| Stars | 25.8k | 17k+ | 6k+ |
| 显存需求 | 4GB | 6-8GB | 4GB |
| 情感控制 | 标签式 | 有限 | 较好 |
| 推理速度 | 500t/s | 中等 | 中等 |
| 多语言 | 50+ | 中英为主 | 中英为主 |
Fish Speech 在 Stars 数、推理速度和语言支持上都有明显优势。
✅ 总结
Fish Speech 是目前开源 TTS 领域的标杆项目之一。25.8k Stars 的成绩不是白来的——海量训练数据、先进的架构设计、友好的硬件要求,再加上细粒度的情感控制,让它在同类工具中脱颖而出。
适合人群:
- 需要高质量语音合成的内容创作者
- 想给产品添加语音功能的开发者
- 对 AI 语音技术感兴趣的极客
上手建议:先从 WebUI 体验语音克隆效果,再根据需要接入 API 或命令行。
开源地址:https://github.com/fishaudio/fish-speech
官方文档:https://speech.fish.audio/