Fish Speech 是 Fish Audio 开发的 SOTA 开源 TTS 工具,训练数据超 1000 万小时,支持 50 种语言。采用双自回归架构和强化学习对齐,支持[laugh]、[whispers]等情感标签控制,仅需 4GB 显存即可语音克隆,推理速度达 500 token/秒。

🎤 引言

做视频配音、有声书或者 AI 助手开发的朋友,肯定被 TTS(文本转语音)的质量困扰过。要么声音太机械像机器人,要么情感表达僵硬,要么对硬件要求太高跑不动。

Fish Speech 这个项目在 GitHub 上已经斩获 25.8k Stars,被称为开源界 SOTA(State of the Art)级别的 TTS 工具。它到底强在哪?实测告诉你。


⭐ 核心亮点

海量数据训练

Fish Speech S2 模型由 Fish Audio 开发,训练数据超过 1000 万小时 音频,覆盖约 50 种语言。这个数据量在同类型开源项目中算是顶级配置。

双自回归架构 + RL 对齐

技术架构上采用了双自回归(Dual-Autoregressive)设计,配合强化学习对齐(Reinforcement Learning Alignment)。说人话就是:生成的语音更自然、更真实、情感更丰富。

细粒度情感控制

这是 Fish Speech 的一大杀器。你可以用自然语言标签直接控制语音的情感和语气:

  • [laugh] - 让 AI 笑出来
  • [whispers] - 耳语效果
  • [super happy] - 超级开心的语气

不需要复杂的参数调节,直接写在文本里就行。

超低硬件门槛

官方宣称仅需 4GB 显存 就能跑起来。这个配置要求对普通用户非常友好,甚至一些集成显卡都能胜任。

极速推理

开启 CUDA 内核融合后,推理速度可达 500 token/秒,比默认的 30 token/秒 快了十几倍。


📥 安装与使用

三种使用方式

Fish Speech 提供了灵活的接入方式:

  1. WebUI - 图形界面,适合新手快速体验
  2. 命令行 - 适合批量处理和脚本集成
  3. HTTP API - 适合开发者集成到自己的应用中

语音克隆流程

只需提供一段约 10 秒的参考语音:

  1. 用 VQGAN 编码参考语音
  2. 输入文本生成语义 token
  3. VQGAN 解码生成最终语音

整个过程不需要繁琐的训练,即开即用。

Docker 一键部署

官方提供了 Docker 镜像,一条命令就能跑起来:

docker run -it --gpus all fishaudio/fish-speech

🛠️ 适用场景

Fish Speech 特别适合这些场景:

  • 视频配音:YouTube、B 站视频的多语言配音
  • 有声书制作:将电子书转换为有声内容
  • AI 助手开发:给聊天机器人添加语音交互能力
  • 游戏配音:独立游戏开发者的低成本配音方案
  • 语音克隆:用自己的声音生成内容,或者模仿特定音色

🔍 与同类工具对比

特性Fish SpeechGPT-SoVITSChatTTS
Stars25.8k17k+6k+
显存需求4GB6-8GB4GB
情感控制标签式有限较好
推理速度500t/s中等中等
多语言50+中英为主中英为主

Fish Speech 在 Stars 数、推理速度和语言支持上都有明显优势。


✅ 总结

Fish Speech 是目前开源 TTS 领域的标杆项目之一。25.8k Stars 的成绩不是白来的——海量训练数据、先进的架构设计、友好的硬件要求,再加上细粒度的情感控制,让它在同类工具中脱颖而出。

适合人群

  • 需要高质量语音合成的内容创作者
  • 想给产品添加语音功能的开发者
  • 对 AI 语音技术感兴趣的极客

上手建议:先从 WebUI 体验语音克隆效果,再根据需要接入 API 或命令行。

开源地址:https://github.com/fishaudio/fish-speech
官方文档:https://speech.fish.audio/