🎙️ Fish Speech：SOTA开源TTS神器 25k+Stars语音克隆情感控制

Fish Speech 是 Fish Audio 开发的 SOTA 开源 TTS 工具，训练数据超 1000 万小时，支持 50 种语言。采用双自回归架构和强化学习对齐，支持[laugh]、[whispers]等情感标签控制，仅需 4GB 显存即可语音克隆，推理速度达 500 token/秒。

做视频配音、有声书或者 AI 助手开发的朋友，肯定被 TTS（文本转语音）的质量困扰过。要么声音太机械像机器人，要么情感表达僵硬，要么对硬件要求太高跑不动。

Fish Speech 这个项目在 GitHub 上已经斩获 25.8k Stars，被称为开源界 SOTA（State of the Art）级别的 TTS 工具。它到底强在哪？实测告诉你。

Fish Speech S2 模型由 Fish Audio 开发，训练数据超过 1000 万小时 音频，覆盖约 50 种语言。这个数据量在同类型开源项目中算是顶级配置。

技术架构上采用了双自回归（Dual-Autoregressive）设计，配合强化学习对齐（Reinforcement Learning Alignment）。说人话就是：生成的语音更自然、更真实、情感更丰富。

这是 Fish Speech 的一大杀器。你可以用自然语言标签直接控制语音的情感和语气：

不需要复杂的参数调节，直接写在文本里就行。

官方宣称仅需 4GB 显存 就能跑起来。这个配置要求对普通用户非常友好，甚至一些集成显卡都能胜任。

开启 CUDA 内核融合后，推理速度可达 500 token/秒，比默认的 30 token/秒快了十几倍。

Fish Speech 提供了灵活的接入方式：

只需提供一段约 10 秒的参考语音：

整个过程不需要繁琐的训练，即开即用。

官方提供了 Docker 镜像，一条命令就能跑起来：

docker run -it --gpus all fishaudio/fish-speech

Fish Speech 特别适合这些场景：

特性	Fish Speech	GPT-SoVITS	ChatTTS
Stars	25.8k	17k+	6k+
显存需求	4GB	6-8GB	4GB
情感控制	标签式	有限	较好
推理速度	500t/s	中等	中等
多语言	50+	中英为主	中英为主

Fish Speech 在 Stars 数、推理速度和语言支持上都有明显优势。

Fish Speech 是目前开源 TTS 领域的标杆项目之一。25.8k Stars 的成绩不是白来的——海量训练数据、先进的架构设计、友好的硬件要求，再加上细粒度的情感控制，让它在同类工具中脱颖而出。

适合人群：

上手建议：先从 WebUI 体验语音克隆效果，再根据需要接入 API 或命令行。