MOSS-TTS 是复旦NLP与MOSI.AI联合开源的语音合成模型系列,100M参数的Nano版可在4核CPU上实时运行,输出48kHz立体声,支持31种语言零样本声音克隆,Apache 2.0可免费商用,是目前最值得推荐的开源TTS方案之一,文末附详细使用教程
🎤 引言
做视频、写播客、配音旁白……你还在为找合适的声音素材发愁吗?
商业配音平台按字数收费,自己训练TTS模型又门槛太高。有没有一种方案:小巧到能跑在笔记本上、快到实时生成、多语言支持、还完全免费可商用?
复旦NLP实验室联合MOSI.AI开源的 MOSS-TTS 就是答案。
⭐ 核心功能
MOSS-TTS 是一个开源语音生成模型系列,来自 OpenMOSS(上海创新机构,与复旦NLP及MOSI.AI合作,邱锡鹏教授领衔)。
主要模型矩阵:
| 模型 | 参数量 | 架构 | 定位 |
|---|---|---|---|
| MOSS-TTS-Nano | 100M | MossTTSDelay | 超轻量CPU优先 |
| MOSS-TTS 1.0 | 8B | MossTTSDelay | 旗舰高保真 |
| MOSS-TTS-Local-Transformer | 1.7B | MossTTSLocal | 本地高效 |
| MOSS-TTS-Realtime | 1.7B | MossTTSRealtime | 实时对话 |
| MOSS-SoundEffect | 8B/1.3B | DiT | 音效生成 |
核心能力:
- 🎯 零样本声音克隆:仅需参考音频(10秒以上),即可合成任意文本
- 🌐 多语言支持:v1.5支持31种语言,含中文、英文、日语、韩语及多种小语种
- 🎧 高保真输出:最高48kHz立体声,比肩商业TTS品质
- ⚡ 实时推理:Nano版可在4核CPU上实时运行
- 💻 轻量化:100M参数的Nano版,ONNX格式仅需约1GB内存
- 📜 商用友好:Apache 2.0许可证,可免费商用
📥 安装使用
方式一:Python快速调用
pip install moss-ttsfrom moss_tts import MossTTS
# 初始化(首次自动下载模型)
tts = MossTTS.from_pretrained("OpenMOSS/MOSS-TTS-Nano")
# 文本转语音
audio = tts.tts("你好,欢迎使用MOSS-TTS语音合成系统。")
# 保存音频
tts.save(audio, "output.wav")方式二:命令行工具
# 安装CLI工具
pip install moss-tts[cli]
# 文本转语音
moss-tts tts --text "你好" --output hello.wav
# 声音克隆(需提供参考音频)
moss-tts clone --text "要合成的文本" --ref reference.wav --output clone.wav方式三:Docker部署(适合服务器)
# 拉取镜像
docker pull openmoss/moss-tts-nano:latest
# 运行容器
docker run -p 8080:8080 openmoss/moss-tts-nano:latestONNX推理(无需GPU)
from moss_tts_onnx import MossTTS_ONNX
# 加载ONNX模型(CPU优化)
model = MossTTS_ONNX("moss_tts_nano.onnx")
# 推理
audio = model.generate("在CPU上也能跑得飞快")🎯 适用场景
- 🎬 短视频配音:输入文案自动生成配音,无需录音棚
- 📺 播客/有声书:长文本转语音,支持多角色音色
- 🌍 本地化翻译:多语言配音,保留原文情感
- 🔊 无障碍朗读:文字转语音,服务视障用户
- 🎮 游戏语音:低成本生成NPC对话配音
- 📱 嵌入式设备:Nano版可跑在树莓派等设备上
- ⚙️ 客服机器人:实时语音回复,低延迟响应
⚠️ 注意事项
- 声音克隆需授权:克隆他人声音需获得合法授权,避免法律风险
- Nano版 vs 旗舰版:Nano追求的是CPU实时性,音质略逊于8B旗舰版
- 长文本优化:超长文本建议分段合成,效果更稳定
- 内存要求:ONNX版约需1GB内存,完整PyTorch版建议8GB+内存
- 模型更新:v1.5相比1.0新增11种语言支持,语言覆盖更广
- 中文支持:MOSS-TTS的中文表现优秀,但部分小语种效果因训练数据量不同而有差异
✅ 总结
优点:
- ✅ 100M参数的Nano版真正实现了CPU实时运行,笔记本也能跑
- ✅ 48kHz立体声输出,音质接近商业TTS
- ✅ 31种语言支持,覆盖全球主要语言
- ✅ Apache 2.0许可证,个人和商业使用都免费
- ✅ 支持声音克隆,仅需少量参考音频
缺点:
- ❌ 音质与旗舰商业TTS(如ElevenLabs)仍有差距
- ❌ 部分小语种效果参差不齐
- ❌ 实时对话场景需要1.7B以上模型,中等硬件需求
推荐指数:⭐⭐⭐⭐
适合需要免费开源TTS方案的个人开发者、小团队,以及对数据隐私有要求不想使用云端API的场景。追求极致音质的商用场景建议还是上商业方案。
📎 GitHub:https://github.com/OpenMOSS/MOSS-TTS