🗣️MOSS-TTS：复旦开源语音合成模型 100M参数CPU即可运行支持31语言

MOSS-TTS 是复旦NLP与MOSI.AI联合开源的语音合成模型系列，100M参数的Nano版可在4核CPU上实时运行，输出48kHz立体声，支持31种语言零样本声音克隆，Apache 2.0可免费商用，是目前最值得推荐的开源TTS方案之一，文末附详细使用教程

🎤 引言

做视频、写播客、配音旁白……你还在为找合适的声音素材发愁吗？

商业配音平台按字数收费，自己训练TTS模型又门槛太高。有没有一种方案：小巧到能跑在笔记本上、快到实时生成、多语言支持、还完全免费可商用？

复旦NLP实验室联合MOSI.AI开源的 MOSS-TTS 就是答案。

⭐ 核心功能

MOSS-TTS 是一个开源语音生成模型系列，来自 OpenMOSS（上海创新机构，与复旦NLP及MOSI.AI合作，邱锡鹏教授领衔）。

主要模型矩阵：

模型	参数量	架构	定位
MOSS-TTS-Nano	100M	MossTTSDelay	超轻量CPU优先
MOSS-TTS 1.0	8B	MossTTSDelay	旗舰高保真
MOSS-TTS-Local-Transformer	1.7B	MossTTSLocal	本地高效
MOSS-TTS-Realtime	1.7B	MossTTSRealtime	实时对话
MOSS-SoundEffect	8B/1.3B	DiT	音效生成

核心能力：

🎯 零样本声音克隆：仅需参考音频（10秒以上），即可合成任意文本
🌐 多语言支持：v1.5支持31种语言，含中文、英文、日语、韩语及多种小语种
🎧 高保真输出：最高48kHz立体声，比肩商业TTS品质
⚡ 实时推理：Nano版可在4核CPU上实时运行
💻 轻量化：100M参数的Nano版，ONNX格式仅需约1GB内存
📜 商用友好：Apache 2.0许可证，可免费商用

📥 安装使用

方式一：Python快速调用

pip install moss-tts

from moss_tts import MossTTS

# 初始化（首次自动下载模型）
tts = MossTTS.from_pretrained("OpenMOSS/MOSS-TTS-Nano")

# 文本转语音
audio = tts.tts("你好，欢迎使用MOSS-TTS语音合成系统。")

# 保存音频
tts.save(audio, "output.wav")

方式二：命令行工具

# 安装CLI工具
pip install moss-tts[cli]

# 文本转语音
moss-tts tts --text "你好" --output hello.wav

# 声音克隆（需提供参考音频）
moss-tts clone --text "要合成的文本" --ref reference.wav --output clone.wav

方式三：Docker部署（适合服务器）

# 拉取镜像
docker pull openmoss/moss-tts-nano:latest

# 运行容器
docker run -p 8080:8080 openmoss/moss-tts-nano:latest

ONNX推理（无需GPU）

from moss_tts_onnx import MossTTS_ONNX

# 加载ONNX模型（CPU优化）
model = MossTTS_ONNX("moss_tts_nano.onnx")

# 推理
audio = model.generate("在CPU上也能跑得飞快")

🎯 适用场景

🎬 短视频配音：输入文案自动生成配音，无需录音棚
📺 播客/有声书：长文本转语音，支持多角色音色
🌍 本地化翻译：多语言配音，保留原文情感
🔊 无障碍朗读：文字转语音，服务视障用户
🎮 游戏语音：低成本生成NPC对话配音
📱 嵌入式设备：Nano版可跑在树莓派等设备上
⚙️ 客服机器人：实时语音回复，低延迟响应

⚠️ 注意事项

声音克隆需授权：克隆他人声音需获得合法授权，避免法律风险
Nano版 vs 旗舰版：Nano追求的是CPU实时性，音质略逊于8B旗舰版
长文本优化：超长文本建议分段合成，效果更稳定
内存要求：ONNX版约需1GB内存，完整PyTorch版建议8GB+内存
模型更新：v1.5相比1.0新增11种语言支持，语言覆盖更广
中文支持：MOSS-TTS的中文表现优秀，但部分小语种效果因训练数据量不同而有差异

✅ 总结

优点：

✅ 100M参数的Nano版真正实现了CPU实时运行，笔记本也能跑
✅ 48kHz立体声输出，音质接近商业TTS
✅ 31种语言支持，覆盖全球主要语言
✅ Apache 2.0许可证，个人和商业使用都免费
✅ 支持声音克隆，仅需少量参考音频

缺点：

❌ 音质与旗舰商业TTS（如ElevenLabs）仍有差距
❌ 部分小语种效果参差不齐
❌ 实时对话场景需要1.7B以上模型，中等硬件需求

推荐指数：⭐⭐⭐⭐

适合需要免费开源TTS方案的个人开发者、小团队，以及对数据隐私有要求不想使用云端API的场景。追求极致音质的商用场景建议还是上商业方案。

📎 GitHub：https://github.com/OpenMOSS/MOSS-TTS