VoxCPM 是面壁智能联合清华大学开源的新一代 TTS 模型,2B 参数即可输出 48kHz CD 级音质,支持 30 种语言和 9 种中文方言克隆。凭借无分词器架构和上下文感知能力,语音自然度远超同类开源方案,Apache 2.0 许可完全商用免费。
🎤 引言
你有没有想过——给自己做一个专属的"声音分身"?
录几秒音频,就能让它替你配音、播报、甚至说外语,而且听起来和你本人几乎一模一样。这不是科幻,已经有开源项目在免费提供了。
VoxCPM,来自面壁智能 × 清华大学联合研发的新一代文本转语音(TTS)模型。刚发布 VoxCPM2,参数从 0.5B 升级到 2B,支持 30 种语言和 9 种中文方言,输出音质直接拉满到 48kHz——相当于 CD 唱片级别。更重要的是,它完全开源,Apache 2.0 许可,商用免费。
⭐ 核心功能
1. 无分词器连续空间建模
传统 TTS 模型(比如大家熟悉的 GPT-SoVITS、Coqui)大多数都依赖"语音离散化"这个步骤——先把语音转成一串离散 token,再基于这些 token 去生成。这么做建模确实简单,但有个致命问题:大量声学细节和情感信息被丢弃,听起来就是"拼出来的声音",有明显的机械感和断句感。
VoxCPM 直接在连续空间建模语音表征,采用了端到端扩散自回归架构,彻底抛弃离散 token 化。底层基于 MiniCPM-4 语言模型 backbone,通过分层设计(LocEnc → TSLM → RALM → LocDiT)实现语义理解与声学生成的深度耦合。
用人话来说:VoxCPM 是在"理解你在说什么",再把它"读出来",而不是把字一个个念出来。
2. 零样本语音克隆
这是 VoxCPM 最炸裂的功能——只需要 3-5 秒参考音频,就能复刻说话人的音色、口音和情感特征。
VoxCPM2 支持两种克隆模式:
Ultimate Cloning(终极克隆):同时上传参考音频和对应文字 Transcript,模型会在参考音频的基础上无缝续接,完整保留音色、节奏、情感和说话风格。适合想高度还原真人声线的场景。
Controllable Voice Cloning(可控克隆):上传参考音频克隆音色,同时还能用自然语言描述("语速稍快、欢快语调")来进一步控制情感、语速和表达方式。克隆和风格控制可以同时生效,非常灵活。
实测下来,方言克隆效果也很顶——四川话、粤语、吴语等变体的音色相似度实测超过 92%。
3. Voice Design:从文字描述直接生成新声音
连参考音频都不需要,直接用一段文字描述就能创造一个全新声音。描述内容可以包括:性别、年龄、语调、情感、语速等。格式很简单,把描述放在文本开头的括号里就行:
wav = model.generate(
text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
cfg_value=2.0,
inference_timesteps=10,
)这个功能目前只有 VoxCPM2 支持,0.5B 和 1.5 版本没有。
4. 多语言 + 中文方言支持
VoxCPM2 一口气支持 30 种语言:中文、英文、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、印地语、越南语、泰语……基本覆盖主流语言。
中文方言支持 9 种:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。游戏配音、有声书多角色方言演绎等场景完全够用。
5. 48kHz 高保真输出
VoxCPM2 内置 AudioVAE V2,通过非对称 encode/decode 设计,可以直接接收 16kHz 参考音频,输出 48kHz 录音棚级别音质,不再需要外接超分模型。从 1.5 版本的 44.1kHz 进一步提升到了 48kHz,细节更丰富。
📥 安装与使用
环境要求
- Python ≥ 3.10(< 3.13)
- PyTorch ≥ 2.5.0
- CUDA ≥ 12.0
- 显存:约 8GB(RTX 4090 实测)
快速安装
pip install voxcpmPython API 基本用法
文字转语音(无克隆):
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained(
"openbmb/VoxCPM2",
load_denoiser=False,
)
wav = model.generate(
text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
print("saved: demo.wav")语音克隆:
wav = model.generate(
text="This is a cloned voice generated by VoxCPM2.",
reference_wav_path="path/to/voice.wav",
)
sf.write("clone.wav", wav, model.tts_model.sample_rate)可控克隆(带风格控制):
wav = model.generate(
text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
reference_wav_path="path/to/voice.wav",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("controllable_clone.wav", wav, model.tts_model.sample_rate)流式推理(低延迟场景):
import numpy as np
chunks = []
for chunk in model.generate_streaming(
text="Streaming text to speech is easy with VoxCPM!",
):
chunks.append(chunk)
wav = np.concatenate(chunks)
sf.write("streaming.wav", wav, model.tts_model.sample_rate)CLI 命令行用法
# 文字转语音
voxcpm design \
--text "VoxCPM2 brings studio-quality multilingual speech synthesis." \
--output out.wav
# 语音克隆
voxcpm clone \
--text "This is a voice cloning demo." \
--reference-audio path/to/voice.wav \
--output out.wav
# 批量处理
voxcpm batch --input examples/input.txt --output-dir outsWeb UI 启动
python app.py --port 8808
# 浏览器打开 http://localhost:8808生产级部署(Nano-vLLM 加速)
标准 PyTorch 实现 RTX 4090 RTF ~0.30,搭配 Nano-vLLM-VoxCPM 可降至 RTF ~0.13,支持并发请求和 FastAPI:
pip install nano-vllm-voxcpmfrom nanovllm_voxcpm import VoxCPM
import numpy as np, soundfile as sf
server = VoxCPM.from_pretrained(model="/path/to/VoxCPM", devices=[0])
chunks = list(server.generate(target_text="Hello from VoxCPM!"))
sf.write("out.wav", np.concatenate(chunks), 48000)
server.stop()🎯 适用场景
自媒体与内容创作:有声书多角色配音、短视频配音、视频旁白,一个人的创作团队也能玩出多人的效果。有测试显示,接入后配音成本降低 70%,生产效率提升 3 倍。
游戏与虚拟人:巨人网络等企业已将 VoxCPM 用于游戏角色配音,支持河南话、上海话等多种方言。RTF 低至 0.17 的实时性,特别适合 NPC 实时对话场景。
智能客服与品牌语音:企业可构建带品牌音色特色的客服语音系统,支持多语言切换。情感适配功能使一次问题解决率提升 22%。
无障碍应用:为视障人士提供更自然流畅的文本朗读,听书疲劳度显著下降。多语言支持特性也为跨境无障碍服务提供基础。
LoRA 微调定制: VoxCPM1.5 开始支持 LoRA 微调,VoxCPM2 支持 SFT/LoRA 全套微调方案。个人用户或小型团队用 5 分钟左右的数据就能训练出专属声音模型。
⚠️ 注意事项
- 参考音频质量直接影响克隆效果:虽然 VoxCPM 支持 16kHz 参考音频,但参考音频越清晰、越干净,克隆出来的效果越好。太模糊或带严重背景噪音的音频,克隆相似度会明显下降。
- CFG Value 参数调优:
cfg_value控制对参考音频的遵循程度——数值越高,克隆越忠实于原声,但可能牺牲一些自然度;数值偏低则允许更多创造力,生成效果可能更流畅但偏离原声。遇到生成不稳定时可以尝试调低这个值。 - RTX 4090 以下显卡:实测 6GB 显存勉强能跑 VoxCPM1.5(4G 显存可用版),但 VoxCPM2 需要约 8GB 显存,老显卡用户建议选择 1.5 版本或使用 Nano-vLLM 优化版。
- 方言克隆仍有限制:虽然支持 9 种方言,但在一些非常小众的方言变体上,克隆相似度和自然度会比普通话略低。实际测试中,带明显地方口音的样本克隆相似度约 89%,略低于官方宣称的 92%。
- 批处理长音频内存占用:生成超长音频时注意显存占用,建议分段处理后再拼接。
✅ 总结
VoxCPM 基本上代表了当前开源 TTS 的最高水平。0.5B 时代就已经是 GitHub Trending #1,升级到 2B 的 VoxCPM2 之后,支持 30 种语言和 9 种方言、48kHz 高保真输出、Voice Design 文字造声、LoRA 微调,竞争力更强了。
和闭源方案(ElevenLabs、MegaTTS3)比,VoxCPM 的优势在于完全免费可商用 + 开源透明;和同类开源方案(CosyVoice3、F5-TTS)比,VoxCPM 在中文 CER 指标和情感表达上更有优势,VoxCPM2 的 Voice Design 更是独一份的功能。
要说缺点的话,8GB 显存的门槛对部分用户还是有点高,另外 VoxCPM2 目前还没有 Technical Report,算法细节透明度不如 0.5B 版本。但这些都不影响它成为目前最值得推荐的开源语音克隆方案。
| 版本 | 参数 | 音质 | 语言数 | 特色 |
|---|---|---|---|---|
| VoxCPM2 | 2B | 48kHz | 30 | Voice Design + 可控克隆 |
| VoxCPM1.5 | 0.6B | 44.1kHz | 2 (zh,en) | LoRA 微调 |
| VoxCPM-0.5B | 0.5B | 16kHz | 2 (zh,en) | 轻量入门 |
推荐指数:⭐⭐⭐⭐⭐
如果你对 AI 语音克隆感兴趣,VoxCPM 绝对值得一试。开源地址:https://github.com/OpenBMB/VoxCPM,在线 Demo:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo。