🎙️ VoxCPM：清华大学开源语音克隆支持30语言+9种方言 2B参数48kHz音质

VoxCPM 是面壁智能联合清华大学开源的新一代 TTS 模型，2B 参数即可输出 48kHz CD 级音质，支持 30 种语言和 9 种中文方言克隆。凭借无分词器架构和上下文感知能力，语音自然度远超同类开源方案，Apache 2.0 许可完全商用免费。

🎤 引言

你有没有想过——给自己做一个专属的"声音分身"？

录几秒音频，就能让它替你配音、播报、甚至说外语，而且听起来和你本人几乎一模一样。这不是科幻，已经有开源项目在免费提供了。

VoxCPM，来自面壁智能 × 清华大学联合研发的新一代文本转语音（TTS）模型。刚发布 VoxCPM2，参数从 0.5B 升级到 2B，支持 30 种语言和 9 种中文方言，输出音质直接拉满到 48kHz——相当于 CD 唱片级别。更重要的是，它完全开源，Apache 2.0 许可，商用免费。

⭐ 核心功能

1. 无分词器连续空间建模

传统 TTS 模型（比如大家熟悉的 GPT-SoVITS、Coqui）大多数都依赖"语音离散化"这个步骤——先把语音转成一串离散 token，再基于这些 token 去生成。这么做建模确实简单，但有个致命问题：大量声学细节和情感信息被丢弃，听起来就是"拼出来的声音"，有明显的机械感和断句感。

VoxCPM 直接在连续空间建模语音表征，采用了端到端扩散自回归架构，彻底抛弃离散 token 化。底层基于 MiniCPM-4 语言模型 backbone，通过分层设计（LocEnc → TSLM → RALM → LocDiT）实现语义理解与声学生成的深度耦合。

用人话来说：VoxCPM 是在"理解你在说什么"，再把它"读出来"，而不是把字一个个念出来。

2. 零样本语音克隆

这是 VoxCPM 最炸裂的功能——只需要 3-5 秒参考音频，就能复刻说话人的音色、口音和情感特征。

VoxCPM2 支持两种克隆模式：

Ultimate Cloning（终极克隆）：同时上传参考音频和对应文字 Transcript，模型会在参考音频的基础上无缝续接，完整保留音色、节奏、情感和说话风格。适合想高度还原真人声线的场景。

Controllable Voice Cloning（可控克隆）：上传参考音频克隆音色，同时还能用自然语言描述（"语速稍快、欢快语调"）来进一步控制情感、语速和表达方式。克隆和风格控制可以同时生效，非常灵活。

实测下来，方言克隆效果也很顶——四川话、粤语、吴语等变体的音色相似度实测超过 92%。

3. Voice Design：从文字描述直接生成新声音

连参考音频都不需要，直接用一段文字描述就能创造一个全新声音。描述内容可以包括：性别、年龄、语调、情感、语速等。格式很简单，把描述放在文本开头的括号里就行：

wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
    cfg_value=2.0,
    inference_timesteps=10,
)

这个功能目前只有 VoxCPM2 支持，0.5B 和 1.5 版本没有。

4. 多语言 + 中文方言支持

VoxCPM2 一口气支持 30 种语言：中文、英文、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、印地语、越南语、泰语……基本覆盖主流语言。

中文方言支持 9 种：四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。游戏配音、有声书多角色方言演绎等场景完全够用。

5. 48kHz 高保真输出

VoxCPM2 内置 AudioVAE V2，通过非对称 encode/decode 设计，可以直接接收 16kHz 参考音频，输出 48kHz 录音棚级别音质，不再需要外接超分模型。从 1.5 版本的 44.1kHz 进一步提升到了 48kHz，细节更丰富。

📥 安装与使用

环境要求

Python ≥ 3.10（< 3.13）
PyTorch ≥ 2.5.0
CUDA ≥ 12.0
显存：约 8GB（RTX 4090 实测）

快速安装

pip install voxcpm

Python API 基本用法

文字转语音（无克隆）：

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
print("saved: demo.wav")

语音克隆：

wav = model.generate(
    text="This is a cloned voice generated by VoxCPM2.",
    reference_wav_path="path/to/voice.wav",
)
sf.write("clone.wav", wav, model.tts_model.sample_rate)

可控克隆（带风格控制）：

wav = model.generate(
    text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
    reference_wav_path="path/to/voice.wav",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("controllable_clone.wav", wav, model.tts_model.sample_rate)

流式推理（低延迟场景）：

import numpy as np

chunks = []
for chunk in model.generate_streaming(
    text="Streaming text to speech is easy with VoxCPM!",
):
    chunks.append(chunk)
wav = np.concatenate(chunks)
sf.write("streaming.wav", wav, model.tts_model.sample_rate)

CLI 命令行用法

# 文字转语音
voxcpm design \
  --text "VoxCPM2 brings studio-quality multilingual speech synthesis." \
  --output out.wav

# 语音克隆
voxcpm clone \
  --text "This is a voice cloning demo." \
  --reference-audio path/to/voice.wav \
  --output out.wav

# 批量处理
voxcpm batch --input examples/input.txt --output-dir outs

Web UI 启动

python app.py --port 8808
# 浏览器打开 http://localhost:8808

生产级部署（Nano-vLLM 加速）

标准 PyTorch 实现 RTX 4090 RTF ~0.30，搭配 Nano-vLLM-VoxCPM 可降至 RTF ~0.13，支持并发请求和 FastAPI：

pip install nano-vllm-voxcpm

from nanovllm_voxcpm import VoxCPM
import numpy as np, soundfile as sf

server = VoxCPM.from_pretrained(model="/path/to/VoxCPM", devices=[0])
chunks = list(server.generate(target_text="Hello from VoxCPM!"))
sf.write("out.wav", np.concatenate(chunks), 48000)
server.stop()

🎯 适用场景

自媒体与内容创作：有声书多角色配音、短视频配音、视频旁白，一个人的创作团队也能玩出多人的效果。有测试显示，接入后配音成本降低 70%，生产效率提升 3 倍。

游戏与虚拟人：巨人网络等企业已将 VoxCPM 用于游戏角色配音，支持河南话、上海话等多种方言。RTF 低至 0.17 的实时性，特别适合 NPC 实时对话场景。

智能客服与品牌语音：企业可构建带品牌音色特色的客服语音系统，支持多语言切换。情感适配功能使一次问题解决率提升 22%。

无障碍应用：为视障人士提供更自然流畅的文本朗读，听书疲劳度显著下降。多语言支持特性也为跨境无障碍服务提供基础。

LoRA 微调定制： VoxCPM1.5 开始支持 LoRA 微调，VoxCPM2 支持 SFT/LoRA 全套微调方案。个人用户或小型团队用 5 分钟左右的数据就能训练出专属声音模型。

⚠️ 注意事项

参考音频质量直接影响克隆效果：虽然 VoxCPM 支持 16kHz 参考音频，但参考音频越清晰、越干净，克隆出来的效果越好。太模糊或带严重背景噪音的音频，克隆相似度会明显下降。
CFG Value 参数调优：cfg_value 控制对参考音频的遵循程度——数值越高，克隆越忠实于原声，但可能牺牲一些自然度；数值偏低则允许更多创造力，生成效果可能更流畅但偏离原声。遇到生成不稳定时可以尝试调低这个值。
RTX 4090 以下显卡：实测 6GB 显存勉强能跑 VoxCPM1.5（4G 显存可用版），但 VoxCPM2 需要约 8GB 显存，老显卡用户建议选择 1.5 版本或使用 Nano-vLLM 优化版。
方言克隆仍有限制：虽然支持 9 种方言，但在一些非常小众的方言变体上，克隆相似度和自然度会比普通话略低。实际测试中，带明显地方口音的样本克隆相似度约 89%，略低于官方宣称的 92%。
批处理长音频内存占用：生成超长音频时注意显存占用，建议分段处理后再拼接。

✅ 总结

VoxCPM 基本上代表了当前开源 TTS 的最高水平。0.5B 时代就已经是 GitHub Trending #1，升级到 2B 的 VoxCPM2 之后，支持 30 种语言和 9 种方言、48kHz 高保真输出、Voice Design 文字造声、LoRA 微调，竞争力更强了。

和闭源方案（ElevenLabs、MegaTTS3）比，VoxCPM 的优势在于完全免费可商用 + 开源透明；和同类开源方案（CosyVoice3、F5-TTS）比，VoxCPM 在中文 CER 指标和情感表达上更有优势，VoxCPM2 的 Voice Design 更是独一份的功能。

要说缺点的话，8GB 显存的门槛对部分用户还是有点高，另外 VoxCPM2 目前还没有 Technical Report，算法细节透明度不如 0.5B 版本。但这些都不影响它成为目前最值得推荐的开源语音克隆方案。

版本	参数	音质	语言数	特色
VoxCPM2	2B	48kHz	30	Voice Design + 可控克隆
VoxCPM1.5	0.6B	44.1kHz	2 (zh,en)	LoRA 微调
VoxCPM-0.5B	0.5B	16kHz	2 (zh,en)	轻量入门

推荐指数：⭐⭐⭐⭐⭐

如果你对 AI 语音克隆感兴趣，VoxCPM 绝对值得一试。开源地址：https://github.com/OpenBMB/VoxCPM，在线 Demo：https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo。