Supertonic 是一款基于 ONNX 的极速本地多语言 TTS 系统。仅 66M 参数却比云端方案快 167 倍,31 种语言全覆盖,Windows/Linux/macOS 多平台支持。完全离线运行,数据永不离开设备。适合嵌入式、浏览器、边缘部署等多种场景。
🎤 引言
你有没有遇到过这种情况:想在树莓派上跑个语音合成,结果模型太大跑不动;或者想让浏览器读网页,但不想把文本传到云端处理。
Supertonic 就是来解决这个问题的。这是一个只有 66M 参数的本地 TTS 模型,跑在 ONNX Runtime 上,实测比 ElevenLabs、OpenAI 这些云端方案快 167 倍。更离谱的是,它支持 31 种语言,而且完全离线运行——数据永远不会离开你的设备。
⭐ 核心功能
超快推理速度
Supertonic 3 在 CPU 上就能跑出惊人的速度。对比那些需要在 A100 GPU 上运行的云端方案,它的平均 RTF(实时率)只有 0.3×,意味着生成 1 秒音频只需要 0.3 秒。在树莓派上都能实时运行。
超小模型体积
整个模型只有 99M 参数,ONNX 格式下载体积很小。相比之下,那些 0.7B 到 2B 参数的大模型,光是下载就要好久。模型启动时间也短很多。
31 种语言覆盖
Supertonic 3 支持的语言包括:英语、日语、韩语、中文(中文可能需要额外配置)、法语、德语、西班牙语、阿拉伯语、俄语、韩语、印地语、越南语等共 31 种语言。
复杂的数字和缩写处理
这是 Supertonic 的核心亮点。它能正确读出:
- 金融表达式:
$5.2M读成 "five point two million dollars",$450K读成 "four hundred fifty thousand dollars" - 电话号码:
(212) 555-0142 ext. 402 - 技术单位:
2.3h(two point three hours)、30kph(thirty kilometers per hour)
对比测试中,ElevenLabs、OpenAI TTS、 Gemini 2.5 Flash TTS 全部翻车,只有 Supertonic 完全正确。
表达标签支持
支持简单的表达标签,比如 [laugh]、[ sigh ]、[ clapping ] 等,可以增加语音的趣味性。
隐私完全保障
所有处理都在本地完成,没有任何数据上传到云端。适合对隐私要求严格的场景。
📥 安装与使用
Python(最简单)
pip install supertonicfrom supertonic import TTS
# 首次运行自动下载模型
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
text = "A gentle breeze moved through the open window."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")
tts.save_audio(wav, "output.wav")
print(f"生成了 {duration:.2f} 秒音频")Node.js(服务器端)
cd nodejs
npm install
npm start浏览器(WebGPU/WASM)
cd web
npm install
npm run dev浏览器示例使用 onnxruntime-web,可以直接在网页里跑 TTS,无需服务器。
其他语言
项目还提供了 Java、C++、C#、Go、Rust、Swift、iOS、Flutter 等多种语言的示例代码。
克隆完整仓库(含模型)
git clone https://github.com/supertone-inc/supertonic.git
cd supertonic
git lfs install
git clone https://huggingface.co/Supertone/supertonic-3 assets
cd py
uv sync
uv run example_onnx.py在线体验
直接访问 Supertonic 3 交互式演示,在浏览器里试试效果。
🎯 适用场景
嵌入式/边缘设备
树莓派、电子书阅读器(Onyx Boox Go 6 实测平均 RTF 0.3×,飞行模式下完全正常运行)等设备上运行。
浏览器扩展
TLDRL 是一个基于 Supertonic 的 Chrome 扩展,可以在任意网页上一键生成 TTS 音频,平均生成时间低于 1 秒,完全免费、隐私保护。
需要隐私保护的场景
医疗、金融、法律等领域的语音合成需求,不希望数据传到第三方。
多语言应用
需要同时支持多种语言的 TTS 服务,Supertonic 3 内置 31 种语言,无需额外配置。
🔍 对比/替代方案
| 方案 | 体积 | 速度 | 离线 | 语言数 | 价格 |
|---|---|---|---|---|---|
| Supertonic 3 | 99M | 0.3× RTF | ✅ | 31 | 免费 |
| ElevenLabs | 云端 | 依赖网络 | ❌ | 30+ | 付费 |
| OpenAI TTS | 云端 | 依赖网络 | ❌ | 23 | 付费 |
| Microsoft TTS | 云端 | 依赖网络 | ❌ | 多 | 付费 |
核心优势在于完全本地运行、极低延迟、免费开源。
✅ 总结
优点:
- 🚀 极致的推理速度,CPU 即可流畅运行
- 📦 超小的模型体积(99M),适合边缘部署
- 🔒 完全离线运行,隐私有保障
- 🌍 31 种语言内置支持
- 💯 复杂的数字、缩写、单位处理能力远超云端竞品
- 🆓 完全免费开源
缺点:
- ⚠️ 中文支持可能需要额外配置(中文未在 31 种语言列表中明确列出)
- ⚠️ 语音风格相对有限,不如 ElevenLabs 丰富
- ⚠️ 部分语言使用 CER 而非 WER 评估,准确性可能略低
推荐指数:⭐⭐⭐⭐
适合需要在本地/边缘设备部署 TTS、对延迟敏感、有隐私要求的用户。官方提供 GitHub 仓库 和 Hugging Face 模型,可以免费使用。