🎙️ Supertonic：66M参数的极速本地TTS 31语言支持超越云端方案

Supertonic 是一款基于 ONNX 的极速本地多语言 TTS 系统。仅 66M 参数却比云端方案快 167 倍，31 种语言全覆盖，Windows/Linux/macOS 多平台支持。完全离线运行，数据永不离开设备。适合嵌入式、浏览器、边缘部署等多种场景。

🎤 引言

你有没有遇到过这种情况：想在树莓派上跑个语音合成，结果模型太大跑不动；或者想让浏览器读网页，但不想把文本传到云端处理。

Supertonic 就是来解决这个问题的。这是一个只有 66M 参数的本地 TTS 模型，跑在 ONNX Runtime 上，实测比 ElevenLabs、OpenAI 这些云端方案快 167 倍。更离谱的是，它支持 31 种语言，而且完全离线运行——数据永远不会离开你的设备。

⭐ 核心功能

超快推理速度

Supertonic 3 在 CPU 上就能跑出惊人的速度。对比那些需要在 A100 GPU 上运行的云端方案，它的平均 RTF（实时率）只有 0.3×，意味着生成 1 秒音频只需要 0.3 秒。在树莓派上都能实时运行。

超小模型体积

整个模型只有 99M 参数，ONNX 格式下载体积很小。相比之下，那些 0.7B 到 2B 参数的大模型，光是下载就要好久。模型启动时间也短很多。

31 种语言覆盖

Supertonic 3 支持的语言包括：英语、日语、韩语、中文（中文可能需要额外配置）、法语、德语、西班牙语、阿拉伯语、俄语、韩语、印地语、越南语等共 31 种语言。

复杂的数字和缩写处理

这是 Supertonic 的核心亮点。它能正确读出：

金融表达式：$5.2M 读成 "five point two million dollars"，$450K 读成 "four hundred fifty thousand dollars"
电话号码：(212) 555-0142 ext. 402
技术单位：2.3h（two point three hours）、30kph（thirty kilometers per hour）

对比测试中，ElevenLabs、OpenAI TTS、 Gemini 2.5 Flash TTS 全部翻车，只有 Supertonic 完全正确。

表达标签支持

支持简单的表达标签，比如 [laugh]、[ sigh ]、[ clapping ] 等，可以增加语音的趣味性。

隐私完全保障

所有处理都在本地完成，没有任何数据上传到云端。适合对隐私要求严格的场景。

📥 安装与使用

Python（最简单）

pip install supertonic

from supertonic import TTS

# 首次运行自动下载模型
tts = TTS(auto_download=True)

style = tts.get_voice_style(voice_name="M1")
text = "A gentle breeze moved through the open window."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")

tts.save_audio(wav, "output.wav")
print(f"生成了 {duration:.2f} 秒音频")

Node.js（服务器端）

cd nodejs
npm install
npm start

浏览器（WebGPU/WASM）

cd web
npm install
npm run dev

浏览器示例使用 onnxruntime-web，可以直接在网页里跑 TTS，无需服务器。

其他语言

项目还提供了 Java、C++、C#、Go、Rust、Swift、iOS、Flutter 等多种语言的示例代码。

克隆完整仓库（含模型）

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic
git lfs install
git clone https://huggingface.co/Supertone/supertonic-3 assets

cd py
uv sync
uv run example_onnx.py

在线体验

直接访问 Supertonic 3 交互式演示，在浏览器里试试效果。

🎯 适用场景

嵌入式/边缘设备

树莓派、电子书阅读器（Onyx Boox Go 6 实测平均 RTF 0.3×，飞行模式下完全正常运行）等设备上运行。

浏览器扩展

TLDRL 是一个基于 Supertonic 的 Chrome 扩展，可以在任意网页上一键生成 TTS 音频，平均生成时间低于 1 秒，完全免费、隐私保护。

需要隐私保护的场景

医疗、金融、法律等领域的语音合成需求，不希望数据传到第三方。

多语言应用

需要同时支持多种语言的 TTS 服务，Supertonic 3 内置 31 种语言，无需额外配置。

🔍 对比/替代方案

方案	体积	速度	离线	语言数	价格
Supertonic 3	99M	0.3× RTF	✅	31	免费
ElevenLabs	云端	依赖网络	❌	30+	付费
OpenAI TTS	云端	依赖网络	❌	23	付费
Microsoft TTS	云端	依赖网络	❌	多	付费

核心优势在于完全本地运行、极低延迟、免费开源。

✅ 总结

优点：

🚀 极致的推理速度，CPU 即可流畅运行
📦 超小的模型体积（99M），适合边缘部署
🔒 完全离线运行，隐私有保障
🌍 31 种语言内置支持
💯 复杂的数字、缩写、单位处理能力远超云端竞品
🆓 完全免费开源

缺点：

⚠️ 中文支持可能需要额外配置（中文未在 31 种语言列表中明确列出）
⚠️ 语音风格相对有限，不如 ElevenLabs 丰富
⚠️ 部分语言使用 CER 而非 WER 评估，准确性可能略低

推荐指数：⭐⭐⭐⭐

适合需要在本地/边缘设备部署 TTS、对延迟敏感、有隐私要求的用户。官方提供 GitHub 仓库和 Hugging Face 模型，可以免费使用。