Supertonic 是一款基于 ONNX 的极速本地多语言 TTS 系统。仅 66M 参数却比云端方案快 167 倍,31 种语言全覆盖,Windows/Linux/macOS 多平台支持。完全离线运行,数据永不离开设备。适合嵌入式、浏览器、边缘部署等多种场景。

🎤 引言

你有没有遇到过这种情况:想在树莓派上跑个语音合成,结果模型太大跑不动;或者想让浏览器读网页,但不想把文本传到云端处理。

Supertonic 就是来解决这个问题的。这是一个只有 66M 参数的本地 TTS 模型,跑在 ONNX Runtime 上,实测比 ElevenLabs、OpenAI 这些云端方案快 167 倍。更离谱的是,它支持 31 种语言,而且完全离线运行——数据永远不会离开你的设备。


⭐ 核心功能

超快推理速度

Supertonic 3 在 CPU 上就能跑出惊人的速度。对比那些需要在 A100 GPU 上运行的云端方案,它的平均 RTF(实时率)只有 0.3×,意味着生成 1 秒音频只需要 0.3 秒。在树莓派上都能实时运行。

超小模型体积

整个模型只有 99M 参数,ONNX 格式下载体积很小。相比之下,那些 0.7B 到 2B 参数的大模型,光是下载就要好久。模型启动时间也短很多。

31 种语言覆盖

Supertonic 3 支持的语言包括:英语、日语、韩语、中文(中文可能需要额外配置)、法语、德语、西班牙语、阿拉伯语、俄语、韩语、印地语、越南语等共 31 种语言。

复杂的数字和缩写处理

这是 Supertonic 的核心亮点。它能正确读出:

  • 金融表达式:$5.2M 读成 "five point two million dollars",$450K 读成 "four hundred fifty thousand dollars"
  • 电话号码:(212) 555-0142 ext. 402
  • 技术单位:2.3h(two point three hours)、30kph(thirty kilometers per hour)

对比测试中,ElevenLabs、OpenAI TTS、 Gemini 2.5 Flash TTS 全部翻车,只有 Supertonic 完全正确。

表达标签支持

支持简单的表达标签,比如 [laugh][ sigh ][ clapping ] 等,可以增加语音的趣味性。

隐私完全保障

所有处理都在本地完成,没有任何数据上传到云端。适合对隐私要求严格的场景。


📥 安装与使用

Python(最简单)

pip install supertonic
from supertonic import TTS

# 首次运行自动下载模型
tts = TTS(auto_download=True)

style = tts.get_voice_style(voice_name="M1")
text = "A gentle breeze moved through the open window."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")

tts.save_audio(wav, "output.wav")
print(f"生成了 {duration:.2f} 秒音频")

Node.js(服务器端)

cd nodejs
npm install
npm start

浏览器(WebGPU/WASM)

cd web
npm install
npm run dev

浏览器示例使用 onnxruntime-web,可以直接在网页里跑 TTS,无需服务器。

其他语言

项目还提供了 Java、C++、C#、Go、Rust、Swift、iOS、Flutter 等多种语言的示例代码。

克隆完整仓库(含模型)

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic
git lfs install
git clone https://huggingface.co/Supertone/supertonic-3 assets

cd py
uv sync
uv run example_onnx.py

在线体验

直接访问 Supertonic 3 交互式演示,在浏览器里试试效果。


🎯 适用场景

嵌入式/边缘设备

树莓派、电子书阅读器(Onyx Boox Go 6 实测平均 RTF 0.3×,飞行模式下完全正常运行)等设备上运行。

浏览器扩展

TLDRL 是一个基于 Supertonic 的 Chrome 扩展,可以在任意网页上一键生成 TTS 音频,平均生成时间低于 1 秒,完全免费、隐私保护。

需要隐私保护的场景

医疗、金融、法律等领域的语音合成需求,不希望数据传到第三方。

多语言应用

需要同时支持多种语言的 TTS 服务,Supertonic 3 内置 31 种语言,无需额外配置。


🔍 对比/替代方案

方案体积速度离线语言数价格
Supertonic 399M0.3× RTF31免费
ElevenLabs云端依赖网络30+付费
OpenAI TTS云端依赖网络23付费
Microsoft TTS云端依赖网络付费

核心优势在于完全本地运行、极低延迟、免费开源。


✅ 总结

优点

  • 🚀 极致的推理速度,CPU 即可流畅运行
  • 📦 超小的模型体积(99M),适合边缘部署
  • 🔒 完全离线运行,隐私有保障
  • 🌍 31 种语言内置支持
  • 💯 复杂的数字、缩写、单位处理能力远超云端竞品
  • 🆓 完全免费开源

缺点

  • ⚠️ 中文支持可能需要额外配置(中文未在 31 种语言列表中明确列出)
  • ⚠️ 语音风格相对有限,不如 ElevenLabs 丰富
  • ⚠️ 部分语言使用 CER 而非 WER 评估,准确性可能略低

推荐指数:⭐⭐⭐⭐

适合需要在本地/边缘设备部署 TTS、对延迟敏感、有隐私要求的用户。官方提供 GitHub 仓库Hugging Face 模型,可以免费使用。