oMLX 是一款专为 Apple Silicon Mac 打造的本地大模型推理引擎,支持连续批处理与冷热分层 KV 缓存技术。菜单栏一键启动,支持 Qwen、DeepSeek 等主流模型,内置 Admin Dashboard 可视化监控,原生支持视觉语言模型,开箱即用的 macOS 原生体验。
🎤 引言
在 Mac 上跑大模型,之前大家的思路都是 Ollama、LM Studio 这些。但说实话,要么功能单一,要么占内存严重,要么对 Apple Silicon 的优化根本不到位。
直到我发现了 oMLX——这玩意儿把连续批处理(Continuous Batching)和冷热分层 KV 缓存直接做进了菜单栏应用里,用起来就一个字:丝滑。
⭐ 核心功能
1. 连续批处理(Continuous Batching)
传统的推理方式是串行的——一个请求处理完才处理下一个。oMLX 借鉴了 vLLM 的实现,把多个请求打包成批次动态调度。这对 MoE(混合专家)模型特别有效,一台 Mac 也能榨干全部性能。
实测:M4 Pro 跑 Qwen 3.5(9B 参数)能到 60 token/s,这个数字在 Apple Silicon 上相当能打。
2. 冷热分层 KV 缓存
oMLX 的杀手锏功能。KV 缓存分成两层:
- 热层(Hot):常驻内存,频繁访问的上下文直接命中
- 冷层(Cold):SSD 存储,大上下文或低频内容自动换入换出
关键是它支持前缀共享(Prefix Sharing)和 Copy-on-Write,同一个模型多人用或者同一个对话多轮重载,缓存复用率极高。官方说用它配合 Claude Code 写代码,体验接近联网版本——本地跑,省token,还不用担心数据泄露。
3. 菜单栏即开即用
安装完 App 之后,菜单栏就多了一个小图标。点开就能:
- 切换模型
- 设置上下文长度
- 监控 GPU/CPU 内存占用
- 开启/关闭 Admin Dashboard
不需要折腾命令行,不需要 Docker,开箱即用。
4. Admin Dashboard
在浏览器打开 http://localhost:3000/admin,能看到:
- 实时模型状态
- 对话聊天界面
- Benchmark 跑分工具
- 每个模型的独立参数配置
支持简体中文、英文、日语、韩语、俄语五种语言,而且所有 CDN 依赖都打包进了 App,离线也能用。
5. 视觉语言模型(VLM)支持
oMLX 不只是文本模型跑得好,视觉模型也能搞定。支持多图对话、base64/URL/文件输入图片、工具调用(Tool Calling)带视觉上下文。OCR 模型(DeepSeek-OCR、GLM-OCR)会自动检测并优化提示词。
6. 多模型管理
内置模型市场,主流开源模型都能直接下载:Qwen 系列、DeepSeek 系列、Gemma、LLaMA……下载、切换、一键启动,不需要手动配置。
📥 安装使用
方式一:macOS App(推荐小白)
直接去 GitHub Releases 下载 .dmg 文件,拖到 Applications 文件夹就行。App 内置自动更新,以后点一下就升级。
⚠️ 注意:macOS App 不会装 CLI 命令行工具,如果需要终端使用,看方式二。
方式二:Homebrew(适合开发者)
brew tap jundot/omlx
brew install omlx方式三:源码安装(需要折腾)
要求:macOS 15.0+ (Sequoia)、Python 3.10+、Apple Silicon(M1/M2/M3/M4)
git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e .快速上手
安装完成后,菜单栏点击图标 → 选择模型 → 开始对话。或者直接浏览器访问 http://localhost:3000/admin 打开管理界面。
模型下载命令(CLI):
omlx pull qwen3.5
omlx list🎯 适用场景
强烈推荐用 oMLX 的场景:
- 本地开发辅助 —— 配合 Claude Code 等工具,缓存复用让代码补全响应更快,节省 API 调用
- 隐私敏感业务 —— 完全本地运行,数据不外传,适合处理内部文档、代码审计
- 多模型对比测试 —— 一个界面切换不同模型,Admin Dashboard 直接看 benchmark 结果
- 视觉任务处理 —— 多图输入、OCR 任务本地搞定,不需要云端
- Mac 办公党 —— 不想开 Docker,不想配环境,菜单栏点一下就跑起来
⚠️ 注意事项
- 必须 Apple Silicon —— 仅支持 M1/M2/M3/M4,Intel Mac 用户可以移步了
- 内存占用不低 —— 跑 7B 模型建议 16GB+ 内存,14B 以上的模型建议 32GB
- 模型需要手动下载 —— 首次使用要下载模型文件,网络不好的话可能比较慢
- SSD 空间要够 —— 冷层 KV 缓存会写 SSD,大上下文场景预留足够空间
- CLI 和 App 分开装 —— 如果你既要用 GUI 又要用 CLI,需要分别安装
✅ 总结
| 维度 | 评分 | 说明 |
|---|---|---|
| 性能优化 | ⭐⭐⭐⭐⭐ | 连续批处理 + 分层 KV 缓存,Apple Silicon 优化到位 |
| 易用性 | ⭐⭐⭐⭐⭐ | 菜单栏应用,零配置即开即用 |
| 功能完整度 | ⭐⭐⭐⭐ | 模型管理、Admin Dashboard、VLM 支持,该有的都有 |
| 跨模型兼容性 | ⭐⭐⭐⭐ | 支持 Qwen、DeepSeek、Gemma 等主流开源模型 |
| 资源占用 | ⭐⭐⭐⭐ | 比 Docker 方案轻量,但大模型本身内存需求摆在那 |
oMLX 解决的核心痛点很明确:在 Mac 上高效、便捷、省内存地跑本地大模型。如果你受够了 Ollama 的简陋界面,又不想为了 LM Studio 付费,这款完全免费开源的工具值得一试。
GitHub Stars 13k+(还在涨),说明确实有不少人在用。考虑到它对 Apple Silicon 的深度优化和独创的冷热分层 KV 缓存,在 Mac 本地推理这个细分领域,oMLX 算是目前最值得关注的选手之一。