oMLX 是一款专为 Apple Silicon Mac 打造的本地大模型推理引擎,支持连续批处理与冷热分层 KV 缓存技术。菜单栏一键启动,支持 Qwen、DeepSeek 等主流模型,内置 Admin Dashboard 可视化监控,原生支持视觉语言模型,开箱即用的 macOS 原生体验。

🎤 引言

在 Mac 上跑大模型,之前大家的思路都是 Ollama、LM Studio 这些。但说实话,要么功能单一,要么占内存严重,要么对 Apple Silicon 的优化根本不到位。

直到我发现了 oMLX——这玩意儿把连续批处理(Continuous Batching)和冷热分层 KV 缓存直接做进了菜单栏应用里,用起来就一个字:丝滑。


⭐ 核心功能

1. 连续批处理(Continuous Batching)

传统的推理方式是串行的——一个请求处理完才处理下一个。oMLX 借鉴了 vLLM 的实现,把多个请求打包成批次动态调度。这对 MoE(混合专家)模型特别有效,一台 Mac 也能榨干全部性能。

实测:M4 Pro 跑 Qwen 3.5(9B 参数)能到 60 token/s,这个数字在 Apple Silicon 上相当能打。

2. 冷热分层 KV 缓存

oMLX 的杀手锏功能。KV 缓存分成两层:

  • 热层(Hot):常驻内存,频繁访问的上下文直接命中
  • 冷层(Cold):SSD 存储,大上下文或低频内容自动换入换出

关键是它支持前缀共享(Prefix Sharing)和 Copy-on-Write,同一个模型多人用或者同一个对话多轮重载,缓存复用率极高。官方说用它配合 Claude Code 写代码,体验接近联网版本——本地跑,省token,还不用担心数据泄露。

3. 菜单栏即开即用

安装完 App 之后,菜单栏就多了一个小图标。点开就能:

  • 切换模型
  • 设置上下文长度
  • 监控 GPU/CPU 内存占用
  • 开启/关闭 Admin Dashboard

不需要折腾命令行,不需要 Docker,开箱即用。

4. Admin Dashboard

在浏览器打开 http://localhost:3000/admin,能看到:

  • 实时模型状态
  • 对话聊天界面
  • Benchmark 跑分工具
  • 每个模型的独立参数配置

支持简体中文、英文、日语、韩语、俄语五种语言,而且所有 CDN 依赖都打包进了 App,离线也能用。

5. 视觉语言模型(VLM)支持

oMLX 不只是文本模型跑得好,视觉模型也能搞定。支持多图对话、base64/URL/文件输入图片、工具调用(Tool Calling)带视觉上下文。OCR 模型(DeepSeek-OCR、GLM-OCR)会自动检测并优化提示词。

6. 多模型管理

内置模型市场,主流开源模型都能直接下载:Qwen 系列、DeepSeek 系列、Gemma、LLaMA……下载、切换、一键启动,不需要手动配置。


📥 安装使用

方式一:macOS App(推荐小白)

直接去 GitHub Releases 下载 .dmg 文件,拖到 Applications 文件夹就行。App 内置自动更新,以后点一下就升级。

⚠️ 注意:macOS App 不会装 CLI 命令行工具,如果需要终端使用,看方式二。

方式二:Homebrew(适合开发者)

brew tap jundot/omlx
brew install omlx

方式三:源码安装(需要折腾)

要求:macOS 15.0+ (Sequoia)、Python 3.10+、Apple Silicon(M1/M2/M3/M4)

git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e .

快速上手

安装完成后,菜单栏点击图标 → 选择模型 → 开始对话。或者直接浏览器访问 http://localhost:3000/admin 打开管理界面。

模型下载命令(CLI):

omlx pull qwen3.5
omlx list

🎯 适用场景

强烈推荐用 oMLX 的场景:

  1. 本地开发辅助 —— 配合 Claude Code 等工具,缓存复用让代码补全响应更快,节省 API 调用
  2. 隐私敏感业务 —— 完全本地运行,数据不外传,适合处理内部文档、代码审计
  3. 多模型对比测试 —— 一个界面切换不同模型,Admin Dashboard 直接看 benchmark 结果
  4. 视觉任务处理 —— 多图输入、OCR 任务本地搞定,不需要云端
  5. Mac 办公党 —— 不想开 Docker,不想配环境,菜单栏点一下就跑起来

⚠️ 注意事项

  1. 必须 Apple Silicon —— 仅支持 M1/M2/M3/M4,Intel Mac 用户可以移步了
  2. 内存占用不低 —— 跑 7B 模型建议 16GB+ 内存,14B 以上的模型建议 32GB
  3. 模型需要手动下载 —— 首次使用要下载模型文件,网络不好的话可能比较慢
  4. SSD 空间要够 —— 冷层 KV 缓存会写 SSD,大上下文场景预留足够空间
  5. CLI 和 App 分开装 —— 如果你既要用 GUI 又要用 CLI,需要分别安装

✅ 总结

维度评分说明
性能优化⭐⭐⭐⭐⭐连续批处理 + 分层 KV 缓存,Apple Silicon 优化到位
易用性⭐⭐⭐⭐⭐菜单栏应用,零配置即开即用
功能完整度⭐⭐⭐⭐模型管理、Admin Dashboard、VLM 支持,该有的都有
跨模型兼容性⭐⭐⭐⭐支持 Qwen、DeepSeek、Gemma 等主流开源模型
资源占用⭐⭐⭐⭐比 Docker 方案轻量,但大模型本身内存需求摆在那

oMLX 解决的核心痛点很明确:在 Mac 上高效、便捷、省内存地跑本地大模型。如果你受够了 Ollama 的简陋界面,又不想为了 LM Studio 付费,这款完全免费开源的工具值得一试。

GitHub Stars 13k+(还在涨),说明确实有不少人在用。考虑到它对 Apple Silicon 的深度优化和独创的冷热分层 KV 缓存,在 Mac 本地推理这个细分领域,oMLX 算是目前最值得关注的选手之一。

项目地址:https://github.com/jundot/omlx