🖥️ oMLX：Mac 本地大模型推理神器冷热分层 KV 缓存菜单栏即开即用

oMLX 是一款专为 Apple Silicon Mac 打造的本地大模型推理引擎，支持连续批处理与冷热分层 KV 缓存技术。菜单栏一键启动，支持 Qwen、DeepSeek 等主流模型，内置 Admin Dashboard 可视化监控，原生支持视觉语言模型，开箱即用的 macOS 原生体验。

在 Mac 上跑大模型，之前大家的思路都是 Ollama、LM Studio 这些。但说实话，要么功能单一，要么占内存严重，要么对 Apple Silicon 的优化根本不到位。

直到我发现了 oMLX——这玩意儿把连续批处理（Continuous Batching）和冷热分层 KV 缓存直接做进了菜单栏应用里，用起来就一个字：丝滑。

传统的推理方式是串行的——一个请求处理完才处理下一个。oMLX 借鉴了 vLLM 的实现，把多个请求打包成批次动态调度。这对 MoE（混合专家）模型特别有效，一台 Mac 也能榨干全部性能。

实测：M4 Pro 跑 Qwen 3.5（9B 参数）能到 60 token/s，这个数字在 Apple Silicon 上相当能打。

oMLX 的杀手锏功能。KV 缓存分成两层：

关键是它支持前缀共享（Prefix Sharing）和 Copy-on-Write，同一个模型多人用或者同一个对话多轮重载，缓存复用率极高。官方说用它配合 Claude Code 写代码，体验接近联网版本——本地跑，省token，还不用担心数据泄露。

安装完 App 之后，菜单栏就多了一个小图标。点开就能：

不需要折腾命令行，不需要 Docker，开箱即用。

在浏览器打开 http://localhost:3000/admin，能看到：

支持简体中文、英文、日语、韩语、俄语五种语言，而且所有 CDN 依赖都打包进了 App，离线也能用。

oMLX 不只是文本模型跑得好，视觉模型也能搞定。支持多图对话、base64/URL/文件输入图片、工具调用（Tool Calling）带视觉上下文。OCR 模型（DeepSeek-OCR、GLM-OCR）会自动检测并优化提示词。

内置模型市场，主流开源模型都能直接下载：Qwen 系列、DeepSeek 系列、Gemma、LLaMA……下载、切换、一键启动，不需要手动配置。

直接去 GitHub Releases 下载 .dmg 文件，拖到 Applications 文件夹就行。App 内置自动更新，以后点一下就升级。

⚠️ 注意：macOS App 不会装 CLI 命令行工具，如果需要终端使用，看方式二。

brew tap jundot/omlx
brew install omlx

要求：macOS 15.0+ (Sequoia)、Python 3.10+、Apple Silicon（M1/M2/M3/M4）

git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e .

安装完成后，菜单栏点击图标 → 选择模型 → 开始对话。或者直接浏览器访问 http://localhost:3000/admin 打开管理界面。

模型下载命令（CLI）：

omlx pull qwen3.5
omlx list

强烈推荐用 oMLX 的场景：

维度	评分	说明
性能优化	⭐⭐⭐⭐⭐	连续批处理 + 分层 KV 缓存，Apple Silicon 优化到位
易用性	⭐⭐⭐⭐⭐	菜单栏应用，零配置即开即用
功能完整度	⭐⭐⭐⭐	模型管理、Admin Dashboard、VLM 支持，该有的都有
跨模型兼容性	⭐⭐⭐⭐	支持 Qwen、DeepSeek、Gemma 等主流开源模型
资源占用	⭐⭐⭐⭐	比 Docker 方案轻量，但大模型本身内存需求摆在那

oMLX 解决的核心痛点很明确：在 Mac 上高效、便捷、省内存地跑本地大模型。如果你受够了 Ollama 的简陋界面，又不想为了 LM Studio 付费，这款完全免费开源的工具值得一试。

GitHub Stars 13k+（还在涨），说明确实有不少人在用。考虑到它对 Apple Silicon 的深度优化和独创的冷热分层 KV 缓存，在 Mac 本地推理这个细分领域，oMLX 算是目前最值得关注的选手之一。