🚀 DwarfStar：DeepSeek V4 本地推理引擎分布式推理 96GB即可运行

DwarfStar 是一款专为 DeepSeek V4 Flash 优化的本地推理引擎，支持 Metal/CUDA 加速，96GB 内存即可运行 2-bit 量化模型。内置分布式推理、HTTP API、工具调用和集成编码代理，让本地大模型运行变得简单高效，文末附详细使用教程

🎤 引言

做本地大模型推理最怕什么？内存不够、速度太慢、配置复杂。 antirez（Redis 作者）最新开源的 DwarfStar 项目，直接把这些痛点全解决了——96GB 内存就能跑 DeepSeek V4 Flash，分布式推理还能跨机器联合运行。

这个项目很有意思：不是通用的 GGUF 加载器，而是专门为 DeepSeek V4 量身定制的推理引擎。目标很明确：让本地大模型用起来"有完整体验"，而不只是"能跑"。

⭐ 核心功能

专注 DeepSeek V4 的推理引擎

DwarfStar 不是什么都能跑的万能选手，它只针对 DeepSeek V4 Flash 和 PRO 两个模型优化。这意味着所有工程资源都集中在一个点上，做深做透。

支持的两个模型：

DeepSeek V4 Flash：主打型号，96-128GB 机器就能跑
DeepSeek V4 PRO：实验性支持，需要 512GB Mac Studio 级别硬件

为什么选 DeepSeek V4？ 根据官方测试：

思考模式下的思考量比其他模型短很多，甚至只有 1/5
100 万 token 的上下文窗口
KV cache 压缩率极高，支持磁盘 KV 缓存持久化
2-bit 量化后依然保持良好质量，支持 IQ2_XXS + Q2_K 非对称量化
英意大利语写作能力接近前沿模型水平

多后端加速支持

make          # macOS Metal（主要目标）
make cuda-spark    # Linux CUDA, DGX Spark / GB10
make cuda-generic  # Linux CUDA, 其他显卡
make cpu       # CPU 调试构建（仅用于正确性检查）

Metal：macOS 主推，从 96GB RAM 的 MacBook 开始支持
NVIDIA CUDA：特别优化了 DGX Spark
AMD ROCm：在 rocm 分支，社区维护

分布式推理

这是 DwarfStar 最骚的功能——跨多台机器联合运行模型。比如用两台 128GB MacBook 通过 Thunderbolt 5 直连，跑 91GB 的 Q4 量化模型：

# 机器 A：协调者，拥有 tokenization + 前 20 层
./ds4 \
  -m gguf/DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf \
  --role coordinator \
  --layers 0:19 \
  --listen 169.254.43.68 1234

# 机器 B：工作者，拥有后 20 层到输出
./ds4 \
  -m gguf/DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf \
  --role worker \
  --layers 20:output \
  --coordinator 169.254.43.68 1234

两台 M5 Max MacBook 分布式加速效果：

提示长度	单机	分布式	加速比
9421 tokens	421.70 t/s	582.22 t/s	1.38x
28684 tokens	405.30 t/s	674.16 t/s	1.66x
63819 tokens	353.62 t/s	654.79 t/s	1.85x

内置 HTTP API 和 CLI

提供 ds4 和 ds4-server 两个二进制：

交互式命令行聊天
HTTP API 服务（方便集成到其他应用）
内置 ds4-agent 编码代理（alpha 质量）
完整的工具调用支持

KV 缓存磁盘持久化

DwarfStar 的核心设计理念：KV cache 不只属于 RAM，更是磁盘的一等公民。现代 MacBook 的高速 SSD 加上压缩后的 KV cache，让本地长上下文推理成为可能。

📥 安装使用

模型下载

# 96/128 GB 机器，推荐 imatrix 调优版
./download_model.sh q2-imatrix

# >= 256 GB 机器
./download_model.sh q4-imatrix

# 512 GB 机器，PRO 版本
./download_model.sh pro-imatrix

# legacy 版本（非 imatrix）
./download_model.sh q2
./download_model.sh q4
./download_model.sh pro

模型从 Hugging Face 下载（https://huggingface.co/antirez/deepseek-v4-gguf），下载脚本支持断点续传（curl -C -）。

编译

git clone https://github.com/antirez/ds4
cd ds4
make

运行

# 交互式聊天
./ds4

# 或者带服务器模式
./ds4-server --port 8080

# 查看帮助
./ds4 --help
./ds4-server --help

性能基准参考

MacBook Pro M5 Max（128GB）实测：

量化	任务	Prefill	生成
q2	短提示	87.25 t/s	34.27 t/s
q2	11k tokens 长提示	463.44 t/s	25.90 t/s

🎯 适用场景

DwarfStar 特别适合这些人：

有高内存 Mac 的开发者：M3 Max/M5 Max MacBook Pro 或者 Mac Studio 用户，想要本地跑大模型做开发辅助
分布式计算玩家：有多台高内存机器，想要联合跑更大的模型
对模型质量有要求的用户：需要本地跑 DeepSeek 而不是依赖 API，对数据隐私有要求
AI 极客玩家：喜欢折腾新开源项目，尤其是有分布式和工具调用需求的场景

不太适合：

内存低于 96GB 的机器（跑 q2 量化都吃力）
需要跑其他模型（非 DeepSeek V4 系列）
想要开箱即用完全零配置的普通用户

⚠️ 注意事项

Beta 质量代码：官方明确说了"beta quality code"，还在快速迭代中，不要用在生产环境
macOS 虚拟内存 Bug：当前 macOS 版本有虚拟内存实现的 Bug，运行 CPU 代码会内核崩溃。所以 macOS 用户必须用 Metal 后端，别碰 CPU 路径
只认官方 GGUF：DwarfStar 不是通用 GGUF 加载器，只能用项目提供的 DeepSeek V4 专用 GGUF 文件，其他来源的 GGUF 文件不兼容
工具调用还在完善：ds4-agent 是 alpha 质量，可以玩但别指望完全可靠
分布式生成更慢：分布式推理对 Prefill 加速效果明显，但生成（Decode）阶段会因为跨机器延迟变慢
GitHub Stars 较低：目前只有 12 Stars，项目还非常早期，社区还在形成中

✅ 总结

优点：

96GB 内存就能跑 DeepSeek V4 Flash，门槛相对较低
Metal/CUDA 优化到位，macOS 用户有福了
分布式推理创意十足，跨机器联合跑模型有新意
KV cache 磁盘持久化 + 百万 token 上下文，本地长文本处理能力Max
思考模式效率高，思考量只有其他模型的 1/5

缺点：

Beta 质量，生产环境不建议使用
只支持 DeepSeek V4 系列，通用性为零
ds4-agent 还比较早期，工具调用体验有限
文档还不够完善，新手入门有门槛

推荐指数：⭐⭐⭐⭐（扣一星是因为 Beta + 小众）

追求本地大模型体验、有高内存 Mac 或者多卡 Linux 机器、喜欢尝鲜的开发者值得关注。GitHub 传送门：https://github.com/antirez/ds4