DwarfStar 是一款专为 DeepSeek V4 Flash 优化的本地推理引擎,支持 Metal/CUDA 加速,96GB 内存即可运行 2-bit 量化模型。内置分布式推理、HTTP API、工具调用和集成编码代理,让本地大模型运行变得简单高效,文末附详细使用教程

🎤 引言

做本地大模型推理最怕什么?内存不够、速度太慢、配置复杂。 antirez(Redis 作者)最新开源的 DwarfStar 项目,直接把这些痛点全解决了——96GB 内存就能跑 DeepSeek V4 Flash,分布式推理还能跨机器联合运行。

这个项目很有意思:不是通用的 GGUF 加载器,而是专门为 DeepSeek V4 量身定制的推理引擎。目标很明确:让本地大模型用起来"有完整体验",而不只是"能跑"


⭐ 核心功能

专注 DeepSeek V4 的推理引擎

DwarfStar 不是什么都能跑的万能选手,它只针对 DeepSeek V4 Flash 和 PRO 两个模型优化。这意味着所有工程资源都集中在一个点上,做深做透。

支持的两个模型:

  • DeepSeek V4 Flash:主打型号,96-128GB 机器就能跑
  • DeepSeek V4 PRO:实验性支持,需要 512GB Mac Studio 级别硬件

为什么选 DeepSeek V4? 根据官方测试:

  • 思考模式下的思考量比其他模型短很多,甚至只有 1/5
  • 100 万 token 的上下文窗口
  • KV cache 压缩率极高,支持磁盘 KV 缓存持久化
  • 2-bit 量化后依然保持良好质量,支持 IQ2_XXS + Q2_K 非对称量化
  • 英意大利语写作能力接近前沿模型水平

多后端加速支持

make          # macOS Metal(主要目标)
make cuda-spark    # Linux CUDA, DGX Spark / GB10
make cuda-generic  # Linux CUDA, 其他显卡
make cpu       # CPU 调试构建(仅用于正确性检查)
  • Metal:macOS 主推,从 96GB RAM 的 MacBook 开始支持
  • NVIDIA CUDA:特别优化了 DGX Spark
  • AMD ROCm:在 rocm 分支,社区维护

分布式推理

这是 DwarfStar 最骚的功能——跨多台机器联合运行模型。比如用两台 128GB MacBook 通过 Thunderbolt 5 直连,跑 91GB 的 Q4 量化模型:

# 机器 A:协调者,拥有 tokenization + 前 20 层
./ds4 \
  -m gguf/DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf \
  --role coordinator \
  --layers 0:19 \
  --listen 169.254.43.68 1234

# 机器 B:工作者,拥有后 20 层到输出
./ds4 \
  -m gguf/DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf \
  --role worker \
  --layers 20:output \
  --coordinator 169.254.43.68 1234

两台 M5 Max MacBook 分布式加速效果:

提示长度单机分布式加速比
9421 tokens421.70 t/s582.22 t/s1.38x
28684 tokens405.30 t/s674.16 t/s1.66x
63819 tokens353.62 t/s654.79 t/s1.85x

内置 HTTP API 和 CLI

提供 ds4 和 ds4-server 两个二进制:

  • 交互式命令行聊天
  • HTTP API 服务(方便集成到其他应用)
  • 内置 ds4-agent 编码代理(alpha 质量)
  • 完整的工具调用支持

KV 缓存磁盘持久化

DwarfStar 的核心设计理念:KV cache 不只属于 RAM,更是磁盘的一等公民。现代 MacBook 的高速 SSD 加上压缩后的 KV cache,让本地长上下文推理成为可能。


📥 安装使用

模型下载

# 96/128 GB 机器,推荐 imatrix 调优版
./download_model.sh q2-imatrix

# >= 256 GB 机器
./download_model.sh q4-imatrix

# 512 GB 机器,PRO 版本
./download_model.sh pro-imatrix

# legacy 版本(非 imatrix)
./download_model.sh q2
./download_model.sh q4
./download_model.sh pro

模型从 Hugging Face 下载(https://huggingface.co/antirez/deepseek-v4-gguf),下载脚本支持断点续传(curl -C -)。

编译

git clone https://github.com/antirez/ds4
cd ds4
make

运行

# 交互式聊天
./ds4

# 或者带服务器模式
./ds4-server --port 8080

# 查看帮助
./ds4 --help
./ds4-server --help

性能基准参考

MacBook Pro M5 Max(128GB)实测:

量化任务Prefill生成
q2短提示87.25 t/s34.27 t/s
q211k tokens 长提示463.44 t/s25.90 t/s

🎯 适用场景

DwarfStar 特别适合这些人:

  1. 有高内存 Mac 的开发者:M3 Max/M5 Max MacBook Pro 或者 Mac Studio 用户,想要本地跑大模型做开发辅助
  2. 分布式计算玩家:有多台高内存机器,想要联合跑更大的模型
  3. 对模型质量有要求的用户:需要本地跑 DeepSeek 而不是依赖 API,对数据隐私有要求
  4. AI 极客玩家:喜欢折腾新开源项目,尤其是有分布式和工具调用需求的场景

不太适合:

  • 内存低于 96GB 的机器(跑 q2 量化都吃力)
  • 需要跑其他模型(非 DeepSeek V4 系列)
  • 想要开箱即用完全零配置的普通用户

⚠️ 注意事项

  1. Beta 质量代码:官方明确说了"beta quality code",还在快速迭代中,不要用在生产环境
  2. macOS 虚拟内存 Bug:当前 macOS 版本有虚拟内存实现的 Bug,运行 CPU 代码会内核崩溃。所以 macOS 用户必须用 Metal 后端,别碰 CPU 路径
  3. 只认官方 GGUF:DwarfStar 不是通用 GGUF 加载器,只能用项目提供的 DeepSeek V4 专用 GGUF 文件,其他来源的 GGUF 文件不兼容
  4. 工具调用还在完善:ds4-agent 是 alpha 质量,可以玩但别指望完全可靠
  5. 分布式生成更慢:分布式推理对 Prefill 加速效果明显,但生成(Decode)阶段会因为跨机器延迟变慢
  6. GitHub Stars 较低:目前只有 12 Stars,项目还非常早期,社区还在形成中

✅ 总结

优点:

  • 96GB 内存就能跑 DeepSeek V4 Flash,门槛相对较低
  • Metal/CUDA 优化到位,macOS 用户有福了
  • 分布式推理创意十足,跨机器联合跑模型有新意
  • KV cache 磁盘持久化 + 百万 token 上下文,本地长文本处理能力Max
  • 思考模式效率高,思考量只有其他模型的 1/5

缺点:

  • Beta 质量,生产环境不建议使用
  • 只支持 DeepSeek V4 系列,通用性为零
  • ds4-agent 还比较早期,工具调用体验有限
  • 文档还不够完善,新手入门有门槛

推荐指数:⭐⭐⭐⭐(扣一星是因为 Beta + 小众)

追求本地大模型体验、有高内存 Mac 或者多卡 Linux 机器、喜欢尝鲜的开发者值得关注。GitHub 传送门:https://github.com/antirez/ds4