DwarfStar 是一款专为 DeepSeek V4 Flash 优化的本地推理引擎,支持 Metal/CUDA 加速,96GB 内存即可运行 2-bit 量化模型。内置分布式推理、HTTP API、工具调用和集成编码代理,让本地大模型运行变得简单高效,文末附详细使用教程
🎤 引言
做本地大模型推理最怕什么?内存不够、速度太慢、配置复杂。 antirez(Redis 作者)最新开源的 DwarfStar 项目,直接把这些痛点全解决了——96GB 内存就能跑 DeepSeek V4 Flash,分布式推理还能跨机器联合运行。
这个项目很有意思:不是通用的 GGUF 加载器,而是专门为 DeepSeek V4 量身定制的推理引擎。目标很明确:让本地大模型用起来"有完整体验",而不只是"能跑"。
⭐ 核心功能
专注 DeepSeek V4 的推理引擎
DwarfStar 不是什么都能跑的万能选手,它只针对 DeepSeek V4 Flash 和 PRO 两个模型优化。这意味着所有工程资源都集中在一个点上,做深做透。
支持的两个模型:
- DeepSeek V4 Flash:主打型号,96-128GB 机器就能跑
- DeepSeek V4 PRO:实验性支持,需要 512GB Mac Studio 级别硬件
为什么选 DeepSeek V4? 根据官方测试:
- 思考模式下的思考量比其他模型短很多,甚至只有 1/5
- 100 万 token 的上下文窗口
- KV cache 压缩率极高,支持磁盘 KV 缓存持久化
- 2-bit 量化后依然保持良好质量,支持 IQ2_XXS + Q2_K 非对称量化
- 英意大利语写作能力接近前沿模型水平
多后端加速支持
make # macOS Metal(主要目标)
make cuda-spark # Linux CUDA, DGX Spark / GB10
make cuda-generic # Linux CUDA, 其他显卡
make cpu # CPU 调试构建(仅用于正确性检查)- Metal:macOS 主推,从 96GB RAM 的 MacBook 开始支持
- NVIDIA CUDA:特别优化了 DGX Spark
- AMD ROCm:在 rocm 分支,社区维护
分布式推理
这是 DwarfStar 最骚的功能——跨多台机器联合运行模型。比如用两台 128GB MacBook 通过 Thunderbolt 5 直连,跑 91GB 的 Q4 量化模型:
# 机器 A:协调者,拥有 tokenization + 前 20 层
./ds4 \
-m gguf/DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf \
--role coordinator \
--layers 0:19 \
--listen 169.254.43.68 1234
# 机器 B:工作者,拥有后 20 层到输出
./ds4 \
-m gguf/DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf \
--role worker \
--layers 20:output \
--coordinator 169.254.43.68 1234两台 M5 Max MacBook 分布式加速效果:
| 提示长度 | 单机 | 分布式 | 加速比 |
|---|---|---|---|
| 9421 tokens | 421.70 t/s | 582.22 t/s | 1.38x |
| 28684 tokens | 405.30 t/s | 674.16 t/s | 1.66x |
| 63819 tokens | 353.62 t/s | 654.79 t/s | 1.85x |
内置 HTTP API 和 CLI
提供 ds4 和 ds4-server 两个二进制:
- 交互式命令行聊天
- HTTP API 服务(方便集成到其他应用)
- 内置 ds4-agent 编码代理(alpha 质量)
- 完整的工具调用支持
KV 缓存磁盘持久化
DwarfStar 的核心设计理念:KV cache 不只属于 RAM,更是磁盘的一等公民。现代 MacBook 的高速 SSD 加上压缩后的 KV cache,让本地长上下文推理成为可能。
📥 安装使用
模型下载
# 96/128 GB 机器,推荐 imatrix 调优版
./download_model.sh q2-imatrix
# >= 256 GB 机器
./download_model.sh q4-imatrix
# 512 GB 机器,PRO 版本
./download_model.sh pro-imatrix
# legacy 版本(非 imatrix)
./download_model.sh q2
./download_model.sh q4
./download_model.sh pro模型从 Hugging Face 下载(https://huggingface.co/antirez/deepseek-v4-gguf),下载脚本支持断点续传(curl -C -)。
编译
git clone https://github.com/antirez/ds4
cd ds4
make运行
# 交互式聊天
./ds4
# 或者带服务器模式
./ds4-server --port 8080
# 查看帮助
./ds4 --help
./ds4-server --help性能基准参考
MacBook Pro M5 Max(128GB)实测:
| 量化 | 任务 | Prefill | 生成 |
|---|---|---|---|
| q2 | 短提示 | 87.25 t/s | 34.27 t/s |
| q2 | 11k tokens 长提示 | 463.44 t/s | 25.90 t/s |
🎯 适用场景
DwarfStar 特别适合这些人:
- 有高内存 Mac 的开发者:M3 Max/M5 Max MacBook Pro 或者 Mac Studio 用户,想要本地跑大模型做开发辅助
- 分布式计算玩家:有多台高内存机器,想要联合跑更大的模型
- 对模型质量有要求的用户:需要本地跑 DeepSeek 而不是依赖 API,对数据隐私有要求
- AI 极客玩家:喜欢折腾新开源项目,尤其是有分布式和工具调用需求的场景
不太适合:
- 内存低于 96GB 的机器(跑 q2 量化都吃力)
- 需要跑其他模型(非 DeepSeek V4 系列)
- 想要开箱即用完全零配置的普通用户
⚠️ 注意事项
- Beta 质量代码:官方明确说了"beta quality code",还在快速迭代中,不要用在生产环境
- macOS 虚拟内存 Bug:当前 macOS 版本有虚拟内存实现的 Bug,运行 CPU 代码会内核崩溃。所以 macOS 用户必须用 Metal 后端,别碰 CPU 路径
- 只认官方 GGUF:DwarfStar 不是通用 GGUF 加载器,只能用项目提供的 DeepSeek V4 专用 GGUF 文件,其他来源的 GGUF 文件不兼容
- 工具调用还在完善:ds4-agent 是 alpha 质量,可以玩但别指望完全可靠
- 分布式生成更慢:分布式推理对 Prefill 加速效果明显,但生成(Decode)阶段会因为跨机器延迟变慢
- GitHub Stars 较低:目前只有 12 Stars,项目还非常早期,社区还在形成中
✅ 总结
优点:
- 96GB 内存就能跑 DeepSeek V4 Flash,门槛相对较低
- Metal/CUDA 优化到位,macOS 用户有福了
- 分布式推理创意十足,跨机器联合跑模型有新意
- KV cache 磁盘持久化 + 百万 token 上下文,本地长文本处理能力Max
- 思考模式效率高,思考量只有其他模型的 1/5
缺点:
- Beta 质量,生产环境不建议使用
- 只支持 DeepSeek V4 系列,通用性为零
- ds4-agent 还比较早期,工具调用体验有限
- 文档还不够完善,新手入门有门槛
推荐指数:⭐⭐⭐⭐(扣一星是因为 Beta + 小众)
追求本地大模型体验、有高内存 Mac 或者多卡 Linux 机器、喜欢尝鲜的开发者值得关注。GitHub 传送门:https://github.com/antirez/ds4