llama.cpp 是一款纯 C/C++ 编写的高效大模型推理框架,无需 GPU 即可在本地运行 LLaMA 等开源大模型。支持多种量化精度(Q4/Q5/Q8),适配 Windows/macOS/Linux,111k Stars 全球最火本地 AI 推理引擎。

🎤 引言

有没有想过在自己的旧笔记本上跑个大模型?不是那种割韭菜的云服务,是真正跑在你自己机器上的 AI。

大多数本地大模型工具动辄要 8G 显存的显卡,普通人根本玩不起。但 llama.cpp 这货直接用 CPU 跑,i5 处理器 + 16G 内存就能跑起来。靠着 C/C++ 的极致优化,它把模型推理性能压到了极限。


⭐ 核心功能

纯 CPU 推理引擎

llama.cpp 核心用纯 C/C++ 实现,不依赖任何 CUDA 或 ROCm。用纯 CPU 推理,内存占用经过特殊优化,7B 参数模型量化后只需 3-4GB 内存。

多精度量化支持

支持 Q4_0、Q4_1、Q5_0、Q5_1、Q8_0 等多种量化方式。Q4 量化后模型体积缩小 60-70%,推理速度明显提升。openEuler 文档给出的测试数据:Q4_0 量化版 LLaMA-7B 在 Platinum 8260 CPU 上推理速度约 55ms/token。

跨平台兼容

GitHub 支持 Windows、macOS、Linux三大系统,也能跑在树莓派这种 ARM 设备上。官方还提供 Docker 镜像和 Kubernetes 部署方案。

多种模型支持

除了 LLaMA,还支持 Vicuna、Alpaca、GPT4All 等开源模型。模型格式兼容 GGUF(Georgi Gerganov Unified Format),社区生态丰富。


📥 安装与使用

二进制下载(推荐新手)

直接去 GitHub Releases 下载对应平台的预编译包。Linux 用户下载 llama-linux-amd64,macOS 用户下载 llama-macos 即可。

编译安装

# 克隆源码
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 编译
mkdir build && cd build
cmake ..
cmake --build . --config Release

# 下载模型(例如 Q4_0 量化的 7B 模型)
# 模型需要自行准备好,这里以具体模型为例

# 运行推理
./llama-cli -m models/llama-7b-q4_0.bin -n 512 -p "你好,介绍一下自己"

Docker 部署

# 拉取镜像
docker pull ghcr.io/ggml-org/llama.cpp:latest

# 运行容器
docker run -it ghcr.io/ggml-org/llama.cpp:latest \
  ./llama-cli -m /models/llama-7b-q4_0.bin -n 512

openEuler 官方也提供 Kubernetes 部署方案,适合企业内网批量部署。


🎯 适用场景

老旧设备救星

手上只有核显轻薄本或旧游戏本?llama.cpp 是少数能在这种设备上跑起大模型的选择。实测 16G 内存的 2019 款 MacBook Pro 跑 Q4 量化 7B 模型完全没问题。

隐私敏感场景

医疗、法务、金融等行业涉及敏感数据,不想上传到云端。llama.cpp 支持完全离线运行,数据不出本地机器。

开发调试用

本地跑模型比调用 API 更省钱,调试 prompt 也更方便。适合快速迭代验证想法。


🔍 对比 Ollama

新手常问 Ollama 和 llama.cpp 怎么选。简单说:Ollama 更适合快速入门,界面友好;llama.cpp 更轻量、后台控制更灵活、低配设备表现更好。

Ollama 底层也是 llama.cpp,但封装了更多易用功能。llama.cpp 则给你更多底层调参空间,适合进阶用户。


⚠️ 注意事项

CPU 推理速度有限

虽然 llama.cpp 已经高度优化,但 CPU 推理速度还是比不过 GPU。实时对话场景可能会感觉慢,生成速度通常在 10-50ms/token 量级。

模型来源需自行解决

llama.cpp 只提供推理引擎,模型权重需要自己下载。注意 LLaMA 官方模型需要申请许可,部分第三方模型可能存在版权问题。

内存容量决定模型大小

16G 内存建议跑 7B Q4 量化模型;32G 以上可以跑 13B 模型;想跑 70B 大模型需要 64G+ 内存。


✅ 总结

llama.cpp 解决了本地跑大模型的痛点:不需要高端显卡,普通人用笔记本就能跑起来。C/C++ 编写性能极致,量化技术成熟,生态繁荣。

要说缺点,CPU 推理速度上限在那摆着,不适合对延迟敏感的场景。但对于隐私党和性价比玩家,这绝对是小钢炮级别的神器。

推荐指数:⭐⭐⭐⭐⭐

项目地址:https://github.com/ggml-org/llama.cpp