llama.cpp 是一款纯 C/C++ 编写的高效大模型推理框架,无需 GPU 即可在本地运行 LLaMA 等开源大模型。支持多种量化精度(Q4/Q5/Q8),适配 Windows/macOS/Linux,111k Stars 全球最火本地 AI 推理引擎。
🎤 引言
有没有想过在自己的旧笔记本上跑个大模型?不是那种割韭菜的云服务,是真正跑在你自己机器上的 AI。
大多数本地大模型工具动辄要 8G 显存的显卡,普通人根本玩不起。但 llama.cpp 这货直接用 CPU 跑,i5 处理器 + 16G 内存就能跑起来。靠着 C/C++ 的极致优化,它把模型推理性能压到了极限。
⭐ 核心功能
纯 CPU 推理引擎
llama.cpp 核心用纯 C/C++ 实现,不依赖任何 CUDA 或 ROCm。用纯 CPU 推理,内存占用经过特殊优化,7B 参数模型量化后只需 3-4GB 内存。
多精度量化支持
支持 Q4_0、Q4_1、Q5_0、Q5_1、Q8_0 等多种量化方式。Q4 量化后模型体积缩小 60-70%,推理速度明显提升。openEuler 文档给出的测试数据:Q4_0 量化版 LLaMA-7B 在 Platinum 8260 CPU 上推理速度约 55ms/token。
跨平台兼容
GitHub 支持 Windows、macOS、Linux三大系统,也能跑在树莓派这种 ARM 设备上。官方还提供 Docker 镜像和 Kubernetes 部署方案。
多种模型支持
除了 LLaMA,还支持 Vicuna、Alpaca、GPT4All 等开源模型。模型格式兼容 GGUF(Georgi Gerganov Unified Format),社区生态丰富。
📥 安装与使用
二进制下载(推荐新手)
直接去 GitHub Releases 下载对应平台的预编译包。Linux 用户下载 llama-linux-amd64,macOS 用户下载 llama-macos 即可。
编译安装
# 克隆源码
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
# 编译
mkdir build && cd build
cmake ..
cmake --build . --config Release
# 下载模型(例如 Q4_0 量化的 7B 模型)
# 模型需要自行准备好,这里以具体模型为例
# 运行推理
./llama-cli -m models/llama-7b-q4_0.bin -n 512 -p "你好,介绍一下自己"Docker 部署
# 拉取镜像
docker pull ghcr.io/ggml-org/llama.cpp:latest
# 运行容器
docker run -it ghcr.io/ggml-org/llama.cpp:latest \
./llama-cli -m /models/llama-7b-q4_0.bin -n 512openEuler 官方也提供 Kubernetes 部署方案,适合企业内网批量部署。
🎯 适用场景
老旧设备救星
手上只有核显轻薄本或旧游戏本?llama.cpp 是少数能在这种设备上跑起大模型的选择。实测 16G 内存的 2019 款 MacBook Pro 跑 Q4 量化 7B 模型完全没问题。
隐私敏感场景
医疗、法务、金融等行业涉及敏感数据,不想上传到云端。llama.cpp 支持完全离线运行,数据不出本地机器。
开发调试用
本地跑模型比调用 API 更省钱,调试 prompt 也更方便。适合快速迭代验证想法。
🔍 对比 Ollama
新手常问 Ollama 和 llama.cpp 怎么选。简单说:Ollama 更适合快速入门,界面友好;llama.cpp 更轻量、后台控制更灵活、低配设备表现更好。
Ollama 底层也是 llama.cpp,但封装了更多易用功能。llama.cpp 则给你更多底层调参空间,适合进阶用户。
⚠️ 注意事项
CPU 推理速度有限
虽然 llama.cpp 已经高度优化,但 CPU 推理速度还是比不过 GPU。实时对话场景可能会感觉慢,生成速度通常在 10-50ms/token 量级。
模型来源需自行解决
llama.cpp 只提供推理引擎,模型权重需要自己下载。注意 LLaMA 官方模型需要申请许可,部分第三方模型可能存在版权问题。
内存容量决定模型大小
16G 内存建议跑 7B Q4 量化模型;32G 以上可以跑 13B 模型;想跑 70B 大模型需要 64G+ 内存。
✅ 总结
llama.cpp 解决了本地跑大模型的痛点:不需要高端显卡,普通人用笔记本就能跑起来。C/C++ 编写性能极致,量化技术成熟,生态繁荣。
要说缺点,CPU 推理速度上限在那摆着,不适合对延迟敏感的场景。但对于隐私党和性价比玩家,这绝对是小钢炮级别的神器。
推荐指数:⭐⭐⭐⭐⭐