LiteParse 是 LlamaIndex 开源的轻量级本地文档解析工具,专为 AI 智能体打造。PDFium 高速文本提取,支持 Tesseract/EasyOCR 多引擎,输出带 bounding box 的 JSON。完全离线,多语言 SDK 支持,文末附详细使用教程
🎤 引言
做 AI 智能体的时候,文档解析是个绕不开的坑。PDF 里的表格、图片、扫描件,怎么让模型读懂?以前大家要么用云服务(贵、数据出境),要么自己折腾一堆依赖(烦、难部署)。
最近发现一个宝藏工具 —— LiteParse,来自 LlamaIndex 团队,专门解决本地文档解析这个痛点。它有多轻?Rust 写的核心,Python/Node.js/Rust/WASM 全平台通吃,零云端依赖,开箱即用。
项目目前 7.9k Stars,Apache-2.0 协议,完全开源。
⭐ 核心功能
1. 高速 PDF 文本提取
LiteParse 使用 PDFium(Google 的 PDF 渲染引擎)做底层文本提取,保留完整的空间位置信息。每个字符的 bounding box 都能拿到,输出结构化的 JSON 数据。
# 基本解析,输出文本
lit parse document.pdf
# 输出 JSON(带 bounding box)
lit parse document.pdf --format json -o output.jsonJSON 输出示例:
{
"pages": [
{
"page_num": 1,
"blocks": [
{
"text": "Hello World",
"bbox": [50, 100, 200, 130]
}
]
}
]
}2. 灵活的 OCR 系统
LiteParse 支持三种 OCR 模式,灵活切换:
内置 Tesseract(零配置)
# 默认启用 OCR,支持多语言
lit parse document.pdf --ocr-language eng
lit parse document.pdf --ocr-language chi_sim # 简体中文HTTP OCR Server(EasyOCR/PaddleOCR)
# 接入自定义 OCR 服务
lit parse document.pdf --ocr-server-url http://localhost:8000/ocrOCR API 规范也很简单,POST 一个文件,返回 { results: [{ text, bbox, confidence }] },任何 OCR 引擎都能接入。
3. 截图生成(LLM Agent 必备)
这是 LiteParse 的一大亮点 —— 生成高质量页面截图。对于视觉信息丰富的 PDF(图表、扫描件),光靠文本解析是不够的,截图可以让 LLM 直接"看"到页面。
# 截图所有页面
lit screenshot document.pdf -o ./screenshots
# 指定页面 + 高清 DPI
lit screenshot document.pdf --target-pages "1,3,5" --dpi 300 -o ./screenshots4. 多格式输入
LiteParse 不只是解析 PDF,Office 文档、表格、图片都能自动转换处理:
| 格式 | 类型 | 依赖 |
|---|---|---|
| 原生支持 | - | |
| DOCX/XLSX/PPTX | 自动转 PDF | LibreOffice |
| 图片(JPG/PNG/GIF) | 自动转 PDF | ImageMagick |
| CSV/TSV | 表格处理 | 内置 |
只要装好 LibreOffice 和 ImageMagick,一条命令搞定全格式。
📥 安装使用
Python
pip install liteparse
lit parse document.pdf --format json -o output.jsonNode.js / TypeScript
npm i @llamaindex/liteparseRust
cargo install liteparse # CLI
cargo add liteparse # 库依赖WASM(浏览器)
npm i @llamaindex/liteparse-wasmAI Agent Skill(推荐)
npx skills add run-llama/llamaparse-agent-skills --skill liteparse支持平台:Linux / macOS(Intel + ARM)/ Windows。
🎯 适用场景
适合用 LiteParse 的人:
- 🔧 构建本地 AI 智能体,需要解析 PDF/DOC 等文档
- 🖥️ 离线环境或数据安全敏感场景(不想上传到云端)
- 📊 处理大量文档批量解析,配合 RAG(检索增强生成)使用
- 🤖 开发者想要轻量级文档解析方案,不想背负沉重的依赖
不适合的场景:
- 复杂排版(多栏、表格密集、图表林立)的 PDF → 用 LlamaParse 云服务效果更好
- 追求百分百 OCR 准确率 → 需要自己调优 OCR 服务端
⚠️ 注意事项
- LibreOffice 和 ImageMagick 需要单独安装,用于 Office 和图片格式转换
- Tesseract 语言包首次下载需要联网,离线环境需手动配置
TESSDATA_PREFIX - 大规模解析建议控制并发数,
--num-workers参数根据 CPU 核心数调整 - Windows 用户记得把 LibreOffice 加入 PATH,否则自动转换会失败
✅ 总结
LiteParse 是一个定位清晰的工具:轻量、快速、本地化。它不追求"什么都能解析",而是专注于给 AI 智能体提供可靠的文档解析能力。
优点:
- 🚀 速度很快,Rust 底层性能有保障
- 🔒 完全本地运行,数据不出网
- 🧩 多语言 SDK,Python/Node.js/Rust/WASM 全覆盖
- 📸 截图功能对 Agent 场景非常实用
缺点:
- ⚙️ 需要手动安装 LibreOffice/ImageMagick(小白有门槛)
- 📄 复杂文档解析不如 LlamaParse(官方也承认)
推荐指数:★★★★☆
如果你在构建本地 AI 应用,需要一个轻量的文档解析器,LiteParse 值得一试。
GitHub:run-llama/liteparse
文档:liteparse.dev