LiteParse 是 LlamaIndex 开源的轻量级本地文档解析工具,专为 AI 智能体打造。PDFium 高速文本提取,支持 Tesseract/EasyOCR 多引擎,输出带 bounding box 的 JSON。完全离线,多语言 SDK 支持,文末附详细使用教程

🎤 引言

做 AI 智能体的时候,文档解析是个绕不开的坑。PDF 里的表格、图片、扫描件,怎么让模型读懂?以前大家要么用云服务(贵、数据出境),要么自己折腾一堆依赖(烦、难部署)。

最近发现一个宝藏工具 —— LiteParse,来自 LlamaIndex 团队,专门解决本地文档解析这个痛点。它有多轻?Rust 写的核心,Python/Node.js/Rust/WASM 全平台通吃,零云端依赖,开箱即用。

项目目前 7.9k Stars,Apache-2.0 协议,完全开源。


⭐ 核心功能

1. 高速 PDF 文本提取

LiteParse 使用 PDFium(Google 的 PDF 渲染引擎)做底层文本提取,保留完整的空间位置信息。每个字符的 bounding box 都能拿到,输出结构化的 JSON 数据。

# 基本解析,输出文本
lit parse document.pdf

# 输出 JSON(带 bounding box)
lit parse document.pdf --format json -o output.json

JSON 输出示例:

{
  "pages": [
    {
      "page_num": 1,
      "blocks": [
        {
          "text": "Hello World",
          "bbox": [50, 100, 200, 130]
        }
      ]
    }
  ]
}

2. 灵活的 OCR 系统

LiteParse 支持三种 OCR 模式,灵活切换:

内置 Tesseract(零配置)

# 默认启用 OCR,支持多语言
lit parse document.pdf --ocr-language eng
lit parse document.pdf --ocr-language chi_sim  # 简体中文

HTTP OCR Server(EasyOCR/PaddleOCR)

# 接入自定义 OCR 服务
lit parse document.pdf --ocr-server-url http://localhost:8000/ocr

OCR API 规范也很简单,POST 一个文件,返回 { results: [{ text, bbox, confidence }] },任何 OCR 引擎都能接入。

3. 截图生成(LLM Agent 必备)

这是 LiteParse 的一大亮点 —— 生成高质量页面截图。对于视觉信息丰富的 PDF(图表、扫描件),光靠文本解析是不够的,截图可以让 LLM 直接"看"到页面。

# 截图所有页面
lit screenshot document.pdf -o ./screenshots

# 指定页面 + 高清 DPI
lit screenshot document.pdf --target-pages "1,3,5" --dpi 300 -o ./screenshots

4. 多格式输入

LiteParse 不只是解析 PDF,Office 文档、表格、图片都能自动转换处理:

格式类型依赖
PDF原生支持-
DOCX/XLSX/PPTX自动转 PDFLibreOffice
图片(JPG/PNG/GIF)自动转 PDFImageMagick
CSV/TSV表格处理内置

只要装好 LibreOffice 和 ImageMagick,一条命令搞定全格式。


📥 安装使用

Python

pip install liteparse
lit parse document.pdf --format json -o output.json

Node.js / TypeScript

npm i @llamaindex/liteparse

Rust

cargo install liteparse  # CLI
cargo add liteparse      # 库依赖

WASM(浏览器)

npm i @llamaindex/liteparse-wasm

AI Agent Skill(推荐)

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

支持平台:Linux / macOS(Intel + ARM)/ Windows。


🎯 适用场景

适合用 LiteParse 的人:

  • 🔧 构建本地 AI 智能体,需要解析 PDF/DOC 等文档
  • 🖥️ 离线环境或数据安全敏感场景(不想上传到云端)
  • 📊 处理大量文档批量解析,配合 RAG(检索增强生成)使用
  • 🤖 开发者想要轻量级文档解析方案,不想背负沉重的依赖

不适合的场景:

  • 复杂排版(多栏、表格密集、图表林立)的 PDF → 用 LlamaParse 云服务效果更好
  • 追求百分百 OCR 准确率 → 需要自己调优 OCR 服务端

⚠️ 注意事项

  1. LibreOffice 和 ImageMagick 需要单独安装,用于 Office 和图片格式转换
  2. Tesseract 语言包首次下载需要联网,离线环境需手动配置 TESSDATA_PREFIX
  3. 大规模解析建议控制并发数--num-workers 参数根据 CPU 核心数调整
  4. Windows 用户记得把 LibreOffice 加入 PATH,否则自动转换会失败

✅ 总结

LiteParse 是一个定位清晰的工具:轻量、快速、本地化。它不追求"什么都能解析",而是专注于给 AI 智能体提供可靠的文档解析能力。

优点:

  • 🚀 速度很快,Rust 底层性能有保障
  • 🔒 完全本地运行,数据不出网
  • 🧩 多语言 SDK,Python/Node.js/Rust/WASM 全覆盖
  • 📸 截图功能对 Agent 场景非常实用

缺点:

  • ⚙️ 需要手动安装 LibreOffice/ImageMagick(小白有门槛)
  • 📄 复杂文档解析不如 LlamaParse(官方也承认)

推荐指数:★★★★☆

如果你在构建本地 AI 应用,需要一个轻量的文档解析器,LiteParse 值得一试。

GitHubrun-llama/liteparse
文档liteparse.dev