📄 LiteParse：轻量级本地文档解析器 AI智能体专用支持多语言SDK

LiteParse 是 LlamaIndex 开源的轻量级本地文档解析工具，专为 AI 智能体打造。PDFium 高速文本提取，支持 Tesseract/EasyOCR 多引擎，输出带 bounding box 的 JSON。完全离线，多语言 SDK 支持，文末附详细使用教程

🎤 引言

做 AI 智能体的时候，文档解析是个绕不开的坑。PDF 里的表格、图片、扫描件，怎么让模型读懂？以前大家要么用云服务（贵、数据出境），要么自己折腾一堆依赖（烦、难部署）。

最近发现一个宝藏工具 —— LiteParse，来自 LlamaIndex 团队，专门解决本地文档解析这个痛点。它有多轻？Rust 写的核心，Python/Node.js/Rust/WASM 全平台通吃，零云端依赖，开箱即用。

项目目前 7.9k Stars，Apache-2.0 协议，完全开源。

⭐ 核心功能

1. 高速 PDF 文本提取

LiteParse 使用 PDFium（Google 的 PDF 渲染引擎）做底层文本提取，保留完整的空间位置信息。每个字符的 bounding box 都能拿到，输出结构化的 JSON 数据。

# 基本解析，输出文本
lit parse document.pdf

# 输出 JSON（带 bounding box）
lit parse document.pdf --format json -o output.json

JSON 输出示例：

{
  "pages": [
    {
      "page_num": 1,
      "blocks": [
        {
          "text": "Hello World",
          "bbox": [50, 100, 200, 130]
        }
      ]
    }
  ]
}

2. 灵活的 OCR 系统

LiteParse 支持三种 OCR 模式，灵活切换：

内置 Tesseract（零配置）

# 默认启用 OCR，支持多语言
lit parse document.pdf --ocr-language eng
lit parse document.pdf --ocr-language chi_sim  # 简体中文

HTTP OCR Server（EasyOCR/PaddleOCR）

# 接入自定义 OCR 服务
lit parse document.pdf --ocr-server-url http://localhost:8000/ocr

OCR API 规范也很简单，POST 一个文件，返回 { results: [{ text, bbox, confidence }] }，任何 OCR 引擎都能接入。

3. 截图生成（LLM Agent 必备）

这是 LiteParse 的一大亮点 —— 生成高质量页面截图。对于视觉信息丰富的 PDF（图表、扫描件），光靠文本解析是不够的，截图可以让 LLM 直接"看"到页面。

# 截图所有页面
lit screenshot document.pdf -o ./screenshots

# 指定页面 + 高清 DPI
lit screenshot document.pdf --target-pages "1,3,5" --dpi 300 -o ./screenshots

4. 多格式输入

LiteParse 不只是解析 PDF，Office 文档、表格、图片都能自动转换处理：

格式	类型	依赖
PDF	原生支持	-
DOCX/XLSX/PPTX	自动转 PDF	LibreOffice
图片（JPG/PNG/GIF）	自动转 PDF	ImageMagick
CSV/TSV	表格处理	内置

只要装好 LibreOffice 和 ImageMagick，一条命令搞定全格式。

📥 安装使用

Python

pip install liteparse
lit parse document.pdf --format json -o output.json

Node.js / TypeScript

npm i @llamaindex/liteparse

Rust

cargo install liteparse  # CLI
cargo add liteparse      # 库依赖

WASM（浏览器）

npm i @llamaindex/liteparse-wasm

AI Agent Skill（推荐）

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

支持平台：Linux / macOS（Intel + ARM）/ Windows。

🎯 适用场景

适合用 LiteParse 的人：

🔧 构建本地 AI 智能体，需要解析 PDF/DOC 等文档
🖥️ 离线环境或数据安全敏感场景（不想上传到云端）
📊 处理大量文档批量解析，配合 RAG（检索增强生成）使用
🤖 开发者想要轻量级文档解析方案，不想背负沉重的依赖

不适合的场景：

复杂排版（多栏、表格密集、图表林立）的 PDF → 用 LlamaParse 云服务效果更好
追求百分百 OCR 准确率 → 需要自己调优 OCR 服务端

⚠️ 注意事项

LibreOffice 和 ImageMagick 需要单独安装，用于 Office 和图片格式转换
Tesseract 语言包首次下载需要联网，离线环境需手动配置 TESSDATA_PREFIX
大规模解析建议控制并发数，--num-workers 参数根据 CPU 核心数调整
Windows 用户记得把 LibreOffice 加入 PATH，否则自动转换会失败

✅ 总结

LiteParse 是一个定位清晰的工具：轻量、快速、本地化。它不追求"什么都能解析"，而是专注于给 AI 智能体提供可靠的文档解析能力。

优点：

🚀 速度很快，Rust 底层性能有保障
🔒 完全本地运行，数据不出网
🧩 多语言 SDK，Python/Node.js/Rust/WASM 全覆盖
📸 截图功能对 Agent 场景非常实用

缺点：

⚙️ 需要手动安装 LibreOffice/ImageMagick（小白有门槛）
📄 复杂文档解析不如 LlamaParse（官方也承认）

推荐指数：★★★★☆

如果你在构建本地 AI 应用，需要一个轻量的文档解析器，LiteParse 值得一试。

GitHub：run-llama/liteparse
文档：liteparse.dev