Paperless-ngx 是一款开源自托管文档管理系统,支持把纸质文档、PDF、Office 文件批量扫描入库,自动 OCR 识别、智能打标签归类,提供强大的全文搜索能力。Docker 一键部署,38.9k Stars,全面支持 Windows、Linux、macOS,是无纸化办公的首选方案。

🎯 什么是 Paperless-ngx?

你有没有被这些问题困扰过?

文件堆满抽屉,找一份合同要翻半天?重要票据随手一塞,过段时间就不知道塞哪儿去了?电脑里文件夹越建越深,同类文件散落各处,时间久了根本不知道哪份是最新的?

Paperless-ngx 就是来解决这些问题的。

这是一款开源自托管的文档管理系统,核心思路很简单:把纸质文档、PDF、Word、Excel、图片通通扫描入库 → 自动 OCR 识别文字 → 智能打标签归类 → 全文搜索秒出结果。38.9k Stars,GitHub 上最火的文档管理开源项目之一。


⭐ 核心功能

Paperless-ngx 的功能设计非常扎实,根据官方文档和用户反馈,核心亮点如下:

1. 自动 OCR 文字识别

上传任何扫描件或图片,它会自动调用 Tesseract OCR 引擎识别文字,并把识别结果和原文件绑定。这意味着你可以直接搜索「发票」二字,系统会找到所有包含这两个字的扫描件,哪怕原文件是一张纸质的发票照片。

2. 智能标签与分类

支持为文档添加标签、 correspondent(往来方)、文档类型(发票/合同/信件等)。更猛的是,它支持自动规则:你可以设置「文件名包含『发票』→ 自动打上『发票』标签并归入『财务』分类」,完全自动化。

3. 全文搜索

这是最香的功能。Paperless-ngx 把 OCR 识别出的文字全部索引,搜索体验接近 Google 级——模糊搜索、精确匹配、短语搜索通通支持。找到结果后可以直接预览、下载,或者跳转查看完整元数据。

4. 多格式支持

原生支持 PDF、PNG、JPG、TIFF、GIF、Office 文档(doc/docx/xls/xlsx/ppt/pptx)、电子邮件等,基本覆盖日常接触的所有文档格式。PDF 还能自动剥离/合并页面。

5. 共享与协作

支持多用户体系,可以创建协作用户、分配权限。也有 REST API 和 webhooks,方便和其他系统集成。


📥 安装使用

Paperless-ngx 提供官方 Docker 镜像,NAS 或 VPS 上一条命令就能跑起来。推荐使用 Docker Compose,以下是最简配置:

version: "3.4"
services:
  paperless-ngx:
    image: ghcr.io/paperless-ngx/paperless-ngx:latest
    container_name: paperless-ngx
    restart: unless-stopped
    ports:
      - "8000:8000"
    volumes:
      - ./data:/usr/src/paperless/media
      - ./consume:/usr/src/paperless/consume
      - ./data:/usr/src/paperless/data
    environment:
      PAPERLESS_SECRET_KEY: "your-secret-key-here"
      PAPERLESS_URL: "http://localhost:8000"
      PAPERLESS_OCR_LANGUAGE: "chi_sim+eng"

运行前确保已安装 Docker 和 Docker Compose:

# 创建目录
mkdir -p ~/paperless/{data,consume}
cd ~/paperless

# 写入 docker-compose.yml(上方内容)
# 启动
docker-compose up -d

访问 http://你的IP:8000 即可打开管理界面,首次启动需要注册管理员账号。

📦 支持的平台:

  • Docker(Linux/Windows/macOS NAS 通用)
  • 群晖 Synology DSM(套件中心手动安装)
  • unRAID
  • 树莓派(官方提供 ARM 镜像)

📥 下载地址:


🎯 适用场景

Paperless-ngx 适合以下场景:

  • 家庭/个人无纸化:票据、证书、合同、说明书,扫描存档后随时搜索
  • 小型企业文档管理:合同管理、客户资料归档,配合权限系统多人协作
  • NAS 用户:在群晖、威联通、华硕 NAS 上跑,节省存储空间又方便多设备访问
  • 程序员/极客:自托管、无广告、数据完全自主,支持 API 二次开发

🔍 对比与替代方案

方案费用部署难度OCR搜索适合人群
Paperless-ngx免费开源⭐⭐ 简单内置自托管用户
Notion免费/付费⭐ 简单一般个人/团队协作
Obsidian免费⭐⭐ 中等中等知识管理为主
Google Drive免费/付费⭐ 即插即用有限一般云端存储
Evernote付费⭐ 即插即用支持一般笔记为主

Paperless-ngx 的核心竞争力在于:完全自托管 + 内置强大 OCR + 开源免费,适合对数据隐私有要求、想要长期稳定管理的用户。


⚠️ 注意事项

  1. OCR 语言包:默认只装英文 OCR,中文文档需要额外安装语言包。Docker Compose 中设置 PAPERLESS_OCR_LANGUAGE: "chi_sim+eng" 即可。
  2. 文件大小限制:默认单文件 25MB,可在配置中调整。
  3. 数据库备份:建议定期备份 ./data 目录,包含数据库和索引,迁移/恢复全靠它。
  4. 性能提示:文档量大时(>1 万份)建议配备 4GB+ 内存,并考虑使用 PostgreSQL 而非默认 SQLite。
  5. 安全建议:不要把端口直接暴露在公网,配合 Nginx 反向代理 + HTTPS 使用。

✅ 总结

Paperless-ngx 解决了文档管理的最后一公里——从『存起来』到『找得到』。OCR 识别、自动标签、全文搜索,每一个功能都踩在痛点上,而且是开源免费的,数据完全在自己手里。

当然它也不是完美的——初次配置对新手有一点门槛,NAS 上的性能优化需要花点心思。但对于愿意折腾、追求数据自主的用户来说,它几乎是 NAS 上的必备神器。

推荐指数:⭐⭐⭐⭐(4/5)
适合人群:追求无纸化、需要管理大量文档、重视数据隐私的用户
项目地址:https://github.com/paperless-ngx/paperless-ngx