Paperless-ngx 是一款开源自托管文档管理系统,支持把纸质文档、PDF、Office 文件批量扫描入库,自动 OCR 识别、智能打标签归类,提供强大的全文搜索能力。Docker 一键部署,38.9k Stars,全面支持 Windows、Linux、macOS,是无纸化办公的首选方案。
🎯 什么是 Paperless-ngx?
你有没有被这些问题困扰过?
文件堆满抽屉,找一份合同要翻半天?重要票据随手一塞,过段时间就不知道塞哪儿去了?电脑里文件夹越建越深,同类文件散落各处,时间久了根本不知道哪份是最新的?
Paperless-ngx 就是来解决这些问题的。
这是一款开源自托管的文档管理系统,核心思路很简单:把纸质文档、PDF、Word、Excel、图片通通扫描入库 → 自动 OCR 识别文字 → 智能打标签归类 → 全文搜索秒出结果。38.9k Stars,GitHub 上最火的文档管理开源项目之一。
⭐ 核心功能
Paperless-ngx 的功能设计非常扎实,根据官方文档和用户反馈,核心亮点如下:
1. 自动 OCR 文字识别
上传任何扫描件或图片,它会自动调用 Tesseract OCR 引擎识别文字,并把识别结果和原文件绑定。这意味着你可以直接搜索「发票」二字,系统会找到所有包含这两个字的扫描件,哪怕原文件是一张纸质的发票照片。
2. 智能标签与分类
支持为文档添加标签、 correspondent(往来方)、文档类型(发票/合同/信件等)。更猛的是,它支持自动规则:你可以设置「文件名包含『发票』→ 自动打上『发票』标签并归入『财务』分类」,完全自动化。
3. 全文搜索
这是最香的功能。Paperless-ngx 把 OCR 识别出的文字全部索引,搜索体验接近 Google 级——模糊搜索、精确匹配、短语搜索通通支持。找到结果后可以直接预览、下载,或者跳转查看完整元数据。
4. 多格式支持
原生支持 PDF、PNG、JPG、TIFF、GIF、Office 文档(doc/docx/xls/xlsx/ppt/pptx)、电子邮件等,基本覆盖日常接触的所有文档格式。PDF 还能自动剥离/合并页面。
5. 共享与协作
支持多用户体系,可以创建协作用户、分配权限。也有 REST API 和 webhooks,方便和其他系统集成。
📥 安装使用
Paperless-ngx 提供官方 Docker 镜像,NAS 或 VPS 上一条命令就能跑起来。推荐使用 Docker Compose,以下是最简配置:
version: "3.4"
services:
paperless-ngx:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
container_name: paperless-ngx
restart: unless-stopped
ports:
- "8000:8000"
volumes:
- ./data:/usr/src/paperless/media
- ./consume:/usr/src/paperless/consume
- ./data:/usr/src/paperless/data
environment:
PAPERLESS_SECRET_KEY: "your-secret-key-here"
PAPERLESS_URL: "http://localhost:8000"
PAPERLESS_OCR_LANGUAGE: "chi_sim+eng"运行前确保已安装 Docker 和 Docker Compose:
# 创建目录
mkdir -p ~/paperless/{data,consume}
cd ~/paperless
# 写入 docker-compose.yml(上方内容)
# 启动
docker-compose up -d访问 http://你的IP:8000 即可打开管理界面,首次启动需要注册管理员账号。
📦 支持的平台:
- Docker(Linux/Windows/macOS NAS 通用)
- 群晖 Synology DSM(套件中心手动安装)
- unRAID
- 树莓派(官方提供 ARM 镜像)
📥 下载地址:
- GitHub:https://github.com/paperless-ngx/paperless-ngx
- 官方文档:https://docs.paperless-ngx.com/
- Docker Hub:https://ghcr.io/paperless-ngx/paperless-ngx
🎯 适用场景
Paperless-ngx 适合以下场景:
- 家庭/个人无纸化:票据、证书、合同、说明书,扫描存档后随时搜索
- 小型企业文档管理:合同管理、客户资料归档,配合权限系统多人协作
- NAS 用户:在群晖、威联通、华硕 NAS 上跑,节省存储空间又方便多设备访问
- 程序员/极客:自托管、无广告、数据完全自主,支持 API 二次开发
🔍 对比与替代方案
| 方案 | 费用 | 部署难度 | OCR | 搜索 | 适合人群 |
|---|---|---|---|---|---|
| Paperless-ngx | 免费开源 | ⭐⭐ 简单 | 内置 | 强 | 自托管用户 |
| Notion | 免费/付费 | ⭐ 简单 | ❌ | 一般 | 个人/团队协作 |
| Obsidian | 免费 | ⭐⭐ 中等 | ❌ | 中等 | 知识管理为主 |
| Google Drive | 免费/付费 | ⭐ 即插即用 | 有限 | 一般 | 云端存储 |
| Evernote | 付费 | ⭐ 即插即用 | 支持 | 一般 | 笔记为主 |
Paperless-ngx 的核心竞争力在于:完全自托管 + 内置强大 OCR + 开源免费,适合对数据隐私有要求、想要长期稳定管理的用户。
⚠️ 注意事项
- OCR 语言包:默认只装英文 OCR,中文文档需要额外安装语言包。Docker Compose 中设置
PAPERLESS_OCR_LANGUAGE: "chi_sim+eng"即可。 - 文件大小限制:默认单文件 25MB,可在配置中调整。
- 数据库备份:建议定期备份
./data目录,包含数据库和索引,迁移/恢复全靠它。 - 性能提示:文档量大时(>1 万份)建议配备 4GB+ 内存,并考虑使用 PostgreSQL 而非默认 SQLite。
- 安全建议:不要把端口直接暴露在公网,配合 Nginx 反向代理 + HTTPS 使用。
✅ 总结
Paperless-ngx 解决了文档管理的最后一公里——从『存起来』到『找得到』。OCR 识别、自动标签、全文搜索,每一个功能都踩在痛点上,而且是开源免费的,数据完全在自己手里。
当然它也不是完美的——初次配置对新手有一点门槛,NAS 上的性能优化需要花点心思。但对于愿意折腾、追求数据自主的用户来说,它几乎是 NAS 上的必备神器。
推荐指数:⭐⭐⭐⭐(4/5)
适合人群:追求无纸化、需要管理大量文档、重视数据隐私的用户
项目地址:https://github.com/paperless-ngx/paperless-ngx