Chunkr
开源智能文档解析API,为RAG而生
让文档秒变AI可用的结构化数据,高精度OCR+语义分块,无缝对接LLM

核心功能
多格式文档解析
支持PDF、PPT、Word、Excel、图片等常见格式,一键上传自动处理
高精度OCR
提取文字的同时保留空间位置和边界框信息,适合表格、图文混排等复杂版面
语义分块
自动将长文档切分为逻辑完整的上下文块,直接用于RAG或LLM输入
多格式输出
可选择HTML、Markdown、JSON或纯文本,满足不同下游任务需求
LLM无缝集成
内置对OpenAI、Claude、Ollama等模型的支持,可灵活配置
Python SDK
提供官方Python SDK,几行代码即可接入现有应用或后端服务
产品特色
- 01
开源+本地部署,数据隐私完全可控
代码和模型全部开源,支持Docker一键本地部署,企业敏感文档无需上传云端,满足金融、医疗等行业的合规要求
- 02
不止OCR,更懂文档结构
有别于普通OCR只吐文字,Chunkr能识别标题、段落、表格、图表等元素并保留层级关系,输出真正“结构化”的数据
- 03
专为RAG优化,检索命中率更高
语义分块算法不是简单按页切分,而是根据语义边界智能拆分,生成的每个块信息密度适中,大幅提升向量检索的准确率
- 04
从云端到本地,灵活选择
提供SaaS免费套餐供测试,也提供完整自托管方案,开发者可根据项目阶段自由切换,无需锁定厂商
- 05
社区活跃,持续迭代
GitHub上已有开源仓库,开发者可贡献代码或反馈需求,产品迭代速度很快,常见文档格式适配越来越全
应用场景
✅ 文档问答系统
将企业合同、技术手册、财报等转为结构化语料,结合LLM搭建内部问答机器人
✅ 企业知识库构建
批量导入历史文档,自动完成解析、分块、向量化,快速搭建可检索的知识库
✅ 复杂OCR识别
处理扫描件、图片型PDF、表格混排文档,输出带坐标的文字信息,便于后续解析
✅ RAG应用开发
为检索增强生成应用提供干净、分块的输入数据,提升生成内容的准确性和相关性
✅ 智能文档处理流水线
结合LLM实现文档摘要、合同要素提取、发票信息结构化等自动化流程
常见问题
解答您关于"Chunkr"的常见疑问,让您更好地使用这款AI工具
-
提供开源版本可自行部署,完全免费。官方也提供云端SaaS服务,有免费套餐,付费按API调用量计费
-
目前支持PDF、PPT、PPTX、DOC、DOCX、Excel、图片(JPG/PNG等),持续增加中
-
在标准文档测试集上,表格和文本的识别准确率很高,但手写体或低分辨率扫描件效果会有所下降
-
Docker方式最低4核8GB内存,推荐8核16GB以上;云端SaaS无需配置,注册即用
-
传统OCR只输出纯文本,Chunkr输出带布局信息的结构化数据(Markdown/HTML/JSON),并自动做语义分块,专为LLM和RAG设计
立即体验 Chunkr
Chunkr是Lumina AI推出的开源文档处理API,专为RAG(检索增强生成)和知识库场景打造。能将PDF、PPT、Word、图片等复杂文档一键转换为结构化数据,支持高精度OCR(保留文字位置信息)、语义分块、多格式输出(HTML、Markdown、JSON、纯文本)。提供云端SaaS服务与本地Docker部署两种方式,无缝对接OpenAI、Claude、Ollama等LLM。开发者可通过Python SDK快速集成。适用于文档问答、企业知识库、智能文档处理等场景,帮助团队从非结构化文档中高效提取可用信息。