Chunkr

开源智能文档解析API，为RAG而生

让文档秒变AI可用的结构化数据，高精度OCR+语义分块，无缝对接LLM

访问官网 AI工具导航

核心功能

多格式文档解析

支持PDF、PPT、Word、Excel、图片等常见格式，一键上传自动处理
高精度OCR

提取文字的同时保留空间位置和边界框信息，适合表格、图文混排等复杂版面
语义分块

自动将长文档切分为逻辑完整的上下文块，直接用于RAG或LLM输入
多格式输出

可选择HTML、Markdown、JSON或纯文本，满足不同下游任务需求
LLM无缝集成

内置对OpenAI、Claude、Ollama等模型的支持，可灵活配置
Python SDK

提供官方Python SDK，几行代码即可接入现有应用或后端服务

产品特色

01

开源+本地部署，数据隐私完全可控

代码和模型全部开源，支持Docker一键本地部署，企业敏感文档无需上传云端，满足金融、医疗等行业的合规要求
02

不止OCR，更懂文档结构

有别于普通OCR只吐文字，Chunkr能识别标题、段落、表格、图表等元素并保留层级关系，输出真正“结构化”的数据
03

专为RAG优化，检索命中率更高

语义分块算法不是简单按页切分，而是根据语义边界智能拆分，生成的每个块信息密度适中，大幅提升向量检索的准确率
04

从云端到本地，灵活选择

提供SaaS免费套餐供测试，也提供完整自托管方案，开发者可根据项目阶段自由切换，无需锁定厂商
05

社区活跃，持续迭代

GitHub上已有开源仓库，开发者可贡献代码或反馈需求，产品迭代速度很快，常见文档格式适配越来越全

应用场景

✅ 文档问答系统

将企业合同、技术手册、财报等转为结构化语料，结合LLM搭建内部问答机器人
✅ 企业知识库构建

批量导入历史文档，自动完成解析、分块、向量化，快速搭建可检索的知识库
✅ 复杂OCR识别

处理扫描件、图片型PDF、表格混排文档，输出带坐标的文字信息，便于后续解析
✅ RAG应用开发

为检索增强生成应用提供干净、分块的输入数据，提升生成内容的准确性和相关性
✅ 智能文档处理流水线

结合LLM实现文档摘要、合同要素提取、发票信息结构化等自动化流程

常见问题

解答您关于"Chunkr"的常见疑问，让您更好地使用这款AI工具

提供开源版本可自行部署，完全免费。官方也提供云端SaaS服务，有免费套餐，付费按API调用量计费
目前支持PDF、PPT、PPTX、DOC、DOCX、Excel、图片（JPG/PNG等），持续增加中
在标准文档测试集上，表格和文本的识别准确率很高，但手写体或低分辨率扫描件效果会有所下降
Docker方式最低4核8GB内存，推荐8核16GB以上；云端SaaS无需配置，注册即用
传统OCR只输出纯文本，Chunkr输出带布局信息的结构化数据（Markdown/HTML/JSON），并自动做语义分块，专为LLM和RAG设计

立即体验 Chunkr

Chunkr是Lumina AI推出的开源文档处理API，专为RAG（检索增强生成）和知识库场景打造。能将PDF、PPT、Word、图片等复杂文档一键转换为结构化数据，支持高精度OCR（保留文字位置信息）、语义分块、多格式输出（HTML、Markdown、JSON、纯文本）。提供云端SaaS服务与本地Docker部署两种方式，无缝对接OpenAI、Claude、Ollama等LLM。开发者可通过Python SDK快速集成。适用于文档问答、企业知识库、智能文档处理等场景，帮助团队从非结构化文档中高效提取可用信息。

进入 Chunkr

Chunkr网站入口 · 本页面为非官方内容聚合页面，仅为Chunkr的相关介绍和快捷入口 · 官方平台：Chunkr

特别声明：AI导航站提供的【Chunkr】产品信息来源于网站整理或服务商提交，从本站跳转后由【Chunkr】网站提供服务，请用户注意自行甄别【Chunkr】产品服务条款及隐私政策。在收录时，该网页上的内容都属于合规合法，后期【Chunkr】产品网页内容如出现违规，请及时联系站长删除，AI导航网不承担任何责任。

Chunkr

开源智能文档解析API，为RAG而生

核心功能

多格式文档解析

高精度OCR

语义分块

多格式输出

LLM无缝集成

Python SDK

产品特色

开源+本地部署，数据隐私完全可控

不止OCR，更懂文档结构

专为RAG优化，检索命中率更高

从云端到本地，灵活选择

社区活跃，持续迭代

应用场景

✅ 文档问答系统

✅ 企业知识库构建

✅ 复杂OCR识别

✅ RAG应用开发

✅ 智能文档处理流水线

常见问题

立即体验 Chunkr