MinerU-worker

本地文档智能解析与批量处理系统

基于 MinerU 底层能力，搭建的可操作、可批量、可预览、可扩展的本地工作台。

一、项目背景

面对复杂的试卷、教材、专业书籍等资料，纯人工处理面临四大痛点：

二、项目目标

核心定位：MinerU 负责“解析”，Worker 负责“调度、管理、预览和业务加工”。

1

批量解析
把 PDF 批量交给 MinerU 解析引擎处理。
2

统一管理
对每批解析结果进行统一管理、统一打包、统一预览。
3

二次数据组合
在解析结果基础上执行题答合并、章节分级、表格汇总等业务加工。
4

高扩展架构
保留清晰的模块化扩展结构，新增业务功能不破坏原系统稳定性。

三、系统整体架构

第一层

前端控制台 (用户交互)

第二层 (核心)

MinerU-worker 服务

管理文件 | 调度任务 | 记录状态/日志 | 结果打包 | 组合器(Combiners)

第三层

MinerU 本体 (解析引擎)

OCR | 版面分析 | 公式识别 | 表格识别 | 图片提取 → 输出 Markdown/JSON/图片

四、当前已经实现的能力

五、数据组合功能说明

Worker 最重要的扩展点：combiners 目录，独立解耦，即插即用。

1. 题目答案合并

基于文件名相似度自动配对试卷与答案，适合批量处理。

2. 书本章节分级

提取 Markdown 标题，自动生成教材或专业书的章节目录树结构。

3. 多书目录合并

跨文档整合，将多本电子书的目录结构统一抽取为一个综合清单。

4. 表格提取汇总

扫描并提取 JSON/Markdown 中的所有表格，导出为 CSV。

5. 图片资源整理

集中归档解析出的所有图片，生成清单，建立图文资源库。

6. OCR 异常检测

扫描检测常见的识别错误（如断裂化学式等），确保数据质量。

六、结果预览的核心价值

结果预览不是简单“看看文件”，它是入库前的数据质检站：

Markdown 预览

判断阅读效果。检查标题、段落、公式、图片、Mermaid图是否正常。

结构 JSON 预览

判断底层结构。检查文本块、表格、图片等类型划分及元数据是否准确。

文件结构预览

检查产物完整性。确认 Markdown、images 目录及原始 PDF 是否齐全。

七、目前验证过的场景

八、系统优势

部署轻量：纯 Python 标准库，无重框架。
本地运行：文件不上传外网，数据安全。
结果可追溯：独立批次保留原始过程日志。
逐步演进：已有流程，可按优先级叠加功能。

九、部署方式

方案 A：已有 MinerU 环境

复制项目，修改 config.json，直接启动。

方案 B：全新电脑环境

先安装标准 MinerU 底层，确保连通正常，再启动 Worker。

注意：切勿直接拷贝旧虚拟环境，易导致驱动不兼容。

十、规划与总结

下一步演进路线图

阶段 1：稳定基础部署

制作干净部署包，实现异机一键快速部署。

阶段 2：深化业务功能

引入深层校验、强化异常规则、增加表格导Excel等。

阶段 3：平台化升级

引入权限认证、任务队列、及云端调度。

知识库的原理与作用总结

MinerU-worker 证明了我们具备强大的 “获取与提炼高质量数据” 的能力。
那么，这些提炼出的数据该如何使用？

从数据提炼到业务赋能

借“高分子材料 AI 导师”看数据库的核心价值

如果 MinerU-worker 是“数据提炼厂”，那么 AI 导师系统就是“数据应用门店”。
接下来，我们将重点展示 数据库 如何作为连接两者的枢纽，真正让数据驱动业务。

十一、为什么要搭配数据库？

在没有数据库的情况下，大模型（AI）只是一个“没有记忆的对话框”。

十二、数据库是怎么搭建的？

告别深奥的 SQL，从业务抽象看数据结构的“主干与分支”。轻量级切入：SQLite + JSON

人 (Users)

学生 / 教师 / 管理员

产生

核心

会话 (Conversations)

记录学习主题与时间

消息 (Messages)

问答内容 + 仿真参数

AI评价 (Evaluations)

创新性 + 思维深度

“这种清晰的主干与分支结构，正是整个教学业务运转的底层轨道。”

十三、搭建后能发挥什么作用？

十四、对业务的实质性帮助

管理赋能

量化教学成果

评价学生不再靠主观感觉，基于 evaluations 表，每个学生都有量化评分，让管理有据可依。

资产沉淀

沉淀数字财富

交互过程全部留存，未来可反哺给 MinerU 或微调模型，化为组织的专属数据资产。

战略价值

闭环的数据生态

MinerU 负责解析书籍入库 → AI 导师读取知识辅导 → 数据库记录盲区 → 教师优化教材。形成业务闭环。

"

全链路核心总结与展望

“前期的 MinerU 解决的是‘如何把书本变成数据’的问题。而后续的 AI 导师项目，展示的则是‘数据如何服务于业务’。”

“在这其中，数据库就是我们的业务底座。有了它，我们就能区分角色、输出可视化成绩单、沉淀专属资产。它帮我们把不可控的 AI 交互，变成了可追踪、可量化、可管理的业务流程，实现了真正的数据赋能。”

"

MinerU-worker

一、项目背景

1. 数量大

2. 结构复杂

3. 后续用途多

4. 需要可扩展

二、项目目标

批量解析

统一管理

二次数据组合

高扩展架构

三、系统整体架构

前端控制台 (用户交互)

MinerU-worker 服务

MinerU 本体 (解析引擎)

四、当前已经实现的能力

1. PDF 批量上传

2. 批量解析任务

3. 任务状态可视化

4. 统一结果打包

5. 高级结果预览

6. 数据组合模块