MinerU-worker

本地文档智能解析与批量处理系统

基于 MinerU 底层能力,搭建的可操作、可批量、可预览、可扩展的本地工作台。

一、项目背景

面对复杂的试卷、教材、专业书籍等资料,纯人工处理面临四大痛点:

1. 数量大

一次需处理几十份试卷或几本书,人工逐个打开、复制、整理效率极低。

2. 结构复杂

包含正文、公式、化学式、表格、图片、目录等,直接复制经常格式混乱。

3. 后续用途多

除阅读外,还需进行题答匹配、章节分级、目录合并、表格汇总、图片整理等。

4. 需要可扩展

业务需求多变,系统必须具备良好的扩展结构,防止代码越改越乱。

二、项目目标

核心定位:MinerU 负责“解析”,Worker 负责“调度、管理、预览和业务加工”。

  • 1

    批量解析

    把 PDF 批量交给 MinerU 解析引擎处理。

  • 2

    统一管理

    对每批解析结果进行统一管理、统一打包、统一预览。

  • 3

    二次数据组合

    在解析结果基础上执行题答合并、章节分级、表格汇总等业务加工。

  • 4

    高扩展架构

    保留清晰的模块化扩展结构,新增业务功能不破坏原系统稳定性。

三、系统整体架构

第一层

前端控制台 (用户交互)

浏览器访问 | 上传PDF | 启动任务 | 查看进度 | 预览结果 | 执行数据组合

第二层 (核心)

MinerU-worker 服务

管理文件 | 调度任务 | 记录状态/日志 | 结果打包 | 组合器(Combiners)

第三层

MinerU 本体 (解析引擎)

OCR | 版面分析 | 公式识别 | 表格识别 | 图片提取 → 输出 Markdown/JSON/图片

四、当前已经实现的能力

1. PDF 批量上传

页面多选上传,自动列出待处理清单。

2. 批量解析任务

逐个提交API,独立状态跟踪。

3. 任务状态可视化

实时查看批次进度、状态及日志。

4. 统一结果打包

生成统一ZIP,集中管理所有产物。

5. 高级结果预览

支持Markdown、公式及结构JSON预览。

6. 数据组合模块

下拉选择后处理模块,执行二次加工。

五、数据组合功能说明

Worker 最重要的扩展点:combiners 目录,独立解耦,即插即用。

1. 题目答案合并

基于文件名相似度自动配对试卷与答案,适合批量处理。

2. 书本章节分级

提取 Markdown 标题,自动生成教材或专业书的章节目录树结构。

3. 多书目录合并

跨文档整合,将多本电子书的目录结构统一抽取为一个综合清单。

4. 表格提取汇总

扫描并提取 JSON/Markdown 中的所有表格,导出为 CSV。

5. 图片资源整理

集中归档解析出的所有图片,生成清单,建立图文资源库。

6. OCR 异常检测

扫描检测常见的识别错误(如断裂化学式等),确保数据质量。

六、结果预览的核心价值

结果预览不是简单“看看文件”,它是入库前的数据质检站

Markdown 预览

判断阅读效果。检查标题、段落、公式、图片、Mermaid图是否正常。

结构 JSON 预览

判断底层结构。检查文本块、表格、图片等类型划分及元数据是否准确。

文件结构预览

检查产物完整性。确认 Markdown、images 目录及原始 PDF 是否齐全。

七、目前验证过的场景

1. 试卷与答案 PDF 匹配

通过文件名相似度实现成卷与答案的自动化配对。

2. 专业书籍大文件解析

处理大体量PDF,运行目录合并、章节分级,支撑结构化知识库建设。

3. 复杂理科公式/表格资料

验证化学公式、离子、电荷的渲染。并引入了 OCR 异常检测机制兜底。

八、系统优势

  • 部署轻量:纯 Python 标准库,无重框架。
  • 本地运行:文件不上传外网,数据安全。
  • 结果可追溯:独立批次保留原始过程日志。
  • 逐步演进:已有流程,可按优先级叠加功能。

九、部署方式

方案 A:已有 MinerU 环境

复制项目,修改 config.json,直接启动。

方案 B:全新电脑环境

先安装标准 MinerU 底层,确保连通正常,再启动 Worker。

注意:切勿直接拷贝旧虚拟环境,易导致驱动不兼容。

十、规划与总结

下一步演进路线图

阶段 1:稳定基础部署
制作干净部署包,实现异机一键快速部署。
阶段 2:深化业务功能
引入深层校验、强化异常规则、增加表格导Excel等。
阶段 3:平台化升级
引入权限认证、任务队列、及云端调度。

知识库的原理与作用总结

MinerU-worker 证明了我们具备强大的 “获取与提炼高质量数据” 的能力。
那么,这些提炼出的数据该如何使用?

从数据提炼到业务赋能

借“高分子材料 AI 导师”看数据库的核心价值

如果 MinerU-worker 是“数据提炼厂”,那么 AI 导师系统就是“数据应用门店”。
接下来,我们将重点展示 数据库 如何作为连接两者的枢纽,真正让数据驱动业务。

十一、为什么要搭配数据库?

在没有数据库的情况下,大模型(AI)只是一个“没有记忆的对话框”。

1. 打破“阅后即焚”

学生的每一次仿真操作、每一次高质量提问,如果没有记录,刷新即消失。数据库让交互留下痕迹。

2. 实现身份隔离

为何学生做实验,老师看报表?因为 users 表确立了基于角色的权限边界 (RBAC)。

3. 保持上下文连贯

存下 sim_context,AI 才能知道学生正在做什么实验,实现结合场景的智能教学

十二、数据库是怎么搭建的?

告别深奥的 SQL,从业务抽象看数据结构的“主干与分支”。轻量级切入:SQLite + JSON

人 (Users)

学生 / 教师 / 管理员


产生
核心

会话 (Conversations)

记录学习主题与时间

消息 (Messages)

问答内容 + 仿真参数

AI评价 (Evaluations)

创新性 + 思维深度

“这种清晰的主干与分支结构,正是整个教学业务运转的底层轨道。”

十三、搭建后能发挥什么作用?

从“散乱数据”到“可视化资产”

得益于聚合查询能力,前端教师看板能实时画出“学生分数分布图”和“活跃度折线图”。

让隐性知识显性化

存储在 data.json 中的 MinerU 解析产物,通过数据库精准投喂给大模型,使其化身领域专家。

全链路追溯(业务黑匣子)

老师可随时点开学生对话,甚至复现当时的“仿真实验参数”,实现教学过程 100% 还原。

十四、对业务的实质性帮助

管理赋能

量化教学成果

评价学生不再靠主观感觉,基于 evaluations 表,每个学生都有量化评分,让管理有据可依

资产沉淀

沉淀数字财富

交互过程全部留存,未来可反哺给 MinerU 或微调模型,化为组织的专属数据资产

战略价值

闭环的数据生态

MinerU 负责解析书籍入库 → AI 导师读取知识辅导 → 数据库记录盲区 → 教师优化教材。形成业务闭环。

"

全链路核心总结与展望

“前期的 MinerU 解决的是‘如何把书本变成数据’的问题。而后续的 AI 导师项目,展示的则是‘数据如何服务于业务’。”

“在这其中,数据库就是我们的业务底座。有了它,我们就能区分角色、输出可视化成绩单、沉淀专属资产。它帮我们把不可控的 AI 交互,变成了可追踪、可量化、可管理的业务流程,实现了真正的数据赋能。”

贺州学院-高分子材料AI导师课堂系统

集成 AI 问答辅导、交互式仿真实验、学习评价与管理的轻量级教学平台。

访问体验系统
"
1 / 16
播放进度 0%待播放