本地文档智能解析与批量处理系统
基于 MinerU 底层能力,搭建的可操作、可批量、可预览、可扩展的本地工作台。
面对复杂的试卷、教材、专业书籍等资料,纯人工处理面临四大痛点:
一次需处理几十份试卷或几本书,人工逐个打开、复制、整理效率极低。
包含正文、公式、化学式、表格、图片、目录等,直接复制经常格式混乱。
除阅读外,还需进行题答匹配、章节分级、目录合并、表格汇总、图片整理等。
业务需求多变,系统必须具备良好的扩展结构,防止代码越改越乱。
核心定位:MinerU 负责“解析”,Worker 负责“调度、管理、预览和业务加工”。
把 PDF 批量交给 MinerU 解析引擎处理。
对每批解析结果进行统一管理、统一打包、统一预览。
在解析结果基础上执行题答合并、章节分级、表格汇总等业务加工。
保留清晰的模块化扩展结构,新增业务功能不破坏原系统稳定性。
浏览器访问 | 上传PDF | 启动任务 | 查看进度 | 预览结果 | 执行数据组合
管理文件 | 调度任务 | 记录状态/日志 | 结果打包 | 组合器(Combiners)
OCR | 版面分析 | 公式识别 | 表格识别 | 图片提取 → 输出 Markdown/JSON/图片
页面多选上传,自动列出待处理清单。
逐个提交API,独立状态跟踪。
实时查看批次进度、状态及日志。
生成统一ZIP,集中管理所有产物。
支持Markdown、公式及结构JSON预览。
下拉选择后处理模块,执行二次加工。
Worker 最重要的扩展点:combiners 目录,独立解耦,即插即用。
基于文件名相似度自动配对试卷与答案,适合批量处理。
提取 Markdown 标题,自动生成教材或专业书的章节目录树结构。
跨文档整合,将多本电子书的目录结构统一抽取为一个综合清单。
扫描并提取 JSON/Markdown 中的所有表格,导出为 CSV。
集中归档解析出的所有图片,生成清单,建立图文资源库。
扫描检测常见的识别错误(如断裂化学式等),确保数据质量。
结果预览不是简单“看看文件”,它是入库前的数据质检站:
判断阅读效果。检查标题、段落、公式、图片、Mermaid图是否正常。
判断底层结构。检查文本块、表格、图片等类型划分及元数据是否准确。
检查产物完整性。确认 Markdown、images 目录及原始 PDF 是否齐全。
通过文件名相似度实现成卷与答案的自动化配对。
处理大体量PDF,运行目录合并、章节分级,支撑结构化知识库建设。
验证化学公式、离子、电荷的渲染。并引入了 OCR 异常检测机制兜底。
复制项目,修改 config.json,直接启动。
先安装标准 MinerU 底层,确保连通正常,再启动 Worker。
MinerU-worker 证明了我们具备强大的 “获取与提炼高质量数据” 的能力。
那么,这些提炼出的数据该如何使用?
借“高分子材料 AI 导师”看数据库的核心价值
如果 MinerU-worker 是“数据提炼厂”,那么 AI 导师系统就是“数据应用门店”。
接下来,我们将重点展示 数据库 如何作为连接两者的枢纽,真正让数据驱动业务。
在没有数据库的情况下,大模型(AI)只是一个“没有记忆的对话框”。
学生的每一次仿真操作、每一次高质量提问,如果没有记录,刷新即消失。数据库让交互留下痕迹。
为何学生做实验,老师看报表?因为 users 表确立了基于角色的权限边界 (RBAC)。
存下 sim_context,AI 才能知道学生正在做什么实验,实现结合场景的智能教学。
告别深奥的 SQL,从业务抽象看数据结构的“主干与分支”。轻量级切入:SQLite + JSON
学生 / 教师 / 管理员
记录学习主题与时间
问答内容 + 仿真参数
创新性 + 思维深度
得益于聚合查询能力,前端教师看板能实时画出“学生分数分布图”和“活跃度折线图”。
存储在 data.json 中的 MinerU 解析产物,通过数据库精准投喂给大模型,使其化身领域专家。
老师可随时点开学生对话,甚至复现当时的“仿真实验参数”,实现教学过程 100% 还原。
量化教学成果
评价学生不再靠主观感觉,基于 evaluations 表,每个学生都有量化评分,让管理有据可依。
沉淀数字财富
交互过程全部留存,未来可反哺给 MinerU 或微调模型,化为组织的专属数据资产。
闭环的数据生态
MinerU 负责解析书籍入库 → AI 导师读取知识辅导 → 数据库记录盲区 → 教师优化教材。形成业务闭环。
“前期的 MinerU 解决的是‘如何把书本变成数据’的问题。而后续的 AI 导师项目,展示的则是‘数据如何服务于业务’。”
“在这其中,数据库就是我们的业务底座。有了它,我们就能区分角色、输出可视化成绩单、沉淀专属资产。它帮我们把不可控的 AI 交互,变成了可追踪、可量化、可管理的业务流程,实现了真正的数据赋能。”
集成 AI 问答辅导、交互式仿真实验、学习评价与管理的轻量级教学平台。