将非结构化文档(如 PDF 文件和扫描图像)转换为结构化或半结构化格式是人工智能的关键部分。这一过程是人工智能智能的关键。
本系列文章将对PDF解析的主流方法进行归类,并探讨一些具有代表性的开源框架的原理,从开发者的角度学习如何开发自己的pdf解析工具。
对于开源框架,我们的关注点不只是用起来,关键是能不能从中学到一些见解或者思路,这样会有很大的好处。
作为系列的第一篇文章,本文的主要内容是定义pdf解析的任务并对现有的方法进行分类,然后进行简单介绍。
PDF解析的主要任务
图 1 说明了 PDF 解析的主要任务:
图 1:PDF 解析的主要任务。图片由作者提供,原始 PDF 页面来自“ Attention Is All You Need ”第 5 页。
- 输入:PDF 文件或图像。
- 输出:结构化或半结构化文件,如 Markdown、HTML、JSON 或开发人员定义的其他格式。
尽管任务描述看起来很简单,但生活经验表明,这样的任务往往需要付出更多的努力。
方法分类
据我目前了解,构建PDF解析工具的方法主要可以分为以下四类:
- 基于流水线:将整个 PDF 解析过程视为一系列模型或算法。每个步骤处理各自的子任务,系统地解决整体任务。
- 基于无 OCR 小型模型:此方法采用端到端方法解决整个任务。它将 PDF 解析视为一种序列预测。使用准备好的训练数据训练小型模型来预测 Markdown、JSON 或 HTML 等格式的标记。
- 基于大型多模态模型:利用大型多模态模型的强大能力,将文档理解任务委托给大型多模态模型。具体来说,以顺序预测的形式定义 PDF 解析的各种任务。通过使用不同的提示或微调大型多模态模型,我们可以引导它完成不同的任务,例如布局分析、表格识别和公式识别。输出将采用 Markdown、JSON 或 HTML 等格式。
- 基于规则:PDF文件的解析是基于预定义的规则。这种方法虽然速度快,但缺乏灵活性。
本系列文章重点介绍前三种方法,不讨论基于规则的方法。
基于管道的方法
该方法将解析 PDF 的任务视为模型或算法的管道,如图 2 所示。
图 2:基于管道的方法。图片由作者提供,原始 PDF 页面来自PubLayNet。
基于流水线的方法大致可以分为以下五个步骤:
- 原始pdf文件可能存在一些问题,比如模糊,图片方向倾斜等,所以需要进行预处理,比如图像增强,图像方向校正等。
- 进行布局分析,主要包括两个部分:视觉结构分析和语义结构分析。视觉结构分析旨在识别文档的结构并确定其相似区域的边界。同时,语义结构分析涉及用特定文档类型(如文本、标题、列表、表格、图形等)标记这些检测到的区域。此外,还要分析页面的阅读顺序。
- 独立处理布局分析过程中识别的不同领域,包括表格理解、文本识别以及公式、流程图和特殊符号等其他组件的识别。
- 整合之前的结果,恢复页面结构。
- 输出结构化或半结构化信息,例如Markdown,JSON或HTML。
值得一提的是,PDF解析其实是文档智能的一个子集,也被称为文档AI。除了图2所示的内容之外,文档智能还包括:
- 信息提取:实体识别、关系提取。
- 文档检索:关键字检索、基于结构的检索。
- 语义分析:内容分类、摘要、文档问答。
以下是一些具有代表性的基于管道的pdf解析框架:
- Marker:它是一个轻量级的深度学习模型管道,能够将 PDF、EPUB 和 MOBI 文件转换为 markdown 格式。
- 非结构化:提供良好可定制性的综合框架。
- LayoutParser:基于深度学习的文档图像分析的统一工具包。
基于无 OCR 小模型的方法
OCR-FREE 解决方案认为,由 OCR 模型驱动的方法(如基于管道的方法)依赖于从外部系统提取文本。这会导致更高的计算资源使用率和更长的处理时间。此外,这些模型可能会继承 OCR 不准确性,这会使文档理解和分析任务变得复杂。
因此,应该开发基于无OCR小模型的方法,如图3所示。
图 3:基于无 OCR 小模型的方法。图片由作者提供,原始 PDF 页面来自“ Attention Is All You Need ”第 5 页。
从结构上看,OCR-free 方法相比基于流水线的方法相对简单,OCR-free 方法需要关注的关键领域是训练数据的构建和模型结构的设计。
下面是一些具有代表性的基于无OCR小模型的pdf解析框架:
- Donut:无 OCR 文档理解转换器。
- Nougat:基于Donut架构,与PDF文件、公式和表格一起使用时特别有效。
- Dessurt:它基于类似于 Donut 的架构,将双向交叉注意力与各种预训练方法相结合。
基于大型多模态模型的方法
在 LLM 时代,考虑使用大型多模式模型进行 PDF 解析也就不足为奇了。
图 4:通过创建提示实现的大型多模态模型方法。图片由作者提供,原始 PDF 页面来自“ Attention Is All You Need ”第 10 页。
图 5:通过微调实现的大型多模态模型方法。图片由作者提供,原始 PDF 页面来自“ Attention Is All You Need ”第 10 页。
如图 4 和 5 所示,我们可以创建提示或微调大型多模式模型来增强它们,帮助我们完成各种任务。
以下是一些具有代表性的大型多模态模型:
- TextMonkey:一个专注于文本相关任务的大型多模态模型,包括文档问答和场景文本问答,在多个基准测试中取得了最先进的结果。
- 拉瓦河:它收集了丰富的文本训练数据,并使用更高分辨率的 CLIP 作为视觉编码器来增强 OCR 功能。
- GPT-4V:高质量闭源大型多模态模型。
结论
总体来说,本文定义了PDF解析的主要任务,对现有的方法进行了分类,并对每种方法进行了简要介绍
其余的参考
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/3293