手把手用Python提取文本型PDF中的表格

如题所述

举报该问题

推荐答案 2024-09-28

在面对需要从文本型PDF文件中提取表格时，传统的第三方服务和开源代码包在效果和成本之间往往难以取得平衡。对于这类需求，本文提供了一个结合了PDF文本提取、图片转换和表格识别的方案，旨在实现相对高效且经济的表格提取过程。以下是具体步骤和实现方法：

### 前提条件

确保PDF文件为纯文本格式，而非单纯图片。这样的文件才适合后续的处理方法。

### 准备工具与方法

1. **使用pdfminer提取文本**：首先，使用pdfminer工具从PDF文件中提取文本内容，并确定需要处理的页面集合。

2. **PDF页面转图片**：将锁定的PDF页面转换为图片，以便进行后续的表格识别。

3. **使用table-transformer识别表格**：借助Huggingface的table-transformer模型，识别页面中表格的位置和结构信息。

4. **使用tabular-py提取表格**：根据识别出的区域和结构信息，使用tabular-py提取表格数据。

5. **业务知识后处理**：根据业务需求对提取的表格进行调整，最终将其转换为所需的Excel格式文件。

### 代码实现与优化

**第一步：锁定页面**

开发一个PDF类，实现读取文本信息与页面位置信息的收集。通过关键词查找判断页面是否包含所需表格。

**第二步：识别表格**

将锁定的PDF页面转换为图片，然后使用table-transformer识别表格区域。编写函数封装整个流程，并展示识别结果。

**第三步：提取表格**

基于识别出的表格区域和结构信息，使用tabular-py提取表格数据。实现一个坐标转换函数，解决不同包间坐标系和数据结构的差异问题。

**第四步：后处理**

根据业务逻辑对提取的表格进行个性化调整，确保数据符合预期格式。

### 总结

通过自行开发的方法，对于规模不大的PDF表格提取需求，可以实现相对高效且成本可控的处理。关键在于将PDF文本转换为图片，利用深度学习技术识别表格信息，并借助现有工具提取数据。最后，根据具体业务需求进行适当的后处理，最终将表格转换为Excel格式文件。这种方法既满足了对PDF文件中表格数据的高效提取需求，又避免了依赖昂贵的第三方服务。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/ezXOvBzveeOzBXWBzv.html

相似回答

独家| 手把手教你如何用Python从PDF文件中导出数据答：导出数据的部分介绍了如何将提取的文本导出为XML、JSON和CSV格式。XML格式是最为人所熟知的输入输出格式之一，而JSON是一种轻量级的数据交换格式。CSV是一种标准格式，可以被Microsoft Excel和LibreOffice等应用程序以电子表格的方式打开。Python内置的csv模块可以用于读写CSV文件。关于从PDF中提取图片，目前Pytho...

用python怎么提取已经抓取的网页的主要内容答：例如，你可以使用Python的BeautifulSoup库来解析HTML文档，提取出你需要的信息。BeautifulSoup库提供了简单且强大的API，可以轻松地从HTML文档中提取特定的标签和内容。同时，使用requests库可以方便地发送HTTP请求，获取网页内容。在编写抓取代码时，需要注意一些细节。例如，确保遵守网站的robots.txt规则，不要频繁...

手把手教你用 Python 去除图片和 PDF 水印答：代码实现如下：使用PyMuPDF库打开PDF文件，获取第一页的位图表示，遍历像素点，将水印区域像素颜色设置为白色，最后将修改后的位图保存为PNG格式图片“2.png”，输出“水印去除完成”提示信息。将去除水印后的图片“2.png”转换为PDF文件。代码如下：使用PyMuPDF的convert_to_pdf方法将PNG文件转换回PDF文件。

手把手教你使用 Python 做 LDA 主题提取和可视化答：为了进行LDA主题提取，需要准备文本数据。如果你对获取文本数据感兴趣，可以参考我的教程。准备数据后，利用Python操作，如pandas库，对文本进行清洗、分词并转换为英文格式。分词工具如jieba有助于实现这一过程。基于TF-IDF的矩阵构造后，使用sklearn库中的LDA模型进行主题抽取。代码示例清晰展示了构造TF-IDF...

实用| 手把手教你用Python分割与合并PDF答：步骤如下：导入 PdfFileReader 和 PdfFileWriter，创建函数 pdf_splitter，接收输入 PDF 路径。获取文件名并移除扩展名，打开 PDF 并创建阅读器对象。遍历所有页面，创建写入器对象，并将页面添加至其中。使用原始文件名加上 “page” 与页码，创建唯一文件名。以二进制模式打开文件，将写入对象内容存储。合...

手把手教你用Python调用彩云机器翻译API答：以TransExcel为例，该工具能批量翻译Excel文件中的文本，操作简便。最后，将翻译方向控制添加至config.txt文件，便于调整翻译语言。通过本文的介绍，你不仅学会了如何使用Python调用彩云机器翻译API，还深入了解了代码优化和批量处理的方法。实践后，相信你对机器翻译和编程有了更深入的认识。

手把手教你怎么用Python查找字符串答：在Python中，字符串的操作就像处理数组一样直观。例如，当你有一个字符串mystr，如"what is your name"，你可以使用find()方法来查找特定字符。如果要找到第一个出现的字母"a"，可以这样操作：newstr = mystr[mystr.find("a"):]。这样，newstr就会包含从第一个"a"开始后的所有字符。如果你想...

干货:手把手教你导出微信聊天记录并做出词云图答：3. 密码获取方法包括直接从手机获取IMEI码，或者通过模拟器查找UIN码。四、数据库处理与词云图生成：1. 解密后，导出数据库为CSV文件，注意处理数据字段，如msgId、type、isSend、createTime和content等。2. 使用Python进行词频统计，或者直接在Excel中筛选、复制内容到txt文件。3. 利用在线词云生成网站（...

手把手教你怎么用Python获得当前登录用户用户名答：执行netuser命令时，它会返回一系列关于当前用户的信息，包括用户名、密码过期日期等。在Python中，我们可以使用正则表达式或其他字符串处理方法来提取特定的信息。例如，可以使用正则表达式来匹配并提取用户名字段。值得注意的是，这种方法在不同的操作系统版本或用户配置中可能需要调整。此外，还可以考虑使用更...

大家正在搜

怎么样把文本文档改成PDF PDF格式的文件怎么加入文字怎么提取pdf的文本批量提取pdf的文本 python pdf转文本 PDF快速提取文字 pdf文本提取如何从pdf提取表格如何提取一个pdf中的一部分