如何在 Linux 上使用 Python 读取 word 文件信息

如题所述

举报该问题

推荐答案 2017-11-06

第一步：获取doc文件的xml组成文件

import zipfiledef get_word_xml(docx_filename):
with open(docx_filename) as f:
zip = zipfile.ZipFile(f)
xml_content = zip.read('word/document.xml')
return xml_content

第二步：解析xml为树形数据结构
from lxml import etreedef get_xml_tree(xml_string):
return etree.fromstring(xml_string)

第三步：读取word内容：
def _itertext(self, my_etree):
"""Iterator to go through xml tree's text nodes"""
for node in my_etree.iter(tag=etree.Element):
if self._check_element_is(node, 't'):
yield (node, node.text)def _check_element_is(self, element, type_char):
word_schema = '99999'
return element.tag == '{%s}%s' % (word_schema,type_char)

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WOtWOWvjtvzOzztWv7X.html

相似回答

如何在 Linux 上使用 Python 读取 word 文件信息答：如果你已知道linux上的uname命令，那么你就会认出来这个函数就是这个命令的一个接口。在Python 2上，它会返回一个包含系统类型(或者内核版本)，主机名，版本，发布版本，机器的硬件以及处理器信息元组(tuple)。你可以使用下标访问个别属性，像这样：>>> platform.uname()[0]'Linux'在Python 3上，这个函...

如何在 Linux 上使用 Python 读取 word 文件信息答：首先下载安装win32com from win32com import client as wc word = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')doc.SaveAs('c:/test.text', 2)doc.Close()word.Quit()这种方式产生的text文档，不能用python用普通的r方式读取，为了让python可以用r方式读取，应当写成...

如何在 Linux 上使用 Python 读取 word 文件信息答：你需要调动一套能够真的把Word文件的内容渲染出来的工具（支持二次开发的）。只有把Word文件的所有内容渲染成为可以观看的图形，才能准确得知页面的总数。在Linux上很可能LibreOffice可以吧。而在Windows上就当然是用Word本身了。注意Word的分页结论是没有保证的。缺少字体、字形不同、软件环境不同等各种原因，...

如何通过python读取word表格信息答：首先，确保安装了docx包。安装过程简单快捷，一旦完成，我们即可着手读取Word文件。基本的读取流程如下：在这里，tables是一个包含文档中所有表格的列表，第9个表格即表2.6。我们可以通过上述代码轻松访问并解析所需的数据。成功读取表格后，下一步是遍历每列、每行，抽取关键参数。这些参数随后可以被写入...

python如何读取word文件中的文本内容并写入到新的txt文件?答：打开 word文件 f = open('随便写写行.docx', 'rb')读取 word文件内容 document = Document(f)打印 word 文档段落内容2进制列表 print(document.paragraphs)打开一个txt文档用来写入数据 with open('result2.txt', 'w') as fw:遍历 word 段落内容列表 for context in document.paragraphs:以换行...

如何使用python读取word的表格并输出为字典?答：直接读取value写入csv文件，import csv f = open('file.csv','a',newline='')w = writer(f)w.writerow(dict(key))打开csv文件另存为excel.如果是很多个字典组成的列表，形式像[{a:1,b:2,c:3},……{a:4,b:5,c:6}],就可以用pandas来进行处理，存储为excel, 表头为a,b,c dict_l...

用python搜索文件名并在其内容中查找指定字符串,txt,word,PPT,Excel,pd...答：首先，为文本文件创建一个专门的查找函数，确保可以精确搜索其内容。接着，我们对Word文档（docx格式）也编写一个查找函数，然后是PPT（pptx）、PDF和Excel（xls）文件。每个函数都是为了针对特定类型的文件进行高效搜索而设计的。在测试阶段，我们使用了一个包含文本文件、Word、PPT、PDF和Excel文件的目录，...

python3读取word文件到sqlite答：大象关进冰箱需要两步走：获取word文件内容将获取的内容拆分为对应的业务字段并写入sqlite中首先我这有个文档，里面包含了驾照考试科四试题。然后新建sqlite表，以下为表结构：CREATE TABLE "myDocAnswer" ("id" INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL,"title" TEXT,"a" TEXT,"b" TEXT,"...

如何用Python找两个word文档的相同内容?答：1、读取：使用Python的python-docx库，可以非常方便的读取Word的内容，具体可以参见官方文档，网上也有很多不错的文章请自行查询参考。2、原文拆分：对比的基本思想是按小句进行比较，所以拆分以是标点进行拆分。拆分完成以后，可以有很多的小段。3、循环对比输出：第三步就是根据段落，两两进行对比，遇到...

大家正在搜

python读取word文档 ppt无法读取word文件怎么办 python打开word文件 python处理word文件 word文档读取失败 word文档无法读取内容 word文档提示文件损坏 java读取word文档 c读取word文档表格

如何在 Linux 上使用 Python 读取 word 文...

如何在 Linux 上使用 Python 读取 word 文...

如何在 Linux 上使用 Python 读取 word 文...

python如何读取word文件

如何在 Linux 上使用 Python 读取 word 文...

python如何读取word文件中的文本内容并写入到新的tx...

python如何读取word文件中的文本内容并写入到新的tx...

python读取word文档内容