如何编写一个程序从xml文件里面提取一些关键的节点数据组成新的xml文件，最好是用python编写

如何编写一个程序从xml文件里面提取一些关键的节点数据组成新的xml文件，最好是用python编写的。

推荐答案 2014-04-09

给你一段代码，供参考：

from sgmllib import SGMLParser
import htmlentitydefs

class BaseHTMLProcessor(SGMLParser):
def reset(self):
# extend (called by SGMLParser.__init__)
self.pieces = []
SGMLParser.reset(self)

def unknown_starttag(self, tag, attrs):
# called for each start tag
# attrs is a list of (attr, value) tuples
# e.g. for <pre class="screen">, tag="pre", attrs=[("class", "screen")]
# Ideally we would like to reconstruct original tag and attributes, but
# we may end up quoting attribute values that weren't quoted in the source
# document, or we may change the type of quotes around the attribute value
# (single to double quotes).
# Note that improperly embedded non-HTML code (like client-side Javascript)
# may be parsed incorrectly by the ancestor, causing runtime script errors.
# All non-HTML code must be enclosed in HTML comment tags ()
# to ensure that it will pass through this parser unaltered (in handle_comment).
strattrs = "".join([' %s="%s"' % (key, value) for key, value in attrs])
self.pieces.append("<%(tag)s%(strattrs)s>" % locals())

def unknown_endtag(self, tag):
# called for each end tag, e.g. for </pre>, tag will be "pre"
# Reconstruct the original end tag.
self.pieces.append("</%(tag)s>" % locals())

def handle_charref(self, ref):
# called for each character reference, e.g. for " ", ref will be "160"
# Reconstruct the original character reference.
self.pieces.append("&#%(ref)s;" % locals())

def handle_entityref(self, ref):
# called for each entity reference, e.g. for "©", ref will be "copy"
# Reconstruct the original entity reference.
self.pieces.append("&%(ref)s" % locals())
# standard HTML entities are closed with a semicolon; other entities are not
if htmlentitydefs.entitydefs.has_key(ref):
self.pieces.append(";")

def handle_data(self, text):
# called for each block of plain text, i.e. outside of any tag and
# not containing any character or entity references
# Store the original text verbatim.
self.pieces.append(text)

def handle_comment(self, text):
# called for each HTML comment, e.g. 
# Reconstruct the original comment.
# It is especially important that the source document enclose client-side
# code (like Javascript) within comments so it can pass through this
# processor undisturbed; see comments in unknown_starttag for details.
self.pieces.append("" % locals())

def handle_pi(self, text):
# called for each processing instruction, e.g. <?instruction>
# Reconstruct original processing instruction.
self.pieces.append("<?%(text)s>" % locals())

def handle_decl(self, text):
# called for the DOCTYPE, if present, e.g.
# <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
# "http://www.w3.org/TR/html4/loose.dtd">
# Reconstruct original DOCTYPE
self.pieces.append("<!%(text)s>" % locals())

def output(self):
"""Return processed HTML as a single string"""
return "".join(self.pieces)

if __name__ == "__main__":
for k, v in globals().items():
print k, "=", v

追问

您好，上午上课去了，很感谢你。但是还是不太懂。请问你可以告诉我qq，我晚上回去再找你交流一下吗？麻烦了。

你好，请问要是我用ElementTree XML的借口编写，如何实现删除，修改，创建这些功能！

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WjvzjXBXttvzXjWOXtX.html

相似回答

shell脚本读取xml文件,输出指定截取字段!!!答：sed -n '/task id/{s/"//g;s/^ *//;p}' test.xml | awk -F"[= ]" '{print $3","$5}'

什么是IMAP答：IMAP最强大的功能是各处同步，即在网页、客户端、手持设备上对邮箱的操作，均多向同步。如果一封在网页中打开过的新邮件，在iPad上登录邮箱后，该邮件也是已读状态；一封邮件在iPhone上被彻底删除，在Foxmail登录邮箱后，将找不到该邮件。IMAP的另一个特点就是快速，可以通过客户端直接对服务器上的邮件进...

XML文本应该怎么编辑和阅读?答：步骤：一、找到想要打开的XML文件。XML文件被编码成纯文本，因此，可以在任何文本编辑器中打开它们，并能在上面清楚地阅读文件内容。二、右键点击XML文件，选择 “打开方式”。这会显示出一个程序列表，可以从中选择一个程序来打开文件。三、选择“记事本”（Windows系统）或“文字编辑器”（Mac电脑）。...

怎么用C语言写一个简单的XML文件答：用VC吧，下面有一个例子，你参照下：void CreateXml(){ CoInitialize(NULL); // 创建文档 MSXML2::IXMLDOMDocument2Ptr pXMLDoc = NULL; //创建DOMDocument对象 HRESULT hr = pXMLDoc.CreateInstance(__uuidof(MSXML2::DOMDocument)); if (!SUCCEEDED(hr)) { return; ...

docker如何进行django开发?答：一个Dockerfile 源码是下面的代码：pom.xml pom.xml包含一些基本的Maven配置，比如配置Spark所依赖的Java8。它会把所有的依赖封装成一个大的jar包。Hello.java pom.xml文件定义mainClass为sparkexample.Hello，需要在src/main/java/sparkexample/目录下创建Hello.java文件。Dockerfile 最后我们来编写Docker...

C#中能否用XmlWriter修改一个已经存在的xml文件?(添加一个特定节点)答：xmldoc.Save(Server.MapPath(file));Response.Write("写入XML文件adfile.xml成功。" + "<br>");} catch(Exception ex){ Response.Write(ex.Message);} } /// <summary> /// 创建一个XmlNode /// </summary> /// <param name="xmldoc"></param> /// <param name="parentnode"></...

急急急!!跪求!跪求!!用c++分割xml文件答：我帮你写成这样了：命令使用为 main.exe 要分解的文件名分解标签名分解标签属性名例如：main.exe in.xml store id <store id=002> 代码如下（你可以根据你自己的需要再修改一下）：include <iostream> include <fstream> include <string> using namespace std;int main(int argc,char *argv[...

django不用虚拟环境如何开发(2023年最新分享)答：首先设置好参数在seetings.py文件里如图修改 views.py 最后在templates文件夹下创建一个html文件简单地写一下前端我这里直接贴自己写的login.html code部分算是完成看一下效果还可以进入fiddler查看验证，为了比较好查到我们先打开fiddler后输入用户名密码后fiddler上removeallsession 可以得到这么一条数据包...

一个完整的javaweb项目?答：JDBC(JavaDatabaseConnectivity)是一种用于执行?SQL语句的JavaAPI。它由一组用Java编程语言编写的类和接口组成。JDBC为工具/数据库开发人员提供了一个标准的API,使他们能够用纯JavaAPI来编写数据库应用程序。简单地说,JDBC可做三件事: l与数据库建立连接, l发送?SQL语句, l处理结果。 (2)、Servlet技术 Servlet...