Python实现XML文件解析的示例代码

2023-09-16 19:37:05 57

1.XML简介

XML（eXtensibleMarkupLanguage）指可扩展标记语言，被设计用来传输和存储数据，已经日趋成为当前许多新生技术的核心，在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物，既具有SGML的核心特征，又有着HTML的简单特性，还具有明确和结构良好等许多新的特性。

test.XML文件



4

Python

测试



Zope

XML详细介绍可以参考：http://www.w3school.com.cn/xmldom/dom_nodetype.asp

2.XML文件解析

python解析XML常见的有三种方法：一是xml.dom.*模块，它是W3CDOMAPI的实现，若需要处理DOMAPI则该模块很适合；二是xml.sax.*模块，它是SAXAPI的实现，这个模块牺牲了便捷性来换取速度和内存占用，SAX是一个基于事件的API，这就意味着它可以“在空中”处理庞大数量的的文档，不用完全加载进内存；三是xml.etree.ElementTree模块（简称ET），它提供了轻量级的Python式的API，相对于DOM来说ET快了很多，而且有很多令人愉悦的API可以使用，相对于SAX来说ET的ET.iterparse也提供了“在空中”的处理方式，没有必要加载整个文档到内存，ET的性能的平均值和SAX差不多，但是API的效率更高一点而且使用起来很方便。

2.1xml.dom.*

文件对象模型（DocumentObjectModel，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个DOM的解析器在解析一个XML文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。

a.获得子标签

b.区分相同标签名的标签

c.获取标签属性值

d.获取标签对之间的数据

#coding=utf-8

#通过minidom解析xml文件
importxml.dom.minidomasxmldom
importos
'''
XML文件读取


4
dasdas
Python

测试



Zope



'''

xmlfilepath=os.path.abspath("test.xml")
print("xml文件路径：",xmlfilepath)

#得到文档对象
domobj=xmldom.parse(xmlfilepath)
print("xmldom.parse:",type(domobj))
#得到元素对象
elementobj=domobj.documentElement
print("domobj.documentElement:",type(elementobj))

#获得子标签
subElementObj=elementobj.getElementsByTagName("login")
print("getElementsByTagName:",type(subElementObj))

print(len(subElementObj))
#获得标签属性值
print(subElementObj[0].getAttribute("username"))
print(subElementObj[0].getAttribute("passwd"))

#区分相同标签名的标签
subElementObj1=elementobj.getElementsByTagName("caption")
foriinrange(len(subElementObj1)):
print("subElementObj1[i]:",type(subElementObj1[i]))
print(subElementObj1[i].firstChild.data)#显示标签对之间的数据

输出结果：

>>>D:\Pystu>pythonxml_instance.py
>>>xml文件路径：D:\Pystu\test.xml
>>>xmldom.parse:
>>>domobj.documentElement:
>>>getElementsByTagName:
>>>username:pytest
>>>passwd:123456
>>>subElementObj1[i]:
>>>Python
>>>subElementObj1[i]:
>>>测试
>>>subElementObj1[i]:
>>>Zope

2.2xml.etree.ElementTree

ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。

a.遍历根节点的下一层

b.下标访问各个标签、属性、文本

c.查找root下的指定标签

d.遍历XML文件

e.修改XML文件

#coding=utf-8

#通过解析xml文件
'''
try:
importxml.etree.CElementTreeasET
except:
importxml.etree.ElementTreeasET

从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度
'''
importxml.etree.ElementTreeasET
importos
importsys
'''
XML文件读取


4
dasdas
Python

测试



Zope


'''

#遍历xml文件
deftraverseXml(element):
#print(len(element))
iflen(element)>0:
forchildinelement:
print(child.tag,"----",child.attrib)
traverseXml(child)
#else:
#print(element.tag,"----",element.attrib)


if__name__=="__main__":
xmlFilePath=os.path.abspath("test.xml")
print(xmlFilePath)
try:
tree=ET.parse(xmlFilePath)
print("treetype:",type(tree))

#获得根节点
root=tree.getroot()
exceptExceptionase:#捕获除与程序退出sys.exit()相关之外的所有异常
print("parsetest.xmlfail!")
sys.exit()
print("roottype:",type(root))
print(root.tag,"----",root.attrib)

#遍历root的下一层
forchildinroot:
print("遍历root的下一层",child.tag,"----",child.attrib)

#使用下标访问
print(root[0].text)
print(root[1][1][0].text)

print(20*"*")
#遍历xml文件
traverseXml(root)
print(20*"*")

#根据标签名查找root下的所有标签
captionList=root.findall("item")#在当前指定目录下遍历
print(len(captionList))
forcaptionincaptionList:
print(caption.tag,"----",caption.attrib,"----",caption.text)

#修改xml文件，将passwd修改为999999
login=root.find("login")
passwdValue=login.get("passwd")
print("notmodifypasswd:",passwdValue)
login.set("passwd","999999")#修改，若修改text则表示为login.text
print("modifypasswd:",login.get("passwd"))

输出结果：

>>>D:\Pystu\test.xml
>>>treetype:
>>>roottype:
>>>catalog----{}
>>>遍历root的下一层maxid----{}
>>>遍历root的下一层login----{'username':'pytest','passwd':'123456'}
>>>遍历root的下一层item----{'id':'2'}
>>>4
>>>测试
>>>********************
>>>maxid----{}
>>>login----{'username':'pytest','passwd':'123456'}
>>>caption----{}
>>>item----{'id':'4'}
>>>caption----{}
>>>item----{'id':'2'}
>>>caption----{}
>>>********************
>>>1
>>>item----{'id':'2'}----
>>>notmodifypasswd:123456
>>>modifypasswd:999999

附：

#coding=utf-8

'''
XML解析类
@功能-结点的增删改查
'''
importxml.etree.ElementTreeasET
importsys
importos.path

classXmlParse:
def__init__(self,file_path):
self.tree=None
self.root=None
self.xml_file_path=file_path

defReadXml(self):
try:
print("xmlfile:",self.xml_file_path)
self.tree=ET.parse(self.xml_file_path)
self.root=self.tree.getroot()
exceptExceptionase:
print("parsexmlfaild!")
sys.exit()
else:
print("parsexmlsuccess!")
finally:
returnself.tree

defCreateNode(self,tag,attrib,text):
element=ET.Element(tag,attrib)
element.text=text
print("tag:%s;attrib:%s;text:%s"%(tag,attrib,text))
returnelement

defAddNode(self,Parent,tag,attrib,text):
element=self.CreateNode(tag,attrib,text)
ifParent:
Parent.append(element)
el=self.root.find("lizhi")
print(el.tag,"----",el.attrib,"----",el.text)
else:
print("parentisnone")

defWriteXml(self,destfile):
dest_xml_file=os.path.abspath(destfile)
self.tree.write(dest_xml_file,encoding="utf-8",xml_declaration=True)


if__name__=="__main__":
xml_file=os.path.abspath("test.xml")
parse=XmlParse(xml_file)
tree=parse.ReadXml()
root=tree.getroot()
print(root)
parse.AddNode(root,"Python",{"age":"22","hello":"world"},"YES")

parse.WriteXml("testtest.xml")

2.3xml.sax.*

SAX是一种基于事件驱动的API，利用SAX解析XML牵涉到两个部分：解析器和事件处理器。

解析器负责读取XML文档，并向事件处理器发送事件，如元素开始跟元素结束事件

事件处理器则负责对事件作出相应，对传递的XML数据进行处理

常用场景：

（1）对大型文件进行处理

（2）只需文件的部分内容，或只需从文件中得到特定信息

（3）想建立自己的对象模型

基于事件驱动的SAX解析XML内容的知识后续补充！

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

Python实现XML文件解析的示例代码

热门推荐

随机推荐