Python实现XML文件解析的示例代码
1.XML简介
XML(eXtensibleMarkupLanguage)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。
test.XML文件
4 Python 测试 Zope
XML详细介绍可以参考:http://www.w3school.com.cn/xmldom/dom_nodetype.asp
2.XML文件解析
python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3CDOMAPI的实现,若需要处理DOMAPI则该模块很适合;二是xml.sax.*模块,它是SAXAPI的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称ET),它提供了轻量级的Python式的API,相对于DOM来说ET快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了“在空中”的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。
2.1xml.dom.*
文件对象模型(DocumentObjectModel,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个DOM的解析器在解析一个XML文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。
a.获得子标签
b.区分相同标签名的标签
c.获取标签属性值
d.获取标签对之间的数据
#coding=utf-8 #通过minidom解析xml文件 importxml.dom.minidomasxmldom importos ''' XML文件读取''' xmlfilepath=os.path.abspath("test.xml") print("xml文件路径:",xmlfilepath) #得到文档对象 domobj=xmldom.parse(xmlfilepath) print("xmldom.parse:",type(domobj)) #得到元素对象 elementobj=domobj.documentElement print("domobj.documentElement:",type(elementobj)) #获得子标签 subElementObj=elementobj.getElementsByTagName("login") print("getElementsByTagName:",type(subElementObj)) print(len(subElementObj)) #获得标签属性值 print(subElementObj[0].getAttribute("username")) print(subElementObj[0].getAttribute("passwd")) #区分相同标签名的标签 subElementObj1=elementobj.getElementsByTagName("caption") foriinrange(len(subElementObj1)): print("subElementObj1[i]:",type(subElementObj1[i])) print(subElementObj1[i].firstChild.data)#显示标签对之间的数据 4 dasdas Python 测试 Zope
输出结果:
>>>D:\Pystu>pythonxml_instance.py
>>>xml文件路径:D:\Pystu\test.xml
>>>xmldom.parse:
>>>domobj.documentElement:
>>>getElementsByTagName:
>>>username:pytest
>>>passwd:123456
>>>subElementObj1[i]:
>>>Python
>>>subElementObj1[i]:
>>>测试
>>>subElementObj1[i]:
>>>Zope
2.2xml.etree.ElementTree
ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。
a.遍历根节点的下一层
b.下标访问各个标签、属性、文本
c.查找root下的指定标签
d.遍历XML文件
e.修改XML文件
#coding=utf-8 #通过解析xml文件 ''' try: importxml.etree.CElementTreeasET except: importxml.etree.ElementTreeasET 从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度 ''' importxml.etree.ElementTreeasET importos importsys ''' XML文件读取''' #遍历xml文件 deftraverseXml(element): #print(len(element)) iflen(element)>0: forchildinelement: print(child.tag,"----",child.attrib) traverseXml(child) #else: #print(element.tag,"----",element.attrib) if__name__=="__main__": xmlFilePath=os.path.abspath("test.xml") print(xmlFilePath) try: tree=ET.parse(xmlFilePath) print("treetype:",type(tree)) #获得根节点 root=tree.getroot() exceptExceptionase:#捕获除与程序退出sys.exit()相关之外的所有异常 print("parsetest.xmlfail!") sys.exit() print("roottype:",type(root)) print(root.tag,"----",root.attrib) #遍历root的下一层 forchildinroot: print("遍历root的下一层",child.tag,"----",child.attrib) #使用下标访问 print(root[0].text) print(root[1][1][0].text) print(20*"*") #遍历xml文件 traverseXml(root) print(20*"*") #根据标签名查找root下的所有标签 captionList=root.findall("item")#在当前指定目录下遍历 print(len(captionList)) forcaptionincaptionList: print(caption.tag,"----",caption.attrib,"----",caption.text) #修改xml文件,将passwd修改为999999 login=root.find("login") passwdValue=login.get("passwd") print("notmodifypasswd:",passwdValue) login.set("passwd","999999")#修改,若修改text则表示为login.text print("modifypasswd:",login.get("passwd")) 4 dasdas Python 测试 Zope
输出结果:
>>>D:\Pystu\test.xml
>>>treetype:
>>>roottype:
>>>catalog----{}
>>>遍历root的下一层maxid----{}
>>>遍历root的下一层login----{'username':'pytest','passwd':'123456'}
>>>遍历root的下一层item----{'id':'2'}
>>>4
>>>测试
>>>********************
>>>maxid----{}
>>>login----{'username':'pytest','passwd':'123456'}
>>>caption----{}
>>>item----{'id':'4'}
>>>caption----{}
>>>item----{'id':'2'}
>>>caption----{}
>>>********************
>>>1
>>>item----{'id':'2'}----
>>>notmodifypasswd:123456
>>>modifypasswd:999999
附:
#coding=utf-8 ''' XML解析类 @功能-结点的增删改查 ''' importxml.etree.ElementTreeasET importsys importos.path classXmlParse: def__init__(self,file_path): self.tree=None self.root=None self.xml_file_path=file_path defReadXml(self): try: print("xmlfile:",self.xml_file_path) self.tree=ET.parse(self.xml_file_path) self.root=self.tree.getroot() exceptExceptionase: print("parsexmlfaild!") sys.exit() else: print("parsexmlsuccess!") finally: returnself.tree defCreateNode(self,tag,attrib,text): element=ET.Element(tag,attrib) element.text=text print("tag:%s;attrib:%s;text:%s"%(tag,attrib,text)) returnelement defAddNode(self,Parent,tag,attrib,text): element=self.CreateNode(tag,attrib,text) ifParent: Parent.append(element) el=self.root.find("lizhi") print(el.tag,"----",el.attrib,"----",el.text) else: print("parentisnone") defWriteXml(self,destfile): dest_xml_file=os.path.abspath(destfile) self.tree.write(dest_xml_file,encoding="utf-8",xml_declaration=True) if__name__=="__main__": xml_file=os.path.abspath("test.xml") parse=XmlParse(xml_file) tree=parse.ReadXml() root=tree.getroot() print(root) parse.AddNode(root,"Python",{"age":"22","hello":"world"},"YES") parse.WriteXml("testtest.xml")
2.3xml.sax.*
SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。
解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件
事件处理器则负责对事件作出相应,对传递的XML数据进行处理
常用场景:
(1)对大型文件进行处理
(2)只需文件的部分内容,或只需从文件中得到特定信息
(3)想建立自己的对象模型
基于事件驱动的SAX解析XML内容的知识后续补充!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。