Python使用ElementTree美化XML格式的操作
Python中使用ElementTree可以很方便的处理XML,但是产生的XML文件内容会合并在一行,难以看清楚。
如下格式:
aatext cctext bbtext ddtext eetext
使用minidom模块中的toprettyxml和writexml方法都有参数可以优化XML,但是有两个问题:
a.如果解析的XML已经是美化过的,那么执行该方法会多出很多空行
b.产生的结果会将text也独立一行,如下:
aatext bbtext
而我想产生如下结果:
aatext bbtext
于是只能自己写一个美化XML的方法。
我们首先研究一下ElementTree模块中的Element类,使用getroot方法返回的便是Element类。
该类中有四个属性tag、attrib、text与tail,对应在XML中如下图所示:
整个XML就是一个Element,里面嵌套了很多子Element。
Element可以使用for循环迭代。
通过在text和tail中增加换行和制表符,就可以实现美化XML的目的。
美化代码如下:
defprettyXml(element,indent,newline,level=0):#elemnt为传进来的Elment类,参数indent用于缩进,newline用于换行 ifelement:#判断element是否有子元素 ifelement.text==Noneorelement.text.isspace():#如果element的text没有内容 element.text=newline+indent*(level+1) else: element.text=newline+indent*(level+1)+element.text.strip()+newline+indent*(level+1) #else:#此处两行如果把注释去掉,Element的text也会另起一行 #element.text=newline+indent*(level+1)+element.text.strip()+newline+indent*level temp=list(element)#将elemnt转成list forsubelementintemp: iftemp.index(subelement)<(len(temp)-1):#如果不是list的最后一个元素,说明下一个行是同级别元素的起始,缩进应一致 subelement.tail=newline+indent*(level+1) else:#如果是list的最后一个元素,说明下一行是母元素的结束,缩进应该少一个 subelement.tail=newline+indent*level prettyXml(subelement,indent,newline,level=level+1)#对子元素进行递归操作 fromxml.etreeimportElementTree#导入ElementTree模块 tree=ElementTree.parse('test.xml')#解析test.xml这个文件,该文件内容如上文 root=tree.getroot()#得到根元素,Element类 prettyXml(root,'\t','\n')#执行美化方法 ElementTree.dump(root)#显示出美化后的XML内容
输出结果如下:
aatext cctext bbtext ddtext eetext
残留问题点:
windows下的换行符是"\r\n",只需将prettyXml方法的第三个参数改为"\r\n",使用记事本打开生成的XML大部分OK。
但是XML说明与根元素开始符之间不知如何插入"\r\n".
补充知识:python-xml模块-代码生成xml文档
一、XML模块
什么是xml:可扩展的标记语言,标记翻译为标签,用标签来组织数据的语言,也是一种语言可以用来自定义文档结构。相比json使用场景更加广泛,但是语法格式相比json复杂很多
什么时候使用json:前后台交互数据时使用json
什么时候使用xml:当需要自定义文档结构时使用xml,比如java中经常用xml来作为配置文件,常见操作就是通过程序去读取配置信息,而修改增加删除,一般是交给用户来手动完成
标签的叫发:node(节点)、elment(元素)、tag(标签)
需求从conuntrys中获取所有的国家名称
==========================>countrys#取别名可以用于简化书写 importxml.etree.ElementTreeasET tree=ET.parse('countrys') #获取根标签#第一种获取标签的方式 #全文查找 iter() #获取迭代器如果不指定参数则迭代器迭代的是所有标签 print(root.iter()) #获取迭代器如果指定参数则迭代器迭代的是所有名称匹配的标签 foreinroot.iter("rank"): print(e) #第二种获取标签的方式 #在当前标签下(所有子级标签)寻找第一个名称匹配的标签 print(root.find("rank"))#第一个名称不匹配所以返回None#第三种获取标签的方式 #在当前标签下(所有子级标签)寻找所有名称匹配的标签 print(root.findall("rank"))#[] 2 2009 141100 5 2012 59900 69 2012 13600
练习:找到新加坡中year这个标签
#print(e.tag)#标签名称 #print(e.attrib)#属性字典类型 #print(e.text)#文本内容importxml.etree.ElementTreeasETtree=ET.parse("countrys") #获取根标签 root=tree.getroot() foreinroot.iter("country"): ife.attrib["name"]=="Singapore": y=e.find("year") print(y.text)#2012
在程序中修改文档内容:把所有year标签的文本加1
importxml.etree.ElementTreeasETtree=ET.parse("countrys") root=tree.getroot() foreinroot.iter("year"): e.text=str(int(e.text)+1) #做完修改后要将修改后的内容写入文件 tree.write('countrys')
把新加坡国家删除:
importxml.etree.ElementTreeasETtree=ET.parse("countrys") root=tree.getroot()foreinroot.findall("country"): print(e) ife.attrib["name"]=="Singapore": #删除时要通过被删除的父级标签来删除 root.remove(e)tree.write('countrys')
用程序将中国信息写入文档中:
importxml.etree.ElementTreeasETtree=ET.parse("countrys") root=tree.getroot() #添加时也需要将要添加的数据做成一个Element c=ET.Element("country",{"name":"china"})#在国家下有一堆子标签 ranke=ET.Element("ranke",{"updated":"yes"}) c.append(ranke)year=ET.Element("year") year.text="2018" c.append(year)#添加到root标签中 root.append(c) tree.write("countrys")
总结:一般不会通过程序去修改删除和添加
什么时候应该使用XML格式:
当你需要自定文档结构时(XML最强大的地方就是结构)
前后台交互不应该使用,前后台交互应该使用JSON格式
代码生成XML文档
importxml.etree.ElementTreeasET#创建根标签 root=ET.Element("root") root.text="这是一个XML文档!"c=ET.Element("country",{"name":"china"}) root.append(c)tree=ET.ElementTree(root) #参数:文件名称编码方式是否需要文档声明 tree.write("new.xml",encoding="utf-8",xml_declaration=True)=========================>new.xml内容为这是一个XML文档!
以上这篇Python使用ElementTree美化XML格式的操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。