详解用Python处理HTML转义字符的5种方式
写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有JSON格式,有XML文档,不过大部分还是HTML文档,HTML经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。
什么是转义字符
在HTML中<、>、&等字符有特殊含义(<,>用于标签中,&用于转义),他们不能在HTML代码中直接使用,如果要在网页中显示这些符号,就需要使用HTML的转义字符串(EscapeSequence),例如<的转义字符是<,浏览器渲染HTML页面时,会自动把转移字符串换成真实字符。
转义字符(EscapeSequence)由三部分组成:第一部分是一个&符号,第二部分是实体(Entity)名字,第三部分是一个分号。比如,要显示小于号(<),就可以写<。
显示字符
说明
转义字符
<
小于
<
空格
<
小于
<
>
大于
>
&
&符号
&
"
双引号
"
©
版权
©
®
已注册商标
®
Python反转义字符串
用Python来处理转义字符串有多种方式,而且py2和py3中处理方式不一样,在python2中,反转义串的模块是HTMLParser。
#python2 importHTMLParser >>>HTMLParser().unescape('a=1&b=2') 'a=1&b=2'
Python3HTMLParser模块迁移到了html.parser
#python3 >>>fromhtml.parserimportHTMLParser >>>HTMLParser().unescape('a=1&b=2') 'a=1&b=2'
到python3.4以后的版本,在html模块新增了unescape方法。
#python3.4 >>>importhtml >>>html.unescape('a=1&b=2') 'a=1&b=2'
推荐最后一种写法,因为HTMLParser.unescape方法在Python3.4就已经被废弃掉不推荐使用了,意味着之后的版本会被彻底移除。
另外,sax模块也有支持反转义的函数
>>>fromxml.sax.saxutilsimportunescape >>>unescape('a=1&b=2') 'a=1&b=2'
当然,你完全可以实现自己的反转义功能,也不复杂,当然,我们崇尚不重复造轮子。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。