好资源导航 » 文章资讯 » 详解用Python处理HTML转义字符的5种方式

详解用Python处理HTML转义字符的5种方式

2023-09-18 18:31:06 52

写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有JSON格式，有XML文档，不过大部分还是HTML文档，HTML经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。

什么是转义字符

在HTML中<、>、&等字符有特殊含义（<，>用于标签中，&用于转义），他们不能在HTML代码中直接使用，如果要在网页中显示这些符号，就需要使用HTML的转义字符串（EscapeSequence），例如<的转义字符是<，浏览器渲染HTML页面时，会自动把转移字符串换成真实字符。

转义字符（EscapeSequence）由三部分组成：第一部分是一个&符号，第二部分是实体（Entity）名字，第三部分是一个分号。比如，要显示小于号（<），就可以写<。

显示字符说明转义字符 < 小于 < 空格 < 小于 < > 大于 > & &符号 & " 双引号 " © 版权 © ® 已注册商标 ®

Python反转义字符串

用Python来处理转义字符串有多种方式，而且py2和py3中处理方式不一样，在python2中，反转义串的模块是HTMLParser。

#python2
importHTMLParser
>>>HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

Python3HTMLParser模块迁移到了html.parser

#python3
>>>fromhtml.parserimportHTMLParser
>>>HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

到python3.4以后的版本，在html模块新增了unescape方法。

#python3.4
>>>importhtml
>>>html.unescape('a=1&b=2')
'a=1&b=2'

推荐最后一种写法，因为HTMLParser.unescape方法在Python3.4就已经被废弃掉不推荐使用了，意味着之后的版本会被彻底移除。

另外，sax模块也有支持反转义的函数

>>>fromxml.sax.saxutilsimportunescape
>>>unescape('a=1&b=2')
'a=1&b=2'

当然，你完全可以实现自己的反转义功能，也不复杂，当然，我们崇尚不重复造轮子。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
514930285
czq8825@qq.com

详解用Python处理HTML转义字符的5种方式

热门推荐

随机推荐