好资源导航 » 文章资讯 » Python 网页解析HTMLParse的实例详解

Python 网页解析HTMLParse的实例详解

2023-09-26 18:39:27 56

Python网页解析HTMLParse的实例详解

使用python将网页抓取下来之后，下一步我们就应该解析网页，提取我们所需要的内容了，在python里提供了一个简单的解析模块HTMLParser类，使用起来也是比较简单的，解析语法没有用到XPath类似的简洁模式，但新手用起来还是比较容易的，看下面的例子：

现在一个模拟的html文件：

我是标题我是内容

需求是，提取出标题的属性值，以及内容：

代码如下：

importhtml.parserash



classMyHTMLParser(h.HTMLParser):
a_t=False
defhandle_starttag(self,tag,attrs):
#print("开始一个标签:",tag)
print()
ifstr(tag).startswith("title"):
print(tag)
self.a_t=True
forattrinattrs:
print("属性值：",attr)

defhandle_endtag(self,tag):
iftag=="title":
self.a_t=False
#print("结束一个标签:",tag)

defhandle_data(self,data):
ifself.a_tisTrue:
print("得到的数据:",data)



p=MyHTMLParser()

p.feed("我是标题我是内容")

p.close()

运行结果如下：

title
属性值：('id','main')
属性值：('mouse','你好')
得到的数据:我是标题

主要的技术就是继承了HTMLParser类，然后重写了里面的一些方法，来完成自己的业务，从上面的代码里，发现如果想获取某个标签的内容，还是比较麻烦的，当然这是python里面最简单的html解析方式，还有很多其他组件，scrapy等等，里面支持Xpath路径解析，使用起来非常简洁清爽。

解析代码学会之后，我们就可以将使用urllib包，抓取到的数据交给htmlparser解析，从而提取出我们所需要的内容。

以上就是Python网页解析HTMLParse的实例详解，如有疑问请留言或者到本站社区交流讨论，感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
514930285
czq8825@qq.com

Python 网页解析HTMLParse的实例详解

热门推荐

随机推荐