Python 网页解析HTMLParse的实例详解
Python网页解析HTMLParse的实例详解
使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:
现在一个模拟的html文件:
我是标题我是内容
需求是,提取出标题的属性值,以及内容:
代码如下:
importhtml.parserash classMyHTMLParser(h.HTMLParser): a_t=False defhandle_starttag(self,tag,attrs): #print("开始一个标签:",tag) print() ifstr(tag).startswith("title"): print(tag) self.a_t=True forattrinattrs: print("属性值:",attr) defhandle_endtag(self,tag): iftag=="title": self.a_t=False #print("结束一个标签:",tag) defhandle_data(self,data): ifself.a_tisTrue: print("得到的数据:",data) p=MyHTMLParser() p.feed("我是标题我是内容") p.close()
运行结果如下:
title 属性值:('id','main') 属性值:('mouse','你好') 得到的数据:我是标题
主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。
解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。
以上就是Python网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。