Python实现抓取网页并且解析的实例
本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。
主要功能代码如下:
#!/usr/bin/python #coding=utf-8 importsys importre importurllib2 fromurllibimporturlencode fromurllibimportquote importtime maxline=2000 wenda=re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"") baidu=re.compile("<ahref=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>") f1=open("baidupage.txt","w") f2=open("wendapage.txt","w") forlineinsys.stdin: ifmaxline==0: break query=line.strip(); time.sleep(1); recall_url="http://www.so.com/s?&q="+query; response=urllib2.urlopen(recall_url); html=response.read(); f1.write(html) m=wenda.search(html); ifm: ifm.group(1)=="110": printquery+"\twenda\t0"; else: printquery+"\twenda\t1"; else: printquery+"\twenda\t0"; recall_url="http://www.baidu.com/s?wd="+query+"&ie=utf-8"; response=urllib2.urlopen(recall_url); html=response.read(); f2.write(html) m=baidu.search(html); ifm: printquery+"\tbaidu\t1"; else: printquery+"\tbaidu\t0"; maxline=maxline-1; f1.close() f2.close()
希望本文所述对大家Python程序设计的学习有所帮助。