Python实现的爬取百度贴吧图片功能完整示例
本文实例讲述了Python实现的爬取百度贴吧图片功能。分享给大家供大家参考,具体如下:
#coding:utf-8 importrequests importurllib2 importurllib ``` fromlxmlimportetree classTieba: def__init__(self): self.tiebaName=raw_input("请输入需要爬取的贴吧:") self.beginPage=int(raw_input("请输入爬取的起始页:")) self.endPage=int(raw_input("请输入爬取的结束页:")) self.baseURL="http://tieba.baidu.com" #self.headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/59.0.3071.86Safari/537.36"} self.headers={"User-Agent":"Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1Trident/5.0;"}defstartWork(self): """ 发送贴吧每一页的url请求 """ forpageinrange(self.beginPage,self.endPage+1): pn=(page-1)*50 keyword={"kw":self.tiebaName,"pn":pn} kw=urllib.urlencode(keyword) url=self.baseURL+"/f?"+kw #printurl html=self.loadRequest(url) self.loadPage(html) defloadRequest(self,url): """ 发送请求,返回响应 url:发送请求的url地址 """ request=urllib2.Request(url,headers=self.headers) #request=urllib2.Request(url) response=urllib2.urlopen(request) returnresponse.read() defloadPage(self,html): """ 提取每个帖子的url,并发送请求,获取响应 html:贴吧每一页的html """ content=etree.HTML(html) print'------' printcontent #xpath返回的所有匹配成功后的结果的列表 #pagelink_list=content.xpath("//div[@class='threadlist_lzclearfix']/div/a[@class='j_th_tit']/@href") pagelink_list=content.xpath("//div[@class='col2_rightj_threadlist_li_right']//div/a/@href") pagelink_list=content.xpath("//div[@class='t_concleafix']//div/a/@href") forlinkinpagelink_list: printlink self.loadImage(self.loadRequest(self.baseURL+link)) defloadImage(self,html): """ 提取帖子里用户发送的图片的url地址 html:每个帖子的html """ content=etree.HTML(html) imagelink_list=content.xpath("//div[@class='p_content']//img[@class='BDE_Image']/@src") forlinkinimagelink_list: self.writeImage(self.loadRequest(link),link[-10:]) defwriteImage(self,data,filename): """ 将图片的响应数据,写入到本地磁盘里 data:图片的响应数据 filename:文件名(图片url的后10位) """ print"正在保存图片...%s"%filename withopen(filename,"wb")asf: f.write(data) if__name__=="__main__": tieba=Tieba() tieba.startWork()
更多关于Python相关内容可查看本站专题:《PythonSocket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。