好资源导航 » 文章资讯 » 编写Python爬虫抓取暴走漫画上gif图片的实例分享

编写Python爬虫抓取暴走漫画上gif图片的实例分享

2024-03-19 16:57:03 33

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图，方便离线观看。爬虫用的是python3.3开发的，主要用到了urllib、request和BeautifulSoup模块。

urllib模块提供了从万维网中获取数据的高层接口，当我们用urlopen()打开一个URL时，就相当于我们用Python内建的open()打开一个文件。但不同的是，前者接收一个URL作为参数，并且没有办法对打开的文件流进行seek操作（从底层的角度看，因为实际上操作的是socket，所以理所当然地没办法进行seek操作），而后者接收的是一个本地文件名。

Python的BeautifulSoup模块，可以帮助你实现HTML和XML的解析
先说一下，一般写网页爬虫，即抓取网页的html源码等内容，然后分析，提取相应的内容。
这种分析html内容的工作，如果只是用普通的正则表达式re模块去一点点匹配的话，对于内容简单点的网页分析，还是基本够用。
但是对于工作量很大，要解析内容很繁杂的html，那么用re模块，就会发现无法实现，或很难实现。
而使用beautifulsoup模块去帮你实现分析html源码的工作的话，你就会发现，事情变得如此简单，极大地提高了分析html源码的效率。
注：BeautifulSoup是第三方库，我使用的是bs4。urllib2在python3中被分配到了urllib.request中，文档中的原文如下。
Note:Theurllib2modulehasbeensplitacrossseveralmodulesinPython3namedurllib.requestandurllib.error.
爬虫源代码如下

#-*-coding:utf-8-*-

importurllib.request
importbs4,os

page_sum=1#设置下载页数

path=os.getcwd()
path=os.path.join(path,'暴走GIF')
ifnotos.path.exists(path):
os.mkdir(path)#创建文件夹

url="http://baozoumanhua.com/gif/year"#url地址
headers={#伪装浏览器
'User-Agent':'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)'
'Chrome/32.0.1700.76Safari/537.36'
}

forcountinrange(page_sum):
req=urllib.request.Request(
url=url+str(count+1),
headers=headers
)
print(req.full_url)
content=urllib.request.urlopen(req).read()

soup=bs4.BeautifulSoup(content)#BeautifulSoup
img_content=soup.findAll('img',attrs={'style':'width:460px'})

url_list=[img['src']forimginimg_content]#列表推导url
title_list=[img['alt']forimginimg_content]#图片名称

foriinrange(url_list.__len__()):
imgurl=url_list[i]
filename=path+os.sep+title_list[i]+".gif"
print(filename+":"+imgurl)#打印下载信息
urllib.request.urlretrieve(imgurl,filename)#下载图片

在第15行可以修改下载页数，将此文件保存为baozougif.py，使用命令pythonbaozougif.py运行后在同目录下会生成「暴走GIF」的文件夹，所有的图片会自动下载到该目录中。

返回顶部
514930285
czq8825@qq.com

编写Python爬虫抓取暴走漫画上gif图片的实例分享

热门推荐

随机推荐