Python爬虫实现使用beautifulSoup4爬取名言网功能案例
本文实例讲述了Python爬虫实现使用beautifulSoup4爬取名言网功能。分享给大家供大家参考,具体如下:
爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签)
#!/usr/bin/python3
#-*-coding:utf-8-*-
fromurllib.requestimporturlopenasopen
frombs4importBeautifulSoup
importre
importpymysql
deffind_top_ten(url):
response=open(url)
bs=BeautifulSoup(response,'html.parser')
tags=bs.select('span.tag-itema')
top_ten_href=[tag.get('href')fortagintags]
top_ten_tag=[tag.textfortagintags]
#print(top_ten_href)
#print(top_ten_tag)
returntop_ten_href
definsert_into_mysql(records):
con=pymysql.connect(host='localhost',user='root',password='root',database='quotes',charset='utf8',port=3306)
cursor=con.cursor()
sql="insertintoquotes(content,author,tags)values(%s,%s,%s)"
forrecordinrecords:
cursor.execute(sql,record)
con.commit()
cursor.close()
con.close()
#http://quotes.toscrape.com/tag/love/
#要获取对应标签中所有的名言所以这里要考虑分页的情况
#经过在网页上查看知道分页查询的url
#http://quotes.toscrape.com/tag/love/page/1/
#判断到那一页没有数据div.containerdiv.row[1]
deffind_link_content(link):
page=1
whileTrue:
new_link="http://quotes.toscrape.com"+link+"page/"
#print(new_link)
new_link=new_link+str(page)
print(new_link)
sub_bs=open(new_link)
sub_bs=BeautifulSoup(sub_bs,'html.parser')
quotes=sub_bs.select('div.rowdiv.col-md-8span.text')
#如果没有数据就退出
iflen(quotes)==0:
break
#名言
quotes=[quote.text.strip('“”')forquoteinquotes]
#作者
authors=sub_bs.select('small.author')
authors=[author.textforauthorinauthors]
#标签
tags_list=sub_bs.select('meta.keywords')
tags_list=[tags.get('content')fortagsintags_list]
#print(authors)
#print(quotes)
#print(tags_list)
record_list=[]
foriinrange(len(quotes)):
tags=tags_list[i]
tags=tags.replace(',',',')
print(tags)
record=[quotes[i],authors[i],tags]
record_list.append(record)
insert_into_mysql(record_list)
page+=1
#
defmain():
url="http://quotes.toscrape.com/"
parent_link=find_top_ten(url)
forlinkinparent_link:
print(link)
find_link_content(link)
if__name__=='__main__':
main()
更多关于Python相关内容可查看本站专题:《PythonSocket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。