Python爬虫实现使用beautifulSoup4爬取名言网功能案例
本文实例讲述了Python爬虫实现使用beautifulSoup4爬取名言网功能。分享给大家供大家参考,具体如下:
爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签)
#!/usr/bin/python3 #-*-coding:utf-8-*- fromurllib.requestimporturlopenasopen frombs4importBeautifulSoup importre importpymysql deffind_top_ten(url): response=open(url) bs=BeautifulSoup(response,'html.parser') tags=bs.select('span.tag-itema') top_ten_href=[tag.get('href')fortagintags] top_ten_tag=[tag.textfortagintags] #print(top_ten_href) #print(top_ten_tag) returntop_ten_href definsert_into_mysql(records): con=pymysql.connect(host='localhost',user='root',password='root',database='quotes',charset='utf8',port=3306) cursor=con.cursor() sql="insertintoquotes(content,author,tags)values(%s,%s,%s)" forrecordinrecords: cursor.execute(sql,record) con.commit() cursor.close() con.close() #http://quotes.toscrape.com/tag/love/ #要获取对应标签中所有的名言所以这里要考虑分页的情况 #经过在网页上查看知道分页查询的url #http://quotes.toscrape.com/tag/love/page/1/ #判断到那一页没有数据div.containerdiv.row[1] deffind_link_content(link): page=1 whileTrue: new_link="http://quotes.toscrape.com"+link+"page/" #print(new_link) new_link=new_link+str(page) print(new_link) sub_bs=open(new_link) sub_bs=BeautifulSoup(sub_bs,'html.parser') quotes=sub_bs.select('div.rowdiv.col-md-8span.text') #如果没有数据就退出 iflen(quotes)==0: break #名言 quotes=[quote.text.strip('“”')forquoteinquotes] #作者 authors=sub_bs.select('small.author') authors=[author.textforauthorinauthors] #标签 tags_list=sub_bs.select('meta.keywords') tags_list=[tags.get('content')fortagsintags_list] #print(authors) #print(quotes) #print(tags_list) record_list=[] foriinrange(len(quotes)): tags=tags_list[i] tags=tags.replace(',',',') print(tags) record=[quotes[i],authors[i],tags] record_list.append(record) insert_into_mysql(record_list) page+=1 # defmain(): url="http://quotes.toscrape.com/" parent_link=find_top_ten(url) forlinkinparent_link: print(link) find_link_content(link) if__name__=='__main__': main()
更多关于Python相关内容可查看本站专题:《PythonSocket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。