python爬虫爬取网页表格数据
用python爬取网页表格数据,供大家参考,具体内容如下
frombs4importBeautifulSoup importrequests importcsv importbs4 #检查url地址 defcheck_link(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding returnr.text except: print('无法链接服务器!!!') #爬取资源 defget_contents(ulist,rurl): soup=BeautifulSoup(rurl,'lxml') trs=soup.find_all('tr') fortrintrs: ui=[] fortdintr: ui.append(td.string) ulist.append(ui) #保存资源 defsave_contents(urlist): withopen("D:/2016年中国企业500强排行榜.csv",'w')asf: writer=csv.writer(f) writer.writerow(['2016年中国企业500强排行榜']) foriinrange(len(urlist)): writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) defmain(): urli=[] url="http://www.maigoo.com/news/463071.html" rs=check_link(url) get_contents(urli,rs) save_contents(urli) main()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。