python爬取哈尔滨天气信息
本文实例为大家分享了python爬取哈尔滨天气信息的具体代码,供大家参考,具体内容如下
环境:
windows7
python3.4(pipinstallrequests;pipinstallBeautifulSoup4)
代码:(亲测可以正确执行)
#coding:utf-8 """ 总结一下,从网页上抓取内容大致分3步: 1、模拟浏览器访问,获取html源代码 2、通过正则匹配,获取指定标签中的内容 3、将获取到的内容写到文件中 """ importrequests#用来抓取网页的html源代码 importcsv#将数据写入到csv文件中 importrandom#取随机数 importtime#时间相关操作 importsocket#用于异常处理 importhttp.client#用于异常处理 frombs4importBeautifulSoup#用来代替正则式取源码中相应标签中的内容 #获取网页中的html代码 defget_content(url,data=None): header={ 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Accept-Encoding':'gzip,deflate', 'Accept-Language':'zh-CN,zh;q=0.9', 'Connection':'keep-alive', 'User-Agent':'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/67.0.3396.99Safari/537.36' } timeout=random.choice(range(80,180))#timeout是设定的一个超时时间,取随机数是因为防止被网站认定为网络爬虫 whileTrue: try: rep=requests.get(url,headers=header,timeout=timeout) rep.encoding='utf-8'#rep.encoding=‘utf-8'是将源代码的编码格式改为utf-8 break exceptsocket.timeoutase: print('3:',e) time.sleep(random.choice(range(8,15))) exceptsocket.errorase: print('4:',e) time.sleep(random.choice(range(20,60))) excepthttp.client.BadStatusLinease: print('5:',e) time.sleep(random.choice(range(30,80))) excepthttp.client.IncompleteReadase: print('6:',e) time.sleep(random.choice(range(5,15))) returnrep.text #获取html中我们所需要的字段 defget_data(html_text): final=[] bs=BeautifulSoup(html_text,"html.parser")#创建BeautifulSoup对象 body=bs.body#获取body部分 data=body.find('div',{'id':'7d'})#找到id为7d的div ul=data.find('ul')#获取ul部分 li=ul.find_all('li')#获取所有的li fordayinli:#对每个li标签中的内容进行遍历 temp=[] date=day.find('h1').string#找到日期 temp.append(date)#添加到temp中 inf=day.find_all('p')#找到li中的所有p标签 temp.append(inf[0].string,)#第一个p标签中的内容(天气状况)加到temp中 ifinf[1].find('span')isNone: temperature_highest=None#天气预报可能没有当天的最高气温(到了傍晚,就是这样),需要加个判断语句,来输出最低气温 else: temperature_highest=inf[1].find('span').string#找到最高温 temperature_highest=temperature_highest.replace('℃','')#到了晚上网站会变,最高温度后面也有个℃ temperature_lowest=inf[1].find('i').string#找到最低温 temperature_lowest=temperature_lowest.replace('℃','')#最低温度后面有个℃,去掉这个符号 temp.append(temperature_highest)#将最高温添加到temp中 temp.append(temperature_lowest)#将最低温添加到temp中 final.append(temp)#将temp加到final中 returnfinal #写入文件csv defwrite_data(data,name): file_name=name withopen(file_name,'a',errors='ignore',newline='')asf: f_csv=csv.writer(f) f_csv.writerows(data) if__name__=='__main__': url='http://www.weather.com.cn/weather/101050101.shtml' html=get_content(url) result=get_data(html) write_data(result,'weather.csv')
讲解:
python标准库-----内置函数open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)
函数作用:打开一个文件并返回文件对象。如果文件不能打开,抛出异常OSError。
file:是一个字符串的文件名称,或者是一个数组表示的文件名称。文件名称可以是相对当前目录的路径,也可以是绝对路径表示。
mode:是指打开文件的模式。
1)‘r'表示打开文件只读,不能写。
2)‘w'表示打开文件只写,并且清空文件。
3)‘x'表示独占打开文件,如果文件已经存打开就会失败。
4)‘a'表示打开文件写,不清空文件,在文件后尾追加的方式写入。
5)‘b'表示二进制的模式打开文件。
6)‘t'表示文本模式,默认情况下就是这种模式。
7)‘+'打开文件更新(读取或写入)。
8)缺省时的模式就相当于'rt'。比如'w+b'就是打开文件进入读写,把文件清空;'r+b'打开文件,但不把文件 清空。
参数buffering是一个可选的参数,用来表示缓冲区的策略选择。设置为0时,表示不使用缓冲区,直接读写,仅在二进制模式下有效。设置为1时,表示在文本模式下使用行缓冲区方式。设置为大于1时,表示缓冲区的设置大小。如果参数buffering没有给出,使用默认时,会采用下面策略来选择:
1)对于二进制文件模式时,采用固定块内存缓冲区方式,内存块的大小根据系统设备的分配的磁盘块来决定,如果获取系统磁盘块的大小失败,就使用内部常量io.DEFAULT_BUFFER_SIZE定义的大小。一般的操作系统上,块的大小是4096或者8192字节大小。
2)对于交互的文本文件(采用isatty()判断为True)时,采用一行缓冲区的方式。其它文本文件使用跟二进制一样的方式。
参数encoding是指明对文件编码,仅适用于文本文件。如果不明编码方式,默认是使用locale.getpreferredencoding()函数返回的编码方式。
参数errors是用来指明编码和解码错误时怎么样处理。不能在二进制的模式下使用。
1)当指明为'strict'时,编码出错则抛出异常ValueError。
2)当指明为'ignore'时,忽略错误。
3)当指明为'replace'时,使用某字符进行替代模式,比如使用'?'来替换出错的。
4)其它相应还有surrogateescape/xmlcharrefreplacs/backslashreplace。
参数newline是用来控制文本模式之下,一行的结束字符。可以是None,'',\n,\r,\r\n等。
1)当在读取模式下,如果新行符为None,那么就作为通用换行符模式工作,意思就是说当遇到\n,\r或\r\n都可以作为换行标识,并且统一转换为\n作为文本输入的换行符。当设置为空''时,也是通用换行符模式工作,但不作转换为\n,输入什么样的,就保持原样全输入。当设置为其它相应字符时,就会判断到相应的字符作为换行符,并保持原样输入到文本。
2)当在输出模式时,如果新行符为None,那么所有输出文本都是采用\n作为换行符。如果设置为''或者\n时,不作任何的替换动作。如果是其它字符,会在字符后面添加\n作为换行符。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。