python爬虫 模拟登录人人网过程解析
requests提供了一个叫做session类,来实现客户端和服务端的会话保持
使用方法
1.实例化一个session对象
2.让session发送get或者post请求
session=requests.session() session.get(url,headers)
下面就用人人网来实战一下
#coding=utf-8 importrequests session=requests.session() #登录的表单url post_url="http://www.renren.com/PLogin.do" post_data={"email":"your_email","password":"your_password"} headers={ "User-Agent":"Mozilla/5.0(Macintosh;IntelMacOSX10_13_2)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.84Safari/537.36" } #使用session发送post请求,cookie保存在其中 session.post(post_url,data=post_data,headers=headers) #在使用session进行请求登陆之后才能访问的地址 #这是个人首页url r=session.get("http://www.renren.com/327550088/profile",headers=headers) #保存页面到本地 withopen("renren1.html","w",encoding="utf-8")asf: f.write(r.content.decode('utf-8'))
就这么简单,模拟登录上人人网并且获取了个人首页信息页面保存到本地。
其实网站记录登录状态就是通过cookie里面携带的信息,如果我们发送请求的时候带上登录的cookie能不能够访问到只有登录才能访问的页面,当然是可以的
请看代码
#coding=utf-8 importrequests headers={ "User-Agent":"Mozilla/5.0(Macintosh;IntelMacOSX10_13_2)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.84Safari/537.36", "Cookie":"你的登录cookie" } r=requests.get("http://www.renren.com/327550088/profile",headers=headers) #保存页面 withopen("renren2.html","w",encoding="utf-8")asf: f.write(r.content.decode())
可以看到,Cookie可以放在headers中,其实requests中也有一个参数用来传递cookie,这个参数就是cookies
请看代码
#字典生成器的用法 cookies={i.split("=")[0]:i.split("=")[1]foriincookies.split(";")} print(cookies) r=requests.get("http://www.renren.com/327550088/profile",headers=headers,cookies=cookies)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。