当前位置:雷电ip > 资讯中心
代理IP教你如何应用urllib库
发表日期:2020-12-12
开展Python网络爬虫,想要数据抓取得顺利,用高质量的ip代理软件能够帮助你的程序不被网站的反爬虫机制阻挡。下面跟着ET代理来一起学习Python知识,了解Urllib库的作用。


Urllib库是什么?


Urllib库是Python爬虫内置的http请求库,这就意味着是不用单独安装就能用的。支持以下4个模块


Request:最基础的http请求模块,能用于伪装请求发送。


error:异常处理模块,一旦出现请求错误,能及时获取异常情况,进行相关操作以保证程序不会意外终止。


parse:一种工具模块,提供很多url处理方法,如拆分、解析、合并等。


robotparser:主要用于识别网站的robots.txt文件,进而判断网站是不是能进行爬虫采集,用的比较少。


发送请求


用Urllib的Request模块,能很轻易的完成请求发送并获得响应。看下实际用法:


urlopen( )urllib.request模块提供了最基础的构造http请求的方式,通过它能伪装成浏览器的一个请求发起过程,同时还自带处理授权验证、重定向、浏览器Cookies和其他内容。接下来上案例,爬取Python官网:

  
抓取网页代码的运行结果:

  
简单2行代码就实现了Python官网的信息采集,输出了网站的源代码。


通过type()方法输出响应的类型,看返回的是什么。

  
响应类型如图:


不难看出,它是一个httpresponse类型的对象,主要包含read( )、readinto( )、getheader(name)、getheaders( )、fileno( )等方法,以及msg、version、status、reason、debuglevel、closed等属性。


得到这个对象之后,我们把它赋值为response变量,然后就能调用这些方法和属性,得到返回结果的一系列信息了。


例如,调用read( )方法能得到返回的网页内容,调用status属性能得到返回结果的状态码,如200代表请求成功,404代表网页没找到。


雷电代理是国内优质的动态IP代理服务商,代理ip软件覆盖全国160多个城市、3000万海量代理IP供应,支持一键切换IP,操作简单。
    用户名不能为空
    我已仔细阅读并接受《用户注册协议》
    用户名不能为空
    确定
    忘记密码
    手机号不能为空
    确定

    线