1. 首页
  2. 编程语言
  3. Python
  4. python爬虫之urllib,伪装,超时设置,异常处理的方法

python爬虫之urllib,伪装,超时设置,异常处理的方法

上传者: 2021-05-02 22:15:14上传 PDF文件 82.04 KB 热度 14次

返回一个二进制的对象,对这个对象进行read()操作,可以得到一个包含网页的二进制字符串,然后用decode()解码成html源码将一个网页爬取到本地清除 urlretrieve()所产生的缓存返回一个httpMessage对象,表示远程服务器的头信息获取当前网页的状态码 200代表成功,404网页未找到获取当前爬取页面的网址示例:运行结果:由于在实际的爬取过程中,部分网站可能访问过慢,影响性能,这时我们可设置超时访问.示例: 如果在指定时间内正常访问,即输出获取数据的长度,如果超出指定时间,则抛出异常.运行结果:在爬取过程中,可能部分网站限制浏览器访问所以为了顺利达到我们的目的,我们对自己进

下载地址
用户评论