1. 首页
  2. 编程语言
  3. C++ 
  4. Selenium结合BeautifulSoup4编写简单的python爬虫

Selenium结合BeautifulSoup4编写简单的python爬虫

上传者: 2020-12-17 06:40:13上传 PDF文件 247.8KB 热度 17次
在学会了抓包,接口请求(如requests库)和Selenium的一些操作方法后,基本上就可以编写爬虫,爬取绝大多数网站的内容。 在爬虫领域,Selenium永远是最后一道防线。从本质上来说,访问网页实际上就是一个接口请求。请求url后,返回的是网页的源代码。 我们只需要解析html或者通过正则匹配提取出我们需要的数据即可。 有些网站我们可以使用requests.get(url),得到的响应文本中获取到所有的数据。而有些网页数据是通过JS动态加载到页面中的。使用requests获取不到或者只能获取到一部分数据。 此时我们就可以使用selenium打开页面来,使用driver.page_so
下载地址
用户评论