1. 首页
  2. 数据库
  3. 其它
  4. 【爬虫】爬取简书某ID所有文章并保存为pdf

【爬虫】爬取简书某ID所有文章并保存为pdf

上传者: 2021-01-17 02:04:53上传 PDF文件 714.55KB 热度 5次
编辑 / 昱良 1 目 标 场 景 现如今,我们处于一个信息碎片化的信息时代,遇到好的文章都有随手收藏的习惯。但过一段时间,当你想要重新查看这篇文章的时候,发现文章已经被移除或莫名其妙地消失了。 如果当时能将这些文章以 pdf 格式保存到本地,待空闲的时候慢慢地看,就不用担心这个问题了。 本文的目标是利用 Google 推出的「puppeteer」,配合无头浏览器爬取某位大佬在简书上发布的所有文章,并对页内元素进行优化样式后,以「pdf」格式保存下载到本地。 2 准 备 工 作 和前面爬虫方式不一样,这次的爬虫是在「Node.js」环境下执行的,所以需要提前安装好 node
下载地址
用户评论