Squidwarc:Squidwarc是一款高保真度用户可编写脚本的归档爬网程序使用带有或不带有头部的Chrome或Chromium 源码
Squidwarc是一款高保真度,用户可编写脚本的存档爬网程序,使用带有或不带有头部的Chrome或Chromium。 Squidwarc旨在满足对类似于Herritrix的高保真爬虫的需求,同时仍然易于个人档案管理员进行设置和使用。 当广泛的档案女王爬行时, Squidwarc并未(暂时)寻求废除Heritrix,而是寻求解决Heritrix的缺点,即: 没有执行JavaScript 一切都是纯文本 需要配置才能知道如何保存网络 用户需要的设置时间和技术知识 有关此的更多信息,请参见 Squidwarc使用Node.js, 和。 如果不是通过命令行运行,那么Squidwarc强烈
下载地址
用户评论