googleCrawlerGoogle Crawler自动抓取Google搜索结果的实验项目
谷歌爬虫Google Crawler是一个实验项目,用于自动抓取给定单词或短语的Google搜索结果。它存储了Google返回结果的每个页面的原始HTML,同时它让用户有机会通过正则表达式过滤这些原始HTML并获得他/她一直在搜索的实际结果。虽然这个概念目前有点抽象,但该应用程序可以成功地用于从互联网上检索(例如)随机或特定类型的电子邮件地址(用于电子邮件营销目的)。
Google Crawler特征包括:
-
用户可以过滤特定页面的原始HTML,确保获取实际搜索结果;
-
如果有CAPTCHA(验证码)显示,用户必须手动完成;
-
用户可以添加自定义的正则表达式过滤器;
-
结果保存为纯文件(TXT格式);
-
集成了独立的Selenium服务器,支持更复杂的交互操作。
下载地址
用户评论