一个简单的java爬虫产品
最近一直在研究爬虫和Lucene,虽然开始决定选用Heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复运行该Job时文件夹始终是同一个(Heritrix为Job创建文件夹的规则是“Job名称-时间戳”)等等,都是需要考虑的问题,最终还是将其搁浅。 后来google了一下,找到了一个简单爬虫的程序代码(http://www.blogjava.net/Jack2007/archive/2008/03/24/188138.html),随即试验了一下,发现确实能得到网页的内容,在这里还是要谢谢代码的提供者——
下载地址
用户评论
还可以,就是太简单,扩展性什么都不好,jar包也没有,望继续努力
基础东西,学习一下
不错,入门了
一般吧新手可以学习点东西
呃。。少jar包的呀==
耐心阅读完后还是很有用的
作为参考可以。如果想用还要重新组织一下。
哥们,不地道啊,2个类,缺失大量的类,还说是例子,不厚道
不会看,不会用,