Jsoup 1.6.2HTML解析工具
jsoup 的 1.6.2 版本是个蛮经典的老版本,适合用在一些老项目里,兼容性还不错。这个库主要做的事其实挺简单——就是帮你解析和操作 HTML,像在浏览器里搞 DOM 那样,不用费劲写正则。
HTML 解析这块挺顺手的,Jsoup.connect(url).get()
一下,页面内容就拿到手了。你还可以用类似doc.select("div.title")
的方式快速找到你想要的元素,CSS 选择器的语法,好懂。
数据提取也方便,比如你想拿链接地址,用link.attr("href")
就行。想拿文本?link.text()
。不用费劲查 API,基本靠记就够了。
HTML 清理和HTML 生成这两个功能也挺实用,尤其是你要用户上传的 HTML 时,jsoup 可以帮你把危险标签都干掉,防止 XSS 攻击。
这版(1.6.2)虽然不算新,但跑得快、bug 少,用着安心。对新手来说上手门槛也低,写个小爬虫、搞点内容抓取啥的,效率挺高。
下面是个简单示例:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class JsoupExample {
public static void main(String[] args) throws Exception {
Document doc = Jsoup.connect("http://example.com").get();
System.out.println("Title: " + doc.select("title").text());
for (Element link : doc.select("a[href]")) {
System.out.println(" Link: " + link.attr("href"));
System.out.println("Text: " + link.text());
}
}
}
如果你有 Java 项目要和 HTML 打交道,jsoup 基本可以闭着眼选。用它搞网页内容抓取、做爬虫、或者前端返回的 HTML 片段,都蛮靠谱的。