pillage 从网页中提取内容和元数据
Pillage是一个非常棒的Node.js库,用于解析网页。它使用baller算法:latin_cross:准确地识别网页的内容区域真的,真的……很有趣。一旦我们有了内容区域,我们就可以解析出文本、图像、视频和其他媒体。为了您的方便,我们还加入了很多简单的东西,比如OG标签。 :latin_cross:它基本上搜索每个文本节点,然后递归地爬上父树,根据文本长度为每个父节点分配一个加权的“分数”。当我们向上移动树时,该值Swift下降。这是对所有文本节点完成的,因此权重累积以识别最可能的共享父节点。一旦我们有了那个包装器,我们就可以做出假设并轻松解析出正文内容。安装npm install pillage用法var pillage = require ( 'pillage' ) ; // Fetch a URL and process pillage ( url , function
下载地址
用户评论