Crux网页正文提取库
网页正文提取的 Crux 库,适配性强、提取效果也还挺准的,适合做聚合类内容或文本相关的前端功能。嗯,用起来不复杂,不用你来手动一堆 DOM。你只要把 HTML 扔进去,它就能自动帮你识别正文,省了不少事儿。
像你要做文章预览、抓取资讯、内容摘要提取,Crux 真的挺方便。搭配前端做个fetch
调用,再通过highlight.js
高亮一下,前端展示起来也更有味道。
顺带也推荐几个类似方向的资源,不管你用的是Python、Java、C#还是JS,基本都有对应实现可以借鉴。有空多看看这些:Python 正文提取、Java 解析 HTML、网页正文识别算法。都挺实用的。
如果你刚好在搞内容中台或者做搜索结果美化,真可以把这类正文提取组件加进去,体验直接上一个档次。
下载地址
用户评论