1. 首页
  2. 数据库
  3. 其它
  4. weebly page parser:使用jsoup的Weebly页面的常规解析器 源码

weebly page parser:使用jsoup的Weebly页面的常规解析器 源码

上传者: 2021-02-18 03:36:25上传 ZIP文件 4.47KB 热度 6次
weebly页面解析器 使用从未发布的Weebly页面提取内容的通用过程和解析器。 为什么? 我们遇到了这样一种情况,我们有两个使用Web托管平台Weebly(, )制作的网页,这些网页需要未发布,审阅,内部存档以及可能被删除。 我们没有找到一种简单的方法来使用Weebly或其他工具保存未发布站点的本地副本。 此过程和代码为未发布页面的半自动内容提取提供了基础。 它能做什么 照原样,此工具从每个页面提取4种文本:类博客内容的标题,段落文本内容,外部链接和嵌入式YouTube链接。 标题–网​​站上的某些页面像博客一样设置,因为在不同的日期都有大量独立的帖子撰写和发布。 每个帖子的名称将显
下载地址
用户评论