基于机器学习的网页正文提取方法
先将网页转换为规范的DOM树然后计算每行文本的文本密度与标题相关度等值并将其作为输入参数利用BP神经网络进行训练进而形成抽取规则最后通过实验验证该方法的可行性
下载地址
用户评论
没下载成。。。。