1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 Twitter中重复消息的分析和处理.pdf

论文研究 Twitter中重复消息的分析和处理.pdf

上传者: 2020-07-17 18:59:41上传 PDF文件 527.37KB 热度 20次
Twitter已经成为微博中的代表性应用,但是通过分析发现twitter上的消息(推文)有很多完全一致或相似,这对后续对推文的分析和存储都带来很大的问题。为了处理这些内容完全一致或相似的消息(推文),针对推文特有的短文本的特点,基于规则处理完全一致的推文,采用simhash的方法来处理相似性的推文。实验采用实际抓取的240万条推文数据进行分析和处理,分别对中文和英文的推文重复情况进行了分析,实验结果发现重复的推文占总推文的10%左右。
下载地址
用户评论