1. 首页
  2. 大数据
  3. Hbase
  4. 基于HBase和SimHash的大数据K-近邻算法简

基于HBase和SimHash的大数据K-近邻算法简

上传者: 2019-05-15 17:51:36上传 PDF文件 335.33KB 热度 27次
针对大数据K-近邻(K-nearestneighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和SimHash的大数据K-近邻分类算法。利用SimHash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法
下载地址
用户评论