1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 数字标准平台中海量时空小文件合并策略研究.pdf

论文研究 数字标准平台中海量时空小文件合并策略研究.pdf

上传者: 2020-07-21 11:37:24上传 PDF文件 1.08MB 热度 13次
针对HDFS处理时空小文件效率不高的问题,从用户的访问规律和访问数据自身属性这两者之间的相关性上出发,将用户访问流看成对数据文件的请求序列,然后根据数据的时空属性参数化表示,并利用特征提取构建一个新的特征序列,最后通过序列模式挖掘PrefixSpan算法找到用户在不同访问模式下的特征模板,合并相关文件。实验结果表明,该合并策略有效地降低了NameNode内存占用率和响应时间,提高了读取效率。
下载地址
用户评论