spark data repair plugin:提供Spark中数据修复功能的统计工具包 源码
这是一个实验性原型,可在分布式计算框架Spark上提供统计数据修复功能。 干净一致的数据可以对下游处理产生积极影响; 干净的数据使报告和机器学习更加准确,并且具有约束(例如,功能依赖性)的数据对于有效的查询计划很重要。 因此,进行数据修复以使数据清洁和一致是可靠的分析管道的第一步,此插件旨在在Spark上实现可伸缩的修复算法。 如何修复错误单元 $ git clone https://github.com/maropu/spark-data-repair-plugin.git $ cd spark-data-repair-plugin # This repository includes a simple wrapper script `bin/python` to create # a virtual environment to resolve the required depende
下载地址
用户评论