1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 多版本数据仓库中版本进化的实现.pdf

论文研究 多版本数据仓库中版本进化的实现.pdf

上传者: 2020-07-29 01:53:43上传 PDF文件 588.46KB 热度 22次
在数据挖掘预处理中,数据缺失是最为常见的数据预处理问题之一。通常对所要挖掘的数据分布形式没有任何先验知识。在这种情况下,非参回归分析方法可以为数据缺失的处理提供一种效果很好的解决途径。据此,在缺失机制是随机缺失(Missing at Random,MAR)和完全随机缺失(Missing Completely at Random,MCAR)的条件下,提出了一种处理数据缺失的新方法,即基于核函数的非参多重填补算法。模拟实验结果表明,算法的置信区间的覆盖率,区间长度,以及相对效率都比常用的NORM算法要好。1582008,44(31)Computer Engineering and Applications计算机工程与应用3实验分析10.5本章将构建一组模拟实验通过对NORM在置信区间(假10.0设a=0.05)的覆盖率、区间的平均长度,以及相对效率这几个95|g评价指标上进行比较来评价该算法的优越性。9.0NORM是基于 Windows95/98/NT平台用于处理MI的8.5个软件。它采用类似马尔可夫链蒙特卡罗方法的数据增广算MCAR8.0Mar法来进行多重填补。NORM0.050.55501002505001000采用模型y=x1+sinx2+E,其中x(i=1,2)来源于正态分布N(1.1),c来源于标准正态分布N(0,1):图3样本1000,缺失100,重复填补次数为Case1 MAR10时的AL的实验结果P(x)=P(8=1X=x,X=x2)=0.8+0.2·x1-l|·lx,-1l,ifl1-1·lr,-1l≤1。言22l0.95.elseCase2(MCAR)6■·MCARP(x)=P(8=1IX=x2, X=x2), for all xi, x2 respecLively="M首先根据公式(3)填补所有的缺失数据m次(m=3或者10),然后得到m个完整的数据,根据公式(4)得到覆盖率CP( Coverage Probability)和平均区间长度 AL(Average Length of0.050.55501002505001000Cintervals),根据公式(5)得到相对效率 RE(Relative Efficiency)图4样本1000,缺失700,重复填补次数为图1是样本1000,缺失100,重复填补次数为10的CP的10时的AL的实验结果实验结果,其中缺失数据比率是10%。图2是缺失率为70%的CP结果。图3是样本1000,缺失100,重复填补次数为10的表1样本1000,缺失100,重复填补次数为10的REAL的实验结果,其中缺失数据比率是10%。图4是缺失率为的模拟实验结果70%的AL结果,表1是相应RE的实验结果。10%70%0.945MCAR MAR NORM MCAR MAR NORM30.99930.99480.99690.99990.99990.99500940100.99490.99420.99920.99980.99930.99920.935只(2)当缺失比率比较大的时候,例如图2、图4和表1中s0.930的70%,算法的结果虽然与NORM的差距减小,但是效果还是0.925-“■-·MCAR比NORM好,特别当取适当的C值之后。0.920MARNORM(3)无论缺失比率大还是小,也不论在那种缺失机制下0.915050.55501002505001000(MAR或MCAR,因为NI很难产生实验结果),该算法效果都比NORM好,而且缺失比率越小越好,这是非常现实的,因为图1样木1000,缺失100,重复填补次数为实际应用中,缺失比率过大的数据集没有任何必要填补,机器10时的CP的实验结果学习方面要处理的大多数是缺失比率较小的数据集。0.980.964结束语0量提出了一种基于核的非参多重填补方法。这种方法分3个步骤,首先采用核函数的非参回归估计技术对不完全的数据集■:MCAR填充m次(m由用户确定,通常小于20),这样得到m个没有0.86口MAR-NORM缺失的完全数据集,然后对这m个完成数据集进行分析,取最0.82佳的值为填充结果。为了评价该方法,设计了一组模拟实验,在0.050.55501002505001000不同的缺失机制(MCAR和MAR)下,在置信区间的长度和覆C盖率,以及相对效率等方面和著名的算法NORM进行了比较。图2样本1000,缺失700,重复填补次数为10时的CP的实验结果实验结果显示,算法在各种实验条件下,其评价指标CP、AL和RE等都优于算法NORM从上面的实验结果我们得出下面的结论:(1)当缺失比率比较小的时候例如图1、图3和表1中的参考文献10%,算法的结果不管是在缺失机制MCAR还是MAR前提1 loS. urgan L.Trends in data mining and knowledge discovery MyPal n, Jain L, Teoderesku N Knowledge Discovery in Advanced In下,在CP、AL和RE的实验效果上都比NORM的效果要好,如果能选择适当的C,其效果会更好。formation Systems. [S.I. ] Springer, 2002(下转172页)
下载地址
用户评论