论文研究多版本数据仓库中版本进化的实现.pdf

上传者：oXiaoXiaoNiao40 2020-07-29 01:53:43上传 PDF文件 588.46KB 热度 34次

在数据挖掘预处理中，数据缺失是最为常见的数据预处理问题之一。通常对所要挖掘的数据分布形式没有任何先验知识。在这种情况下，非参回归分析方法可以为数据缺失的处理提供一种效果很好的解决途径。据此，在缺失机制是随机缺失（Missing at Random，MAR）和完全随机缺失（Missing Completely at Random，MCAR）的条件下，提出了一种处理数据缺失的新方法，即基于核函数的非参多重填补算法。模拟实验结果表明，算法的置信区间的覆盖率，区间长度，以及相对效率都比常用的NORM算法要好。1582008,44(31)Computer Engineering and Applications计算机工程与应用3实验分析10.5本章将构建一组模拟实验通过对NORM在置信区间(假10.0设a=0.05)的覆盖率、区间的平均长度,以及相对效率这几个95|g评价指标上进行比较来评价该算法的优越性。9.0NORM是基于 Windows95/98/NT平台用于处理MI的8.5个软件。它采用类似马尔可夫链蒙特卡罗方法的数据增广算MCAR8.0Mar法来进行多重填补。NORM0.050.55501002505001000采用模型y=x1+sinx2+E,其中x(i=1,2)来源于正态分布N(1.1),c来源于标准正态分布N(0,1):图3样本1000,缺失100,重复填补次数为Case1 MAR10时的AL的实验结果P(x)=P(8=1X=x,X=x2)=0.8+0.2·x1-l|·lx,-1l,ifl1-1·lr,-1l≤1。言22l0.95.elseCase2(MCAR)6■·MCARP(x)=P(8=1IX=x2, X=x2), for all xi, x2 respecLively="M首先根据公式(3)填补所有的缺失数据m次(m=3或者10),然后得到m个完整的数据,根据公式(4)得到覆盖率CP( Coverage Probability)和平均区间长度 AL(Average Length of0.050.55501002505001000Cintervals),根据公式(5)得到相对效率 RE(Relative Efficiency)图4样本1000,缺失700,重复填补次数为图1是样本1000,缺失100,重复填补次数为10的CP的10时的AL的实验结果实验结果,其中缺失数据比率是10%。图2是缺失率为70%的CP结果。图3是样本1000,缺失100,重复填补次数为10的表1样本1000,缺失100,重复填补次数为10的REAL的实验结果,其中缺失数据比率是10%。图4是缺失率为的模拟实验结果70%的AL结果,表1是相应RE的实验结果。10%70%0.945MCAR MAR NORM MCAR MAR NORM30.99930.99480.99690.99990.99990.99500940100.99490.99420.99920.99980.99930.99920.935只(2)当缺失比率比较大的时候,例如图2、图4和表1中s0.930的70%,算法的结果虽然与NORM的差距减小,但是效果还是0.925-“■-·MCAR比NORM好,特别当取适当的C值之后。0.920MARNORM(3)无论缺失比率大还是小,也不论在那种缺失机制下0.915050.55501002505001000(MAR或MCAR,因为NI很难产生实验结果),该算法效果都比NORM好,而且缺失比率越小越好,这是非常现实的,因为图1样木1000,缺失100,重复填补次数为实际应用中,缺失比率过大的数据集没有任何必要填补,机器10时的CP的实验结果学习方面要处理的大多数是缺失比率较小的数据集。0.980.964结束语0量提出了一种基于核的非参多重填补方法。这种方法分3个步骤,首先采用核函数的非参回归估计技术对不完全的数据集■:MCAR填充m次(m由用户确定,通常小于20),这样得到m个没有0.86口MAR-NORM缺失的完全数据集,然后对这m个完成数据集进行分析,取最0.82佳的值为填充结果。为了评价该方法,设计了一组模拟实验,在0.050.55501002505001000不同的缺失机制(MCAR和MAR)下,在置信区间的长度和覆C盖率,以及相对效率等方面和著名的算法NORM进行了比较。图2样本1000,缺失700,重复填补次数为10时的CP的实验结果实验结果显示,算法在各种实验条件下,其评价指标CP、AL和RE等都优于算法NORM从上面的实验结果我们得出下面的结论:(1)当缺失比率比较小的时候例如图1、图3和表1中的参考文献10%,算法的结果不管是在缺失机制MCAR还是MAR前提1 loS. urgan L.Trends in data mining and knowledge discovery MyPal n, Jain L, Teoderesku N Knowledge Discovery in Advanced In下,在CP、AL和RE的实验效果上都比NORM的效果要好,如果能选择适当的C,其效果会更好。formation Systems. [S.I. ] Springer, 2002(下转172页)

下载地址

用户评论

更多下载

下载地址

立即下载

用户评论

论文研究多版本数据仓库中版本进化的实现.pdf

在数据挖掘预处理中，数据缺失是最为常见的数据预处理问题之一。通常对所要挖掘的数据分布形式没有任何先验...

大小：588KB | 2020-07-29 01:53:43
论文研究多版本数据仓库的查询优化设计.pdf

多版本数据仓库中，不同数据仓库版本的维度实例可以共享存储。直接建立维度表与事实表的位图连接索引会产生...

大小：455KB | 2020-07-21 04:43:33
数据仓库PDF版本

大小：0B | 2019-03-10 01:50:03
论文研究重复数据检测在多版本数据备份中的应用.pdf

分析了当前主要的重复数据检测技术，针对多版本数据的备份/还原过程提出了重复数据检测三级模型，有效地解...

大小：590KB | 2020-07-22 07:13:40
数据仓库与决策支持PDF版本

大小：0B | 2019-02-27 11:32:08
论文研究数据仓库集成环境研究与实现.pdf

引入开放式设计思想，使得数据仓库集成环境具有很强的适应性，该集成环境架构在.NET平台上,采用组件开...

大小：274KB | 2020-07-20 09:56:09
论文研究数据仓库中维度模型的MDA建模与实现.pdf

数据仓库中维度模型的MDA建模与实现，景士强，满毅，数据仓库的一个核心组成是维度模型。维度模型是一个...

大小：931KB | 2020-07-18 02:53:01
论文研究后勤数据仓库系统的设计与实现.pdf

数据仓库是近几年出现的信息处理领域面向分析和决策的新技术。首先介绍了数据仓库的一般特征和体系结构，并...

大小：0B | 2020-06-20 11:02:32
论文研究数据仓库体系结构的研究.pdf

数据仓库体系结构的研究，苏俊峰，黄亚楼，本文总结了DB-DW、DB-OS-DW和分布式三种典型的数据...

大小：0B | 2019-09-14 12:56:51
论文研究商业智能系统中的数据仓库设计与实现.pdf

商业智能系统中的数据仓库设计与实现，赵歌，顾宏，商业智能通过分析信息帮助用户对业务经营做出正确的决定...

大小：319KB | 2020-07-29 05:12:12
论文研究粮食行业数据仓库构建.pdf

在充分考虑粮食企业业务运行系统的现有状况和深入分析用户决策需求的前提下，借鉴数据仓库技术的基本组成，...

大小：113KB | 2020-07-27 02:49:27
论文研究数据仓库中ETL技术研究与应用.pdf

数据仓库中ETL技术研究与应用，方芳，，ETL是数据仓库的重要环节,本文主要论述了ETL在数据仓库中...

大小：0B | 2019-09-05 08:31:47
数据仓库中的拉链表Clickhouse实现.pdf

Clickhouse是一个用于联机分析处理（OLAP）的列式数据库管理系统（columnar DBM...

大小：107KB | 2020-07-19 08:04:41
数据仓库中ETL技术的研究

数据仓库中ETL技术的研究

大小：0B | 2018-12-20 10:28:36
论文研究面向Web的数据仓库体系设计.pdf

首先简要论述XML语言，然后对数据挖掘、数据仓库的特点及当前发展中遇到的挑战进行分析，在此基础上，利...

大小：0B | 2020-06-11 15:02:29
论文研究数据仓库相关技术研究综述.pdf

数据仓库相关技术研究综述，宋旭东，杨莉国，本文给出了数据仓库的定义，通过对相关文献的研究，给出了普通...

大小：0B | 2019-09-27 18:41:24

论文研究 多版本数据仓库中版本进化的实现.pdf

论文研究多版本数据仓库中版本进化的实现.pdf