从不平衡数据中学习以预测软件缺陷的数量
在测试资源有限的情况下,预测软件模块中的缺陷数量可能会更有帮助。 目标变量值(即缺陷数量)的高度不平衡分布会降低用于预测缺陷数量的模型的性能。 作为深入研究的第一步,本文探索了使用重采样技术和集成学习技术从不平衡的缺陷数据中学习以预测缺陷数量的潜力。 我们研究了两种用于回归问题的扩展重采样策略(即SMOTE和RUS)和集成学习技术(即AdaBoost.R2算法)的使用,以处理不平衡的缺陷数据以预测缺陷的数量。 我们将SMOTE和RUS的扩展用于分别将缺陷数预测为SmoteND和RusND。 在具有两种性能指标的6个数据集上的实验结果表明,这些方法对于处理不平衡的缺陷数据是有效的。 为了进一步提高这些方法的性能,我们提出了两种新颖的混合重采样/增强算法,称为SmoteNDBoost和RusNDBoost,它们分别将SmoteND和RusND引入AdaBoost.R2算法。 实验结果表明,SmoteNDBoost和RusNDBoost的性能均优于各自的组件(即SmoteND,RusND和AdaBoost.R2)。
下载地址
用户评论