基于广义聚类质心的文本分类器
本文提出了一种通用聚类基于质心的分类器(GCCC)及其文本分类的变体,利用聚类算法将两个著名的分类器,即K最近邻分类器和Rocchio分类器集成在一起。 KNN是一种惰性学习方法,在实现显着效果的同时,其在线分类效率低下。 具有高效分类性能的Rocchio由于其固有的线性可分离性假设而无法获得表达性分类模型。 我们提出的方法主要集中在两点上:一方面是我们使用聚类算法来增强Rocchio模型的表达力; 另一个是我们使用改进的Rocchio模型来加快KNN的分类过程。 在英语和汉语语料库上进行的大量实验表明,与某些最新的分类器(如Rocchio,KNN和支持向量机(SVM))相比,GCCC及其变体具有更好的分类能力。
下载地址
用户评论