很流行的一个路透社语料库
路透社提供的语料,分类很全,大多是新闻等,用于文本挖掘
下载地址
用户评论
仅仅是21578,太老了。
应该还是不错的
资源很全。。很适合做文本分析
很nice,可以做mining
一直想找的 适合大数据的实验
有标注,适合文本挖掘
昨天下载了,对我的分词实验有很大的帮助,资源结构比较好 适合提取文本信息
是英文的,而且格式是XML的。不是很好弄。要是txt的就好了
还没了解,本来是用来测试邮件过滤的,这个是用于文本挖掘的~