1. 首页
  2. 人工智能
  3. 机器学习
  4. 复旦大学中文文本分类数据集utf8格式

复旦大学中文文本分类数据集utf8格式

上传者: 2020-01-24 21:49:52上传 ZIP文件 120.35MB 热度 37次
本语料库由复旦大学李荣陆提供。下载的原始数据编码格式是gb18030,用python解析时报错,这个是用java将数据格式转为utf-8编码格式后的结果。train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。下载后可以自己重新切分数据,也可以直接用。免费下载地址:链接:https://pan.baidu.com/s/1m0stk-0AovdbMNT5-CMdSA密码:2bvz使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
下载地址
用户评论