1. 首页
  2. 编程语言
  3. 其他
  4. 中文高效分词和去停用词特殊符号java源码eclipse 工程

中文高效分词和去停用词特殊符号java源码eclipse 工程

上传者: 2018-12-20 09:01:14上传 RAR文件 5.58MB 热度 39次
整合 使用ICTCLAS2013(NlPIR) x64 的中文分词,分词的速度和效果都不错。然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码
下载地址
用户评论
码姐姐匿名网友 2018-12-20 09:01:14

不太会用啊

码姐姐匿名网友 2018-12-20 09:01:14

这个怎么用啊 有没有人能告诉一下啊

码姐姐匿名网友 2018-12-20 09:01:14

分词所用库初始化失败,在调试

码姐姐匿名网友 2018-12-20 09:01:14

@qq_221701832 怎么更新data包?

码姐姐匿名网友 2018-12-20 09:01:14

可以去掉大部分常见的停用词

码姐姐匿名网友 2018-12-20 09:01:14

刚下载来就运行试试,立即报错 :分词所用库初始化失败。

码姐姐匿名网友 2018-12-20 09:01:14

很好很实用

码姐姐匿名网友 2018-12-20 09:01:14

还可以 用上了 新手学习

码姐姐匿名网友 2018-12-20 09:01:14

说实话,效率慢的很。知识下载看看和自己写的有什么区别,在处理的文件多的时候速度较慢,但是很适合新手学习

码姐姐匿名网友 2018-12-20 09:01:14

没用上,应该不错吧