1. 首页
  2. 编程语言
  3. Python
  4. 结巴分词、词性标注以及停用词过滤
下载地址
用户评论
码姐姐匿名网友 2019-06-22 17:11:17

应该可以解决我想进行中文词性标注,过滤需要

码姐姐匿名网友 2019-06-22 17:11:17

很不错的东西

码姐姐匿名网友 2019-06-22 17:11:17

亲测可用,encode-decode下编码格式,就可以用来分词过滤了,感谢分享

码姐姐匿名网友 2019-06-22 17:11:17

不错可以使用

码姐姐匿名网友 2019-06-22 17:11:17

正好要用到,下来参考一下

码姐姐匿名网友 2019-06-22 17:11:17

stopword编码问题,先用notepad++编码转为UTF-8无BOM编码,测试的话,加入 import sys import io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 再输出就没问题了

码姐姐匿名网友 2019-06-22 17:11:17

我也是遇到了编码问题,不知道该怎样改。有解决的请留下言,方便后来人,谢谢~

码姐姐匿名网友 2019-06-22 17:11:17

写得很好,学习了,适当地根据编码进行修改,例如utf-8

码姐姐匿名网友 2019-06-22 17:11:17

感激!不过我遇到了编码问题 应该解决了就能用。先学着~