结巴分词、词性标注以及停用词过滤 上传者:奈呵喬的過客 2019-06-22 17:11:17上传 ZIP文件 7.15MB 热度 89次 Stuttering, part-of-speech tagging, and stop word filtering 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 码姐姐匿名网友 2019-06-22 17:11:17 应该可以解决我想进行中文词性标注,过滤需要 码姐姐匿名网友 2019-06-22 17:11:17 很不错的东西 码姐姐匿名网友 2019-06-22 17:11:17 亲测可用,encode-decode下编码格式,就可以用来分词过滤了,感谢分享 码姐姐匿名网友 2019-06-22 17:11:17 不错可以使用 码姐姐匿名网友 2019-06-22 17:11:17 正好要用到,下来参考一下 码姐姐匿名网友 2019-06-22 17:11:17 stopword编码问题,先用notepad++编码转为UTF-8无BOM编码,测试的话,加入 import sys import io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 再输出就没问题了 码姐姐匿名网友 2019-06-22 17:11:17 我也是遇到了编码问题,不知道该怎样改。有解决的请留下言,方便后来人,谢谢~ 码姐姐匿名网友 2019-06-22 17:11:17 写得很好,学习了,适当地根据编码进行修改,例如utf-8 码姐姐匿名网友 2019-06-22 17:11:17 感激!不过我遇到了编码问题 应该解决了就能用。先学着~ 发表评论
应该可以解决我想进行中文词性标注,过滤需要
很不错的东西
亲测可用,encode-decode下编码格式,就可以用来分词过滤了,感谢分享
不错可以使用
正好要用到,下来参考一下
stopword编码问题,先用notepad++编码转为UTF-8无BOM编码,测试的话,加入 import sys import io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 再输出就没问题了
我也是遇到了编码问题,不知道该怎样改。有解决的请留下言,方便后来人,谢谢~
写得很好,学习了,适当地根据编码进行修改,例如utf-8
感激!不过我遇到了编码问题 应该解决了就能用。先学着~