自然语言处理条件随机场工具集
自然语言处理、条件随机场
运用字标注法进行中文分词,对语料进行字标注,观察分词效果。开源的条件随机场工具包“CRF++:YetAnotherCRFtoolkit”进行分词。
可以使用的中文语料资源是SIGHAN提供的backoff2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在微软语料库上可以到达96%以上的效果。
下载地址
用户评论