thai tokenizer:快速准确的泰国代币化库 源码
泰语分词器 快速和准确的泰式标记化库,使用专为全文搜索应用程序设计的受监督 。 安装 pip3 install thai_tokenizer 用法 默认的配对对已针对简短的泰语-英语产品描述进行了优化。 from thai_tokenizer import Tokenizer tokenizer = Tokenizer () tokenizer ( 'iPad Mini 256GB เครื่องไทย' ) #> 'iPad Mini 256GB เครื่อง ไทย' tokenizer . split ( 'เครื่องไทย' ) #> ['เครื่อง', 'ไทย'] 训练 请参阅以获取指导以训练自己的配对。 贡献 拉请求是受欢迎的。 对于重大更改,请先打开一个问题以讨论您要更改的内容。 执照
下载地址
用户评论