1. 首页
  2. 数据库
  3. 其它
  4. 第三章 3、1 文本预处理之分词(Word Segmentation)

第三章 3、1 文本预处理之分词(Word Segmentation)

上传者: 2021-01-31 16:21:12上传 PDF文件 2.32MB 热度 3次
一、大纲总览 1、tough资料:各类文本等的输入。 2、分词。好的分词算法很重要。 3、文本预处理。 4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。 5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。 6、模型:向量有了,然后就是根据算法去匹配。 二、分词 可以直接用的分词工具。 1、分词算法之最大匹配 向前最大匹配、向后最大匹配、双向最大匹配(不讲) 向前最大匹配 1、首先输入一个句子,已知后建好的词典库,设置好窗口值(5) 2、窗口从第一个汉字开始向后滑动以此减少 3、在词典库中匹配到的话,就直接切分句子,然后窗口移动到下一个句子里面 4、每
下载地址
用户评论