1. 首页
  2. 数据库
  3. 其它
  4. 文本切分

文本切分

上传者: 2021-02-01 00:03:48上传 PDF文件 34.39KB 热度 26次
您好!我是“筋斗云上”,请多关照! 第一篇 文本切分 文本切分包含 两个步骤:句子切分、词语切分 一、句子切分 句子切分是将文本语料库分解成句子的过程,句子 切分基本技术是在句子之间寻找特定的分隔符,例如句号(.)换行符(\n)或者分号(;)等。 NLTK框架常用的句子切分器有: sent_tokenize PunkSentenceTokenizer RegexpTokenizer 预先训练的句子切分模型 关于sent_tokenize,以NLTK中的古腾堡(gutenberg)语料库为例 import nltk from nltk.corpus import gutenberg al
下载地址
用户评论