文本的预处理程序包括如何断句等(非常准确)
1.删除文件中的中文、西文空格2.将篇章切分为一个个的句子,切分标志为:。!?…;等,句中如果有引号,要求左右匹配3.对句子按长度从大到小分行排序。4.在每行句子前加上序号5.统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果
下载地址
用户评论