1. 首页
  2. 数据库
  3. 其它
  4. 汉字频率:从各种来源收集的汉字使用频率数据 源码

汉字频率:从各种来源收集的汉字使用频率数据 源码

上传者: 2021-02-09 02:58:52上传 ZIP文件 928.58KB 热度 21次
汉字频率 通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。 您可以在目录中找到以下文件: 文件 汉字总数 描述 日期 〜51.5百万 小说和非小说书籍 2015年5月 〜1030万 来自各种来源的在线新闻文章 2015年6月 〜1000万 收集的Twitter消息 2015年6月 约784.6M 日语 2015年5月 请参阅下面的详细说明。 格式 每个文件包含一个数组数组(行)。 每行包含三个字段: (字符串)汉字本身。 第一行中的"all"是特例。 (整数)在分析的数据集中发现多少次。 对于"all"它是包括重复在内的汉字总数。 (浮点数)此字符表示的数据总量的
下载地址
用户评论