1. 首页
  2. 数据库
  3. 其它
  4. cs435:CS435(大数据) 源码

cs435:CS435(大数据) 源码

上传者: 2021-05-02 18:24:20上传 ZIP文件 1.47MB 热度 15次
cs435-大数据 PA1 使用MapReduce生成以下unigram配置文件(来自Wikipedia文章的1G数据集): 概要1:在整个语料库中至少出现过一次的字母组合的列表。 字母组合按(升序)字母顺序排序。 无重复。 简介2:目标文章中的字母组合及其频率列表。 此配置文件是按文章生成的。 结果列表按文档ID进行分组,并按照文章中的会标字词的频率进行排序(降序排列)。 配置文件3:在语料库中的字母组合及其频率的列表。 字母组合列表按语料库中字母组合的频率排序(降序排列)。 输入数据: PA1的输入数据是从一组Wikipedia文章编译而来的数据集。 每个数据文件的格式如下: Title_of_Article-1<====>DocumentID-1<====>Text_of_Article-1 NEWLINE NEWLINE Title_of_Article-2<==
下载地址
用户评论