9.3.2 map端连接 CompositeInputFormat连接类
1.1.1 map端连接-CompositeInputFormat连接类 (1)使用CompositeInputFormat连接类需要满足三个条件: 1)两个数据集都是大的数据集,不能用缓存文件的方式。 2)数据集都是按照相同的键进行排序; 3)数据集有相同的分区数,同一个键的所有记录在同一个分区中,输出文件不可分割; 要满足这三个条件,输入数据在达到map端连接函数之前,两个数据集被reduce处理,reduce任务数量相同都为n,两个数据集被分区输出到n个文件,同一个键的所有记录在同一个分区中,且数据集中的数据都是按照连接键进行排序的。reduce数量相同、键相同且都是按键
下载地址
用户评论