Spark— RDD介绍
一、概念 RDD(Resilient Distributed Datasets),弹性分布式数据集。特点是可以并行操作,并且是容错的。有两种方法可以创建RDD: 1.执行Transform操作(变换操作); 2.读取外部存储系统的数据集,如:HDFS、HBase,或者任何与Hadoop相关的数据源。 二、入门实例 案例一: //scala 语言 val data = Array(1,2,3,4,5) val r1 = data.parallelize(data) val r2 = data.parallelize(data,2) 你可以把RDD想象为一个特殊的集合类,上面的data是一个普通
下载地址
用户评论