1. 首页
  2. 数据库
  3. 其它
  4. Spark— RDD介绍

Spark— RDD介绍

上传者: 2021-02-01 00:06:53上传 PDF文件 34.74KB 热度 25次
一、概念 RDD(Resilient Distributed Datasets),弹性分布式数据集。特点是可以并行操作,并且是容错的。有两种方法可以创建RDD: 1.执行Transform操作(变换操作); 2.读取外部存储系统的数据集,如:HDFS、HBase,或者任何与Hadoop相关的数据源。 二、入门实例 案例一: //scala 语言 val data = Array(1,2,3,4,5) val r1 = data.parallelize(data) val r2 = data.parallelize(data,2) 你可以把RDD想象为一个特殊的集合类,上面的data是一个普通
下载地址
用户评论