1. 首页
  2. 数据库
  3. 其它
  4. Spark的基本使用

Spark的基本使用

上传者: 2021-01-15 18:13:40上传 PDF文件 31.01KB 热度 6次
启动Spark shell 打开命令行或终端——pyspark import pyspark 导入pyspark 查看spark context信息 读入文件: 打印文件内容 可利用collect()函数,它能够以数组的形式,返回RDD数据集的所有元素 lines = spark.read.text(‘file:///home/wordcound.txt’).rdd for i in lines.collect(): print(i) 处理文件: lines存储的是Row object类型 将其中的String取出,利用map api进一步转换RDD lines_map = lines.ma
下载地址
用户评论