Spark Dataflow Pipeline Execution with SparkPipelineRunner
火花数据流Spark-dataflow 允许用户使用 Spark 执行数据流管道。在 SparkPipelineRunner.run 集群上执行管道非常简单:只需依赖项目中的 spark-dataflow 并通过调用 SparkPipelineRunner.run 在程序中执行管道。当前版本的 Maven 坐标为:com.cloudera.dataflow.spark dataflow-spark 0.0.1。在具有 2 个线程的本地模式下,针对 Spark 集群运行管道的示例:
Pipeline p = Pipeline.create(PipelineOptionsFactory.create());
// 构建管道的逻辑
EvaluationResult result = new SparkPipelineRunner(\"local[2]\").run(p);
下载地址
用户评论