1. 首页
  2. 数据库
  3. 其它
  4. 流式大数据处理的三种框架:StormSpark和Samza

流式大数据处理的三种框架:StormSpark和Samza

上传者: 2021-02-01 00:24:41上传 PDF文件 325.65KB 热度 6次
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(workernode)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身
下载地址
用户评论