1. 首页
  2. 数据库
  3. 其它
  4. Spark多数据源计算实践及其在GrowingIO的实践

Spark多数据源计算实践及其在GrowingIO的实践

上传者: 2021-04-11 17:06:09上传 PDF文件 569.67KB 热度 13次
本文主要介绍如何使用ApacheSpark中的DataSourceAPI以实现多个数据源混合计算的实践,那么这么做的意义何在,其主要归结于3个方面:首先,我们身边存在大量的数据,结构化、非结构化,各种各样的数据结构、格局格式,这种数据的多样性本身即是大数据的特性之一,从而也决定了一种存储方式不可能通吃所有。因此,数据本身决定了多种数据源存在的必然性。传统方案中,实现多数据源通常有两种方案:冗余存储,一份业务数据有多个存储,或者内部互相引用;集中的计算,不同的数据使用不同存储,但是会在统一的地方集中计算,算的时候把这些数据从不同位置读取出来。下面一起讨论这两种解决方案中存在的问题:图1多数据源方
下载地址
用户评论