1. 首页
  2. 数据库
  3. 其它
  4. SparkonAngel:Spark机器学习的核心加速器

SparkonAngel:Spark机器学习的核心加速器

上传者: 2021-02-01 21:06:19上传 PDF文件 655KB 热度 5次
Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问题的,它能最大化的解决分布式问题,简化各种算子的复杂度,并提供高性能的分布式数据处理运算能力。然而在机器学习领域,RDD的弱点很快也暴露了。机器学习的核心是迭代和参数更新。RDD凭借着逻辑上不落地的内存计算特性,可以很好的解决迭代的问题,然而RDD的不可变性,却非常不适合参数反复多次更新的需求。这本质上的不匹配性,导致了Spark的MLlib库,发展一直非常缓慢,从2015年开始就没有实质性的创新,性能也不好。为此,Angel在设计生态圈的时候,优先考虑了S
下载地址
用户评论