Apache Spark是一个用于大规模数据处理的快速通用引擎。
标签:大数据数据可视化数据分析Hadoop开发商: Apache
当前版本: v1.6
产品类型:开源
产品功能:大数据分析工具
平台语言:
开源水平:不提供源码
本产品的分类与介绍仅供参考,具体以商家网站介绍为准,如有疑问请来电 023-68661681 咨询。
* 关于本产品的分类与介绍仅供参考,精准产品资料以官网介绍为准,如需购买请先行测试。
Spark 拥有一个先进的DAG执行引擎,支持循环数据流和内存计算。
Spark提供超过80个易于构建并行应用程序的高阶运算符,你也可以在Scala、 Python和R shells中对它进行交互使用。
Spark支持一系列元件库堆栈,包括SQL与 DataFrames,用于机器学习的MLlib ,GraphX,Spark Streaming。你可以在同一个应用程序无缝地结合这些元件库。
你可以使用其独立集群模式来运行Spark,运行在 EC2、 Hadoop YARN还是Apache Mesos都不是问题。它可以访问HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop数据源。
Spark的中间数据放到内存中,对于迭代运算效率更高。
Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。
Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。
这些多种多样的数据集操作类型,给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。
不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
文章 |
5个构建实时数据管道时性能最好的工具
即时数据流在大数据分析中的地位已经非常突出,实时数据管道工具也是如此。本文为您带来一份数据流工具的清单,这些工具最适合进行数据驱动的决策。 |
2020-12-07 14:18:31.760 |
机器学习|10个最佳的人工智能开发框架和AI库(干货推荐)
通过本文我们来一起看一些用于人工智能的高质量AI库,它们的优点和缺点,以及它们的一些特点。 |
2018-01-15 11:24:53.000 |
更新时间:2017-04-28 14:25:02.000 | 录入时间:2016-01-29 11:06:44.000 | 责任编辑:佚名