Spark (产品编号:13780)

Apache Spark是一个用于大规模数据处理的快速通用引擎。

标签:大数据数据可视化数据分析Hadoop

开发商: Apache

当前版本: v1.6

产品类型:开源

产品功能:BI

平台语言:

开源水平:不提供源码

用户推荐:

用户评分:

本产品的分类与介绍仅供参考,具体以商家网站介绍为准,如有疑问请来电 023-68661681 咨询。

同类软件推荐:

PivotCube
PivotCube

使用OLAP方法进行多维数据分析的首选控件

HierCube VCL (OLAP Grid)
HierCube VCL (OLAP Grid)

创建高级Borland OLAP应用程序的VCL控件,不需要任何的OLAP服务器,可以一秒之内完成有百万条记录的表的处理。

阅读更多
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
需要培训、定制、外包?请联系我们!企业QQ:800018081 慧都专业技术团队帮助您提高效率,节省成本,降低风险!

关于本产品的分类与介绍仅供参考,精准产品资料以官网介绍为准,如需购买请先行测试。

产品优势:

高速:运行程序的速度在存储器中比Hadoop MapReduce快上百倍,在磁盘中比Hadoop MapReduce快数十倍。

Spark 拥有一个先进的DAG执行引擎,支持循环数据流和内存计算。

Spark
Spark

易用:编写Java、Scala、Python、R程序快速高效。

Spark提供超过80个易于构建并行应用程序的高阶运算符,你也可以在Scala、 Python和R shells中对它进行交互使用。

通用:可结合SQL、流媒体和复杂的分析。

Spark支持一系列元件库堆栈,包括SQL与 DataFrames,用于机器学习的MLlib ,GraphX,Spark Streaming。你可以在同一个应用程序无缝地结合这些元件库。

Spark
Spark

无处不在:Spark可以运行在Hadoop、Mesos、standalone以及云端。它可以访问包括 HDFS、 Cassandra、 HBase和S3在内的不同数据源。

你可以使用其独立集群模式来运行Spark,运行在 EC2、 Hadoop YARN还是Apache Mesos都不是问题。它可以访问HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop数据源。


与Hadoop的对比

  • Spark的中间数据放到内存中,对于迭代运算效率更高。

  • Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。

  • Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。

这些多种多样的数据集操作类型,给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

类型 标题 发布时间
文章 机器学习|10个最佳的人工智能开发框架和AI库(干货推荐)

通过本文我们来一起看一些用于人工智能的高质量AI库,它们的优点和缺点,以及它们的一些特点。

2018-01-15 11:24:53.000
文章 机器学习|如何使用Spark 开发Java电子邮件垃圾分类应用程序?

本文将带您了解如何开发和使用您自己的基于机器学习的电子邮件垃圾邮件分类系统。因为,谁会喜欢垃圾邮件呢?

2018-01-10 11:23:30.000

更新时间:2017-04-28 14:25:02.000 | 录入时间:2016-01-29 11:06:44.000 | 责任编辑:佚名

登录慧都网发表评论登录


慧都网友 2016-02-01 13:50:48.000
0

Apache Spark这技术目前在大数据行业里很火啊。


title
title
相关产品
PivotCube

使用OLAP方法进行多维数据分析的首选控件

HierCube VCL (OLAP Grid)

创建高级Borland OLAP应用程序的VCL控件,不需要任何的OLAP服务器,可以一秒之内完成有百万条记录的表的处理。

RadarCube ASP.NET & Silverlight

RadarCube是灵活性高且运算速度快的全功能OLAP控件集,是BI解决方案最佳的选择!

RadarCube Windows Forms

灵活且速度快,兼容几乎所有数据库或SSAS数据源,是OLAP BI商业智能解决方案最佳的选择!

RadarCube VCL

RadarCube VCL是商业智能应用程序的最佳选择,具有功能强大、速度快、灵活性佳的优点。

相关厂商
在线客服 在线QQ 电话咨询
400-700-1020
反馈
在线客服系统
live chat