转帖 收藏 | “大数据”学习资源(上)

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。

# 行业资讯 # 2016-07-20 09:23:09.000 276
转帖 浅谈【数据地图】在数据分析中的作用

和以前用Excel制作数据地图相比,使用R语言确实便捷了许多,而且将鼠标悬停在地图上方时能够显示数据明细,通过拖动鼠标能够改变最大最小值,相应的地图区域会动态显示或隐藏,这些特点要在Excel中实现估计相当麻烦。

# 行业资讯 # 2016-07-14 10:23:00.000 1016
原创 IBM专家亲自解读 Spark2.0 操作指南

本文带大家一起进行Spark的大数据之旅。本文的内容主要分为两个部分:一是Spark的背景介绍,二是介绍Spark的基础。

# 行业资讯 # 2016-07-08 09:41:54.000 1328
转帖 2分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

# 行业资讯 # 2015-12-15 14:17:06.000 401
原创 什么是Spark,如何使用Spark进行数据分析

Spark是UC Berkeley AMP lab所开发类似于Hadoop MapReduce的通用并行计算框架,Spark是基于map reduce算法实现分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出的结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce算法。

# 行业资讯 # 2015-12-09 10:39:24.000 1051
原创 完全分布式HBase集群安装配置示例

HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的,并适合于存储超大型松散数据。HBase适合于实时,随机对Big数据进行读写操作的业务环境。关于HBase的更多介绍请参见HBase项目官网。

# 行业资讯 # 2015-12-03 15:12:45.000 492
原创 HBase基础知识,面向列的实时分布式数据库

Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。

# 行业资讯 # 2015-11-17 10:11:18.000 1076
原创 Hadoop开发人员基础课程之初识MapReduce

随着Hadoop在国内的迅速崛起,MapReduce也逐渐引起开发人员的重视,作为Hadoop的核心,让我们一起来看看它是怎样运作的。

# 行业资讯 # 2015-11-13 11:38:03.000 481
原创 分布式文件系统HDFS解析

HDFS是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。

# 行业资讯 # 2015-11-11 11:05:12.000 651
原创 什么是Hadoop,怎样学习Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

# 行业资讯 # 2015-11-09 10:48:26.000 1504
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP