开源大数据分析软件管理平台——IBM Data Science Experience 正式推出

原创|行业资讯|编辑:陈俊吉|2017-05-19 10:20:43.000|阅读 440 次

概述:Data Science Experience从表面上看,它融合了各种开源技术,包括Apache Spark、编程语言Scala/Python/R/SQL、Jupyter Notebooks、R Studio 和 Shiny,这些都是当前非常流行的,使用非常广泛的数据分析技术。

什么需要Data Science Experience?

大数据技术的发展,对企业来说,既是机遇,又是挑战,我们都希望可以利用大数据分析技术,来辅助解决业务问题,为决策者提供客观的决策依据,愿望是美好的,但真正实现起来,可不是那么容易,它的成功与否,取决于几个重要条件:

1.行业业务专家的指导

2.数据分析人员的能力

3.所需要的平台能力

4.管理与运维

第1点和第2点,取决于人,第3点和第4点,取决于支撑数据分析的底层架构及平台能力,当前很多企业,都喜欢使用开源的平台,比如Spark、Python、R、Scala等等,在我们接触的客户中,或多或少,都会用到这些,经常会有客户问,哪一种技术比较好,要怎么选择?这样的问题,不同角色的人给出的答案都会不一样,正所谓”萝卜青菜,各有所爱”,而对于管理者来说,面对形形色色的开源平台,该如何选择?分析及开发人员是否可以任性地做自己擅长的事情 ,擅长用Python的就用Python,擅长用R的就用R,擅长用Scala的就用Scala? 在各自实现分析模型之后,是否可以通过一个统一的平台来实现对这些开源平台、模型做统一的管理,统一的监控、甚至可以很好地协作,实现1+1大于2呢? IBM在这方面从去年开始就做了尝试,推出Data Science Experience on Cloud(云版本,按月收费),而今年4月份,发布 了Data Science Experience Local版本(本地版本,一次性收费永久使用),可以部署在客户本地,这对国内企业来说,是非常值得推荐的平台,所以接下来,给大家具体介绍下它是如何解决前面所提到的问题,以及它的特点及优势。

Data Science Experience是什么?

Data Science Experience从表面上看,它融合了各种开源技术,包括Apache Spark、编程语言Scala/Python/R/SQL、Jupyter Notebooks、R Studio 和 Shiny,这些都是当前非常流行的,使用非常广泛的数据分析技术,在Data Science Experience,你可以自由切换使用,用于不用,用哪一种,你可以任性地自由选择,并且,安装后,只需要通过IE输入链接就可以直接使用,从这个层面上说,它帮助我们免去了安装不同开源平台的烦琐,另外,更重要的是,它解决了不同开源平台杂乱无章管理的痛苦,并且可以协助大家在这个平台上愉快地合作。

Data Science Experiences有什么优势? 

1.以项目方式管理资源

这些资源包括数据源、Notebook、用户等,首先,我们会先创建一个项目,在菜单栏上选择【Projects】,在出来的面板上,选择右上角的【create project】即可。

创建完成后,你会看到在Project里面,包括了三大部分,分别是NoteBook、Data Assets和Bookmarks.

在Notebooks这里,我们可以创建用R Studio或者是Python写的代码,只需要点击右上方的【add notebooks】, 创建notebook有三种方式,分别是blank(一片空白,从头开始写)、From File(已经写好了的R或Python文件,直接载入进来)和From URL(如果你的朋友已经发布了代码在网上,你直接让他发个链接给你,直接读取)。

2.自由选择开源平台及灵活切换

在创建Notebook的时候,我们可以先从零开始,选择【Blank】,接下来,就可以自己选择你擅长的语言来写了,比如这里选择Python 2和Spark 2.0

点击右下角的【create notebook】即可。

如果在使用过程中,想转换语言实现,也很简单,直接在菜单栏上选择Kernel-->右键,从出来的菜单选项中选择转换即可,如下图:

 

3.连接多种数据源------So easy!

数据源是我们分析的基础,在Data Science Experience中,连接不同数据源,只需要配置【Connection】就可以, 不需要写代码,因为…….你配置好相关信息后,它会自动生成代码。如何实现呢?

首先,在菜单栏上选择【Data Services】-->【Connection】,选择【External】就可以看到下拉框有很多不同数据源可以选择,支持的数据源列表如下:

这里选择DB2 on Cloud,进行相应的配置即可如下图:

在【Connection】这里,我们可以对所有数据源做统一的管理,除了查看所有数据源之外,还可以对数据源进行编辑、共享及删除。

 

4.自动生成数据源连接代码

在刚刚创建完Connections后,会看到刚才新建的WebchatArticle_Connection数据源,如下图:

 

回到我们前面第二步已经创建好notebook,选择好语言之后,在Data Assets这里选择数据集,有两种方式,一种是直接拖个文件过来,如下图红色框部分:

 

也可以选择【Connections】面板,然后选择已经创建好的数据集,就可以看到它已经加入到Data Assets中了,如下图:

然后,我们再选择刚才创建的【notebook】,点击编辑即可,进到以下页面:

在右边面板上,可以找到我们刚才创建好的数据集,在下面有【insert to code】,直接点击,则会在左边的代码编辑器上生成相应的连接代码,如下图:

如果您选择的是文件,那它也会同样的生成连接文件的code给你。

4.任务按计划自动调度运行

在创建好notebook之后,可以自动调度按时间计划运行,很简单,只需要在notebook面板上,选择菜单栏上的小时钟【Schedule】

就可以按hourly/daily/weekly/monthly计划任务执行时间了。 

5.与同事的共享与权限控制

在Notebook面板上,我们可以将其分享给我们的同事,选择菜单栏上的【Share】

然后可以选择要分享的内容,是只有文本和输出结果,还是也可以将代码共享给大家,然后将Link发给您的朋友,他们就可以看到您的杰作了。

同时,我们也可以设置别人对我创建的Notebook的使用权限,在【Collaborators】面板上,可以选择【Addcollaborators】

然后可以设置您加的同事权限是浏览、编辑还是管理员。

最后我们简单总结下Data Science Experience的功能优势:

  1. 整合多项开源技术(Spark、R Studio、Python、Scala等),提供可自由切换的统一平台。
  2. 快速连接各项数据源,并对多项数据源进行统一治理。
  3. 对整个平台的用户权限、资源调度进行统一管理。

 下一期,我们会介绍 Data Science Experience在机器学习、云端应用等其它方面的功能优势,比如:

  1. 与IBM其它分析平台的整合,包括BlueMix、Watson Analytics、iLOG CPLEX(优化引擎)、Machine Learning(机器学习)、SPSS Modeler(可视化的数据挖掘)等的深度整合,构建整个Watson Data Platform平台,满足企业所有的分析需求。
  2. Data Science Experience Local版本对系统资源(比如CPU、内存等)占用的可视化监控。
  3. 提供社区及评论区域,实现与其它人的交互等等。

敬请期待……



标签:大数据数据分析Hadoop

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果

登录慧都网发表评论登录


暂无评论...

为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
title
title
相关厂商
相关产品
Cognos Analytics

工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业

SPSS Modeler

工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效

IBM BigInsights for Apache Hadoop

经济高效地存储、管理和分析大数据

IBM InfoSphere Streams

高效捕获和分析动态数据的软件平台

InfoSphere DataStage

助您发现、充实、集成和管理数据的整个生命周期

InfoSphere Data Replication

在异构数据存储之间复制数据

InfoSphere Change Data Capture

在跨平台和异构数据库环境中实现变化数据的实时复制

i2 Analyst's Notebook

i2 Analyst's Notebook 能够及时提供具有执行力的情报,帮助发现、预测、预防和阻止犯罪、恐怖活动和欺诈活动。

i2 COPLINK

i2 COPLINK 是模块化的警务软件,可通过其他打击犯罪工具进行定制,以满足用户的特定需求,提高破案能力。

SPSS Statistics Subscription

利用不同的数据统计分析模块帮助企业提高生产力并取得更好的成果

在线客服 在线QQ 电话咨询
400-700-1020
反馈
在线客服系统
live chat