拥抱开源 - 云上元数据管理

原创|行业资讯|编辑:陈俊吉|2016-09-30 10:04:46.000|阅读 1426 次

概述:上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。

# 您正在找协同办公软件吗?点击这里站长给您推荐 #

相关链接:

上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。

hadoop

在整个数据工程师的工作流程中,需要自始至终的进行数据治理:我们需要将每种类型的数据进行清晰的标识以及分类,以利于其它角色的用户进行查找以及使用;我们需要将每种数据的使用范围进行管理以及监控,以使得数据被合理、合法的使用;我们还要管理数据的生存周期以及质量溯源,以利于数据质量可以被监管,无用数据被清除...... 因此本文中我们将着重介绍上图中标红框的部分,介绍实现我们梦想的工具Open Metadata Services - 开源组件Apache Atlas。

这个模块还在Apache的孵化中,最新的版本是8月16号发布的0.7版本。详细文档可以查看以下链接:http://atlas.incubator.apache.org/

Atlas 最早由HortonWorks实现,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架。后来开源出来给Apache社区进行孵化,目前得到Aetna,Merck,Target,SAS等公司的支持进行发展演进,IBM现在也积极贡献功能,拿来为我所用。(其在HortonWorks公司的介绍材料链接: https://zh.hortonworks.com/apache/atlas/#section_1 ) 从其诞生历史看,该框架天生就支持横向海量扩展,具备良好的集成能力,非常适合在云上使用。以下是其架构图:

hadoop

Apache网站介绍它的主要功能有:

1、数据分类 ;

2、集中审计 ;

3、搜索及溯源 ;

4、安全及策略引擎 ;

它的最核心部分Core就是类型管理系统 Type System , 用户可以把数据资产进行类型定义,然后使用Ingest/Export 的模块进行元数据的导入、修改、删除等管理。和外界的接口可以通过Rest API或使用Kafaka进行消息交换。数据对象存放在按照图的模式进行管理的Titan图数据库中,具体Titan又把元数据存放在HBase中,索引存放在Solr中。这样用户可以非常便捷和直观的通过层次图进行浏览信息,可以按照文字进行精确的查找。

hadoop

如上图,我们将数据资产分成了五类,分别是:Pipeline、Data Set、Report、Model、Notebook,具体存储的属性是红色框部分,描述了以上五种数据资产的详细信息:例如它是哪类型业务,数据质量如何,归在哪个项目里面,具体评级如何、用户访问权限如何等等......

有了这个Open Data Services服务后,我们是否觉得又离梦想近了一步?更详细的使用我们将在未来文章分享。

IBM对开源社区一直采取大力拥抱以及不遗余力地进行支持的态度:

hadoop

IBM基于Cloud Foundry 打造了世界最大的PaaS平台BlueMix,在上面部署了大量开源的云数据服务业务 - 例如Cloudant源于CouchDB,DataWorks Forge构建在Spark平台之上。现在我们将Atlas开源元数据管理部署到我们的云数据治理中,通过实际使用来促进该项目的大力发展。我们有理由相信,未来IBM 将把开源的魔力继续发扬光大!

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381



标签:大数据BI数据可视化数据分析

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果

登录 慧都网发表评论


暂无评论...

为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
title
title
相关厂商
相关产品
Cognos Analytics

工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业

SPSS Modeler

工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效

IBM BigInsights for Apache Hadoop

经济高效地存储、管理和分析大数据

IBM InfoSphere Streams

高效捕获和分析动态数据的软件平台

InfoSphere DataStage

助您发现、充实、集成和管理数据的整个生命周期

Watson Analytics

具备理解,学习和推理能力,实现更智能的人机互动,帮助人们做出更好的决策

InfoSphere Change Data Capture

在跨平台和异构数据库环境中实现变化数据的实时复制

i2 Analyst's Notebook

i2 Analyst's Notebook 能够及时提供具有执行力的情报,帮助发现、预测、预防和阻止犯罪、恐怖活动和欺诈活动。

在线
客服
在线
QQ
咨询
电话
173-8239-2642
购物车 反馈 返回
顶部
在线客服系统
live chat