元数据收集分步指南

日期: 2010-07-18 作者:Josh Howard翻译:杨华军 来源:TechTarget中国 英文

在《用零星预算打造元数据存储库》中,我们介绍了数据建模协作库(“小写r”的库)必备知识,以及使用建模库,要确保你所选的库能执行的一些标准作业,接下来我们将继续介绍相关内容。   高端的数据建模工具可通过数据库逆向工程的方式用于启动元数据收集上,也可以用在业务术语、业务域的导入,通过元数据搭桥来寻找外部源上面。许多数据建模工具允许你导出HTML报表,为你退一步去追溯过程提供一些灵活性。报表和你所收集的相关元数据能为验证该过程提供一种好的手段,能为牵涉到所有访谈流程提供一种共同的参照框架,把用来完整捕捉到企业视图的必要的访谈数量最小化。

  用你自己的数据建模工具,执行以下步骤去收集元数据:   ……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

《用零星预算打造元数据存储库》中,我们介绍了数据建模协作库(“小写r”的库)必备知识,以及使用建模库,要确保你所选的库能执行的一些标准作业,接下来我们将继续介绍相关内容。

  高端的数据建模工具可通过数据库逆向工程的方式用于启动元数据收集上,也可以用在业务术语、业务域的导入,通过元数据搭桥来寻找外部源上面。许多数据建模工具允许你导出HTML报表,为你退一步去追溯过程提供一些灵活性。报表和你所收集的相关元数据能为验证该过程提供一种好的手段,能为牵涉到所有访谈流程提供一种共同的参照框架,把用来完整捕捉到企业视图的必要的访谈数量最小化。

  用你自己的数据建模工具,执行以下步骤去收集元数据:

  •   识别出企业内部的数据库服务器,对每一个数据库服务器所包含的物理模式进行逆向工程。
  •   建立单一的企业数据模型,把每一个逆向工程出来的物理模式放进主模型内。
  •   将模式元数据导出到电子表格里,由相应的数据架构师做出注释,对于每一个实体和关联属性,哪些是已知的。
  •   从应用源码中析取出业务逻辑。
  •   通过概括析取、转换和加载(ETL)脚本捕捉转换规则和数据沿袭元数据。
  •   导入任何已有的业务过程模型(BPM)到标准的BPM工具里。
  •   概括数据使用,关注休眠数据的识别,以及高利用率的数据,如数据库、表还有元素。
  •   评估捕获的元数据的一致性。对发现的任何差异进行标识和标注。

  关键的下一步——提供元数据
  
  你的用户是不会从你收集到的元数据那里得到太多价值的,除非它已经被导入了库里,做好分类,进行了索引,并向相关的业务、系统和数据分析师开放。生成元数据库的步骤因方案不同而异;然而,方法论还是相当标准的。每个解决方案都应当提供导入和导出机制,允许数据在不同元数据收集工具间桥接。对于那些天生就不为仓库解决方案所支持的收集工具,一种共同的可理解的格式,比如说XML,可作为临时的桥接手段。

  举个例子,如果描述数据术语的元数据已经被捕捉到一个松结构的工具里,比如说微软EXCEL,该元数据就可以导出为逗号分隔值(CSV)格式得分文件里,然后再导入回一个支持的数据建模工具中。大部分数据建模工具允许用户导出元数据为XML格式。尽管Excel文件很有可能是以“非结构化内容”的形式被捕捉进仓库里,它还是可以通过导入相应的元数据到数据建模工具,然后再导出为模式元数据(schema metadata)的方式转换为结构化内容。当然,这个例子,已经假设电子表格里的元数据是与逻辑或物理数据模型相关联了的。
 
  选择合适的工具收集和提供元数据十分关键。该工具应当直观、简单。更重要的是,这些工具应当很好地相互集成,以便最大限度地减少桥接工具的使用。(注:每次数据从一个工具被导出到另一个工具的时候,就会存在一次元数据丢失或被修改的风险)这些工具还应当为行业标准所接受,以便无论你所选的元数据库解决方案是什么它们都能被支持。

  你已经收集好元数据并完成了集中化,现在该做什么?

  一旦你已经收集好并提供了仓库里所有的元数据,真正的乐趣开始了。付出终有回报,令人激动的时刻到了。你可以开始跟其他业务和IT用户分享这些富数据(Rich data),并把它们转化为信息。当门户、维基百科(wikis)以及SharePoint都与该仓库联系在一起的时候,数据架构师可创建标准的业务和技术报表来让元数据无所不在。这为终端用户提供了有价值的信息,让他们更快速、更容易地了解数据,从而抛弃冗长的报表或者吓人的打印出来的数据。弹指间就能访问到这一切的信息,他们就能创建新产品,并能比以往更快速地将产品投放市场,给需要元数据的受众以访问权,并确保其他团队的应用开发人员与你设立的数据标准保持一致。而且,这些大都通过你环境里已有的数据建模工具就能完成——只消花一小部分费用。

相关推荐

  • 在iBPM和BPM间做选择 不一定非此即彼

    大多数系统都有一样的能力,在很多人看来,除了BPM或者iBPM这两个标签以外,实际上它们之间并没有任何区别。

  • 案例分析:多阶段元数据一致性分析在北京银行的应用

    还记得苦逼的程序员们在系统上线当天彻夜加班排查上线脚本问题的场景吗?我们给出的办法使用元数据对比分析场景来解决这类问题,那么北京银行科技部门是如何借助元数据管理工具实现IT运营效率的提升。

  • 三个场景玩转元数据应用

    很多企业也意识到了元数据重要性,并购买了元数据系统,但系统如何发挥价值,是需要考虑的问题。元数据到底应该管理哪些数据?分析哪些环节?看似抽象的系统的功能在企业IT、数据建设中有哪些应用场景?

  • 云存储和容量管理

    云存储听上去是如此简单。你只需为你所使用的支付费用,并且在任何时候,都很容易判断你使用的存储量。然而,经验丰富的IT专业人员都清楚,实施一项新技术或方法很少会如此简单。