基于SOA架构的企业内容管理方案的数据建模

日期: 2008-01-31 来源:TechTarget中国

  本文从数据建模角度,探讨在金融业,基于 SOA 架构如何设计一个平台级的数据模型,以满足其企业内容管理(Enterprise Content Management, ECM)方案的构建。

  概述

  ECM (Enterprise Content Management)是企业内容管理方案的英文简称,该类解决方案在各行业中正逐渐被广泛的采用。本文将探讨在金融业,基于 SOA 架构如何设计一个平台级的数据模型,以满足其 ECM 方案的构建。

  ECM 在金融业中的采用方式普遍表现为,将各种原始单证扫描成图像后存入 ECM 系统,然后在其上建立业务流程,例如贷款审批业务,只需要审批人在原图像上加盖同意的数字章即可转入下一步流程,从而节省了纸张,提高了效率,流程更加透明,查询更加便利。另外,由于金融业分支机构众多,且现有应用众多,所以基于 SOA 的架构来实现 ECM,是一个好的选择。

  在这种基于 SOA 的 ECM 架构中,要适应金融业的发展状况,平台级的数据模型设计就显得尤为关键,在本文中,详细论述了该类方案的数据建模要点和过程。

  业务与架构

  下图是 IBM 在信息管理方面的 SOA 参考架构。本文将要介绍的针对金融业 ECM 进行数据建模的内容对应于图中的 Content Management 区域。下面将首先从业务和架构展开详细描述。

  图 1. IBM 信息管理的 SOA 参考架构

  金融业在使用 ECM 方案处理各种单证文件信息时,主要表现为以下方面 :

  信息的传输: 各网点将原始单证扫描后按业务分类,分批次传入后台的内容管理服务平台,平台可以部署在营业网点,当然这要视网点业务的规模而定,也可以部署在分中心,分中心还会再和总中心的内容管理平台打交道。这需要借助于 IBM 的企业服务总线 (ESB) 来实现。
  流程的处理: 将内容管理平台纳入流程管理,后续业务操作将会基于已扫描的单证信息产生工作流,工作流的基本处理元素存储在 ECM 中。这些需要 IBM 流程服务器来构建。

  针对上述业务特征,从 IT 角度来说,ECM 平台需要处理的主要元素包括 :

  操作信息
  业务信息
  文档信息
  文档页信息

  以及上述各种信息之间的关系

  另外,从操作性方面来考虑,还会涉及 :

  事务控制
  并发控制
  权限控制
  统计信息,包括运行状态,错误与异常。

  由于上述所需处理的元素之间存在相当多的关系,而目前市场上多数的内容管理产品的强项在于内容本身的存储管理,对于内容间的复杂关系的管理,则显得是有点力不从心,例如多层引用关系就会导致内容管理性能的下降,所以使用单纯的内容管理产品往往无法满足金融业的 ECM 应用,需要借助成熟的数据库技术来实现,其架构如图 2 所示,其中元数据,即各种内容的描述信息及其业务关系信息交由数据库来处理,媒体(即内容)信息则交给内容管理产品来负责。

  图 2. 内容管理平台架构

  由此产生了数据建模的需要,数据模型需要满足以下要求:

  模型通用化,与业务松耦合。
  具有很好的扩展性,支持新业务的添加扩展。

  下面进入我们富有创意的数据建模工作。

  数据库模型设计概述

  在开始我们的数据建模之前,首先让我们简单地回顾一下数据库模型设计的基本步骤,数据建模主要由逻辑模型设计和物理模型设计构成,其中逻辑模型设计主要完成以下三个任务:

  标识逻辑实体
  标识逻辑实体间关系
  标识逻辑实体的属性

  物理模型是由逻辑模型转化而来的,要根据具体的数据库产品,为已经设计好的逻辑模型实体选择合适的数据类型和长度(字符串,整形)或精度(浮点数,金额型),将其转化为物理数据库模型,为物理数据库模型设计表空间,bufferpool,表,索引,外键,序列等等,最后得到数据库建库脚本。

  有了逻辑模型后,物理模型就是水到渠成的事情了,所以本文重点在逻辑建模内容,物理模型不做赘述。

  标识逻辑实体

  逻辑模型设计的实体标识阶段,是要根据业务的分析结果,将业务对象抽象出来。

  从前面描述的业务和 IT 要素中,我们可以分析得到逻辑实体有 :

  参与人——业务人员
  事件——扫描,传输,获取
  事物——金融单证的图像,也可以叫做资源
  时间——隐含在事件要素中
  地点——各业务部门

  图 3. 组成世界的逻辑对象

  其实上述的五大要素构成了现实世界,所以从中我们可以抽象出所需要的逻辑实体:

  Event
  Business Info
  Resource Item
  Resource Item Component
  Party

  通过上述思路,可以有效的从具体业务中抽象出逻辑实体,这样即使将来增加其他的内容存储业务,也可以很好的对应进来,不过还需要类型配置来表明是何种业务何种数据,即再增加一个数据字典实体:

  Classification

  这样,我们就标识出了逻辑模型的基础实体。下面再标识实体的属性以及实体间的关系。

  标识逻辑实体的属性和关系

  EVENT

  EVENT 代表了业务事件,其基本要素要求有时间,人员,事件类型,可以得出逻辑实体的属性如下图:

  图 4. EVENT

  Resource Item

  Resource Item 代表了资源项,主要内容包括资源项类型,对应的事件,序号等信息,其实体属性如下图:

  图 5. Resource Item

  Resource Item Component

  Resource Item Component 代表了资源项的组件,主要内容包括资源项组件的类型,对应的事件,组件在资源项中的序号,对之进行改动的人员及时间,其实体属性如下图:

  图 6. Resource Item Component

  Business Info

  Business Info 代表了业务信息,由于金融业务信息千差万别,这里无法做到用模型概括,所以这里的 Business Info 只是定义了非常通用的业务属性,即业务类型属性。具体的业务可以继承 Business Info 的属性,在其基础之上进行扩展和自定义。详细扩展方式参见模型的可扩展 -BusinessInfo 的继承。

  将以上各个实体的属性丰满起来之后,再标识实体间关系,如一对多,一对一,多对多等关系。从而得出实体关系如图 7:

  图 7. 实体关系图

  上图 7 中黄色部分是基础实体,代表了我们的业务对象,绿色部分是主要实体间关系衍生而来的关系型实体,灰色部分是分类的定义,其中灰色部分的实体全部继承自 Classification 实体,其继承关系如下图 8 所示:

  图 8. 分类继承关系图

  上图 8 中的灰色实体全部为逻辑化实体,在逻辑模型转为物理模型时将其内容合并上升到 Classification 实体中。

  模型的可扩展性 – Business Info 的继承

  模型为新业务提供了扩展点,Business Info 实体是所有业务的父亲,新增添的业务可以在它基础上加以继承,如图 9:

  图 9. Business Info 扩展

  上图中 XXX Business Info 为新增的某业务示例,它的 ID 继承自 Business Info 实体,其它部分为 XXX 业务特定的业务信息,是扩展时根据具体业务需要自行定义的。

  这样就提供了一个扩展框架,可以在此框架之上任意添加新的业务实体。在添加新的业务时,应用程序主程序几乎不需要变动,只需要添加一个新的业务处理类,主程序从 Business Info 中可以得到新业务的 ID 和业务类型 Business Type,然后将 ID 和 Business Type 交给业务处理单元处理,业务处理单元根据业务类型 Business Type 调用相应的业务处理类就可以了,如此扩展带来的成本很低,效率却很高。

  模型的松耦合性 – Classification 的使用

  模型不仅提供了良好的扩展性,还具备了与业务无关的松耦合性,这个特性是通过 Classification 实体来实现的。在 Classification 实体中,可以定义任意的业务含义,这些业务含义和那些抽象实体(如 Event,Resource Item,Resource Item Component)相结合,就可以处理各种业务情况。

  可以把 Classification 理解为字典数据,只不过这个字典数据是需要系统自定义的,而且可以定义成任何含义,从而达到脱离具体的业务用语,实现模型与业务的松散耦合。

  事务控制

  在基于 SOA 架构的 ECM 应用中,数据交换的内容包括两部分:

  XML 格式的元数据
  媒体文件

  两者可以作为一个包传输,也可以分开传输,由于两者在内容,用途和大小上差异很大,分开并行传输是一个好的选择,这就引出了同步和事务控制的问题,这在数据模型中也是需要考虑的,但因为它已经和业务无关了,是纯粹的 IT 技术问题,所以在这里不做深入探讨,下面只是简单介绍思路和要点,有兴趣的读者可以自己尝试完成。

  在模型中建立 APP 的主题域,在该域中下定义两个实体:sync list 和 transaction control。

  sync list 用于同步元数据和媒体数据,当两者成对收到后即可进行下一步处理。

  transaction control 用于控制 DBM 与 CM 存储时多阶段提交的事务完整性,逻辑表示如下图:

  图 10. 事务控制时序图

  从图 10 中可以看到,事务的每一步执行都预先登记在 Transaction Control 中,即时任何一刻失败了,例如遇到宕机,应用崩溃等,将系统重启后,应用重新扫描 Transaction Control,即可从上次失败处继续处理,从而实现了事务的逻辑完整性。

  另外,当客户端提交数据后,由于传输中包括了媒体信息,所以后台的异步传输是需要一些时间的,用户可能在这个时间段内要求查询处理状况,从上面的设计可以看到,可以从以下地方查询到处理情况:

  数据在 Sync List 中,说明还在传输途中。
  数据在 Transaction control 中,说明还在保存中。
  数据不在上述两项中,但在数据库中可以查到对应的记录,说明处理已完成。

  结束语

  本文针对金融业的 ECM 方案,从数据建模的角度论述了如何设计数据模型,可以实现与业务的松耦合,保持良好的扩展,从而做到平台级别的设计。文中包含了典型的数据模型设计方法,和已经验证多年的成熟的设计技巧,希望能给数据建模人员带来帮助。

  从数据建模的角度,文章到这里就可以结束了,但从 ECM 数据平台的角度,则还有很多工作要做,比如如果能在数据库之上设计一层数据存取层,提供标准的 API,从而屏蔽掉数据库和 CM 产品的差异,则就是一个强有力的中间层产品了,这就需要更多的设计与开发工作了。

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐

  • 总线技术究竟该不该用?

    曾几何时企业服务总线(ESB)被视为企业IT的核心。今天,不仅ESB受到了比被废弃还要糟糕的攻击,若干开发趋势似乎对更简单的消息总线也发起了质疑。

  • 架构安全模型开发方式探索

    维护一个强大的安全模型,以及相关合规和管控的需求越来越重要,特别是在如今黑客和入侵几乎每天都会发生的情况下。

  • 锐易特依托大数据升级核心产品

    锐易特的核心产品企业服务总线(RES ESB)V6.0版本的成功发布,为我们重新审视国产中间件的信息整合之路,提供了宝贵机会。公司负责人介绍了产品升级后的性能及企业发展策略。

  • 从ESB到微服务:如何演变?

    从web开发人员的角度看,大量的微服务部署到轻量级的Karaf 容器中,这就符合了ESB的定义。