信息系统间数据迁移的设计与实现
摘要:数据迁移的顺利完成是信息系统改造升级中相当重要的一环。本文以一个实际应用中的信息系统为例,从分析设计阶段到实施阶段,详细阐述了数据从一个既有成熟的系统向新建设的系统中迁移的实现过程和注意要点。 关键字:信息系统 数据迁移
中图分类号:tp311 文献标识码:a 文章编号:1672-3791(2012)10(b)-0014-01
在项目开发过程中经常会遇到老系统的历史数据向新系统迁移的问题,很多历史数据对新系统来说相当重要,有些甚至是新系统启用时所必须的,可以说一次成功的历史数据迁移是新系统成功上线运行的基础。数据迁移的质量不光决定了新系统的上线成功与否,也对新系统上线后的稳定运行有着巨大的影响。 1 系统概述
根据用户需求,为了贯彻政府文件要求,开展对持有独生子女父母光荣证的企业退休职工发放一次性奖励的工作,开发了计划生育一次性待遇发放系统。它以企业退休职工为服务人群,实现了计划生育一次性待遇发放相关的一系列流程控制和数据管理,包括了单位管理、单位发放管理、个人申请管理、个人公示管理、个人发放管理、综合查询等功能。 2 数据迁移设计
本系统虽然是个功能相对独立的系统,但企业退休职工数据作
为所有业务的起点却非系统自身产生的数据,而是源自社会保障管理信息系统,因此社保系统必须向本系统提供系统运行所需的数据。只有这些数据的迁移成功后,一次性待遇发放的具体业务操作才能正常开展起来。然而社保系统由于历史原因,其数据并非统一存放,而是分散在各统筹区不同的社保系统中,客观上就存在着较大的差异。为了保证各统筹区的数据都能在本系统中运行,数据迁移的设计必须以实现统一数据格式,统一数据标准为原则。 2.1 数据字典设计
首先,根据用户的具体需求,确定能保障新系统运行的基础数据,而这些数据就是数据迁移所需要的数据内容。通过与用户的交流和分析,最终确定了各统筹区需向本系统提供的数据主要为单位基本信息和退休人员基本信息等,具体如下。
退休人员基本信息:个人id、姓名、身份证号、性别、退休时间、单位id、常住地、户口地、生存状态、死亡时间、联系电话。 单位基本信息:单位id、单位名称、主管部门、注册地址、经营地址、联系人、联系电话。
辖区基本信息:辖区id、辖区名称。
其次,根据需要迁移的信息,设计统一的数据字典,制定迁移的目标。各统筹区的数据最终将转换成统一格式的接口表,便于将来新系统对数据的使用。 2.2 数据抽取转换设计
数据字典设计完成后,就可以进入各统筹区系统中,进一步研
究如何因地制宜提取数据的方法。需要分析的内容包括原系统数据字典整理、原系统数据质量分析、新系统数据字典整理、新旧系统数据差异分析、建立新旧系统数据之间的映射关系等。 首先,要通过分析和整理原有系统的数据,从中找出与本次数据迁移所需要的数据和迁移范围。必须在系统中明确找到个人id、姓名、身份证号等信息的数据来源。然而另外一些不需要迁移的数据也很重要。例如,本次迁移人员的要求是养老金需没有享受过独生子女5%上浮的企业退休人员,因此相关待遇计算信息也是需要明确的非迁移信息。如果分析过程中发现数据存在质量问题,需及时与用户和其相关技术人员进行沟通。
其次,根据整理好的原系统和新系统的数据字典,分析系统间的差异,建立新老系统数据字典的映射关系,将非标准的数据转化为在一定程度上的标准化的数据,使映射后的数据能够适应新系统的要求。大部分的迁移字段都可以通过直接映射的方法进行迁移(如个人id、单位id、姓名、身份证号等),还有一部分编码数据(如性别、单位的主管部门、各辖区编码等)由于各统筹区的差异性,不能直接使用,这就需要采用中间编码映射的方式,将不统一的编码映射成统一标准的编码。为了数据抽取方便,可以设计必要的视图;如果涉及到较为复杂的中间计算过程,也可以通过使用创建中间表的方法,将中间过程数据暂存到中间表中辅助建立映射关系。而通过各种方法通过映射关系转换后的数据放在与数据字典同名的表中备查。
最后,为了保证数据迁移的正确性,及时发现迁移中可能遇到的问题,需对迁移条件以及迁移字段的正确性进行校验。如果数据中含有不规范的数据,将对新系统的运行造成很多问题和麻烦。校验通常包括检查二义性、重复数据、不完整、违反业务或逻辑规则等问题的数据进行相应的检查操作,如人员是否满足条件、单位和退休人员是否一致、标准化后的编码的正确性等。 3 数据迁移的实施
根据上述的设计思路,可以开发出一套数据迁移实施脚本和数据迁移结果校验脚本。在迁移脚本执行完成后,可通过校验脚本检查数据,也可以通过筛选特殊测试用例进行抽查测试,及时对错误数据进行修正,或者调整抽取脚本,重新抽取。
数据抽取完成后,需要将数据传递到新系统中。由于各统筹区社保系统各自独立,而且新系统与各统筹区系统也没有实际的连接,因此本次数据迁移采用了通过中介文件的方式来实现。考虑到相关系统都使用oracle数据库管理数据,故可通过使用oracle的工具生成和导入dump文件的方法来实施数据传递,将数据迁入到新系统中去。导入后,可在系统中对迁移的数据进行进一步的测试,确保迁移的数据可在系统中正常使用。 4 结语
通过上述步骤的实施,计划生育一次性待遇发放系统的数据迁移已经基本完成了。本次实施过程中,主要难点是不同统筹区业务数据怎样进行统一,因此必须对各统筹区的相关业务数据都有了
解,也需要同相关用户和技术人员反复沟通。迁移完成后要进行多次测试以检验迁移数据的完整性和正确性。目前本系统已经正式上线使用,本次数据迁移为企业退休职工一次性待遇发放的顺利开展提供了数据保障。 参考文献
[1] 池太崴.数据仓库结构设计与实施-建造信息系统的金字塔[m].2版.电子工业出版社,2009.
[2] 袁磊,刘宏生,王淮龙.医院信息系统数据迁移的实现[j].中国医疗前沿(下半月),2009,4(11):123-124.
[3] 赵钦,周丹.政府办公自动化信息系统数据迁移解决方案[j].广西科学院学报,2008,24(4):354-355,359.
因篇幅问题不能全部显示,请点此查看更多更全内容