基于电子商务的数据仓库的探讨
2022-03-24
来源:星星旅游
维普资讯 http://www.cqvip.com 2007/1 1 总第367期 商业研究 COMMERCIAL RESEARCH 文章编号:1001—148X(2007)11—0188—04 基于电子商务的数据仓库的探讨 聂高辉 (江西财经大学信息管理学院,江西南昌330013) 摘要:电子商务是未来所有企业的发展方向,作为电子商务发展过程中关键技术之一,数据仓库是电 子商务今后发展的重点所在。因此,进一步探讨电子商务对数据仓库的应用需求、数据仓库对电子商 务的支持以及基于电子商务的数据仓库设计问题是很必要的。 关键词:电子商务;数据挖掘;开发过程 中图分类号:F224.33 文献标识码:B 电子商务是未来所有企业的发展方向,作为电子 决策支持系统,可以极大地提高电子商务企业的商业 商务发展过程中关键技术之一,数据仓库是电子商务 智能,从而占有更大的市场,提高市场竞争力。 今后发展的重点所在,它不仅为电子商务存储各种商 一 品信息、交易信息以及用户信息,而且通过对数据的 电子商务对数据仓库的应用需求 再次整理和挖掘,可以为企业提供市场信息和决策依 电子商务(Electronic Commerce),是利用现代 据,进行趋势预测,从而真正体现电子商务在市场敏 信息网络进行商贸活动的一种最先进的贸易手段。通 锐性方面的优势,不断提高竞争力。对于电子商务企 过这种形式,人们可以对带有经济价值的产品和服务 业来讲,数据仓库的直接价值体现在可以满足用户全 进行宣传、购买和结算。这种交易方式不受地理位 面了解企业内部和外部环境的需要,同时减少现有系 置、资金多少或零售渠道的影响,使产品在世界范围 统的维护负担;长期价值则体现在通过业务数据使得 内交易,有助于降低企业的成本,提高企业竞争力, 企业能够从历史系统中转移到适应企业高速变化的半 也为消费者提供了更加丰富多样的选择和更加优越舒 结构化环境之中。构建一个基于电子商务的数据仓库 适的购物环境。 收稿日期:2007—02—05 作者简介:聂高辉(1962一)男,江西新千人,教授,在读博士。研究方向:经济数学与经济管理。 章 章坐 坐 } 章 章 坐坐坐坐坐 坐 鲁 鲁坐 章坐 鲁坐 章 章坐 章 章 鲁坐 鲁 坐 鲁 鲁 鲁 章 鲁 章 鲁 章坐 等也有一定的意义。但需要注意的是,审计主体与可 Developing Elcetronic Commerce Systems:the Impact 信第三方的融合与信息交互的困难,存在职能定义或 on System Success.Ph.D.Dissertation,Auburn Uni— 范围上的困难,在实际操作中可能存在界定上或主体 versity,2O02. 上不明确的问题。 孙宝文,李辉.电子商务的风险管理与审计研究 参考文献: 一 [J].中央财经大学学报,2003(5):76-81. 『1] Steve G.Sutton,Clark Hampton.Pdsk assessment in 王伟,陈秀真,管晓宏.深度防卫的自适应入侵检 an extended enterprise environment:redefining the 测系统[J].西安交通大学学报,2[1Y5(4):339— audit model[J].International Journal of Accountign 342. Information Systems,2003,13(4):57-73. 吴小强.电子商务协议建模、分析和风险预警模型 [2]Demn Liang,Fengyi Lin,Soushan Wu.Electronically 研究[D].北京:北京航空航天大学博士学位论文, auditign EDP systems With the support of emergign 2OO6. information technologies[J].International Journal of 吴小强,刘晶,朱世朋.基于可信第三方的安全支 Accountign Ifnormation Systems,2001,12(2):130— 付认证模型及应用[J].计算机集成制造系统 147. CMIS,2005,32(6):89—95. [3]K.Hung Chan and Phyllis L.MO.Ownership Effects Xiao—Qinag Wu,wan—Hua Qiu,Xiu—Sheng Li et on Audit—Detected Error Characteristics:An Empiri— 1a.An integratedframeworkfor design:securing bttsi— cal Study in an Emergign Economy[J].1he Interna- ness—to—consumer e—commerce[J].Journla of tional Journal fo Accounting,33(2):235—261. Systems Science&Ifnormation.2005,3(4):81l一 [4]Sandra Cherie Henderson.Is Auditor Participation in 828. (责任编辑:吕洪英) 1维普资讯 http://www.cqvip.com 总第367期 聂高辉:基于电子商务的数据仓库的探讨 ・l89・ .电子商务的出现实际上已有二十余年,其以往的 品之前,需要了解该商品的功能、质量、价格、外观 等,这实际上也是一种决策的过程。但一般的联机事 务处理(OLTP)系统主要要求更新的实时性,对查 形式有:EDI(电子数据交换)、电子邮件、文件传 输、电传以及条形码系统等。近年来,传统的电子商 务VAN(增值网),Intemet的电子商务迅速增长。 据1996年3月GIIC电子商务委员会的报告,1994 年,远距离电子购物只占全球总购物量的13%,而 预测到2005年,这个百分比将增加至32%。无疑, 电子商务是一个极具潜力的巨大市场,具有诱人的发 询的性能要求相对较弱。而数据仓库面向决策支持, 其体系结构着重保证查询和分析的实时性。 从以上的分析可以看出,随着商务需求的增长和 不断变化,我们需要数据仓库这样一种体系结构来存 储大量的异构数据,满足电子商务中的信息发布、查 展前景。 正如前面所提到的,电子商务是决策支持和事务 处理的混合体。当前,对电子商务的讨论研究多数集 中于交易处理之上,如网上数据的安全传输、身份认 证、电子支付等等。但实际上,决策支持同样是电于 商务的一个重要方面。一个企业要实现真正的电子商 务,并不仅仅是有一套电子支付系统就可以的。管理 者还需要从Intemet中获取各种有效信息,例如同类 企业的销售情况、市场的动态、顾客的消费行为等, 并据此进行分析,从而制定出及时、正确的策略,以 促进本企业的贸易。而数据仓库正是决策支持系统的 一个很好的解决方案,可见,在电子商务中应用数据 仓库以辅助决策,是十分必要的。 (一)数据的规模 当前,wⅣW是基于Intemet的电子商务最流行、 也是最有前途的实现平台。基于www的商务应用 比传统的方式效率更高,也更为有效。但www有 一个众所周知的特点,就是其中的信息浩如烟海,许 多人常常用“大海捞针”来比喻从WWW中搜索信 息的困难。因此电子商务需要一种高效灵活的工具, 来获取、存储相关信息。 (--)数据的复杂性 Intemet上的信息不仅数量极多,而且数据格式 多种多样,内容纷繁复杂。例如,要分析在多个国家 生产、销售的产品的利润.由于各国生产状况不同, 销售方式不一.各国的流通货币也不统一。在分析中 会有众多因素需要加以考虑。因此需要具有大容量、 并能有效处理不同格式数据的电子商务应用系统。 (三)历史数据 传统的数据库系统为了获得最大的执行效率,往 往存储尽可能少的数据源。因为拥有的数据越多,数 据组织重构、浏览、索引和监控的难度就越大。但决 策往往要用到大量的历史数据,例如,管理者常常需 要对过去一年中某产品每个月的销售情况作一比较分 析,以预测产品的销售定势。数据仓库为决策者的长 期决策行为提供了很好的支持,因为其根本特征之一 就是进行长时间的历史数据存储。 (四)查询需求 在电子商务中,无论是买方,还是卖方,都会对 系统有查询的要求。以买方为例,顾客在购买一件商 询、分析和决策等需求…。 二、数据仓库对电子商务的支持 电子商务应用需要数据仓库技术,这是由数据仓 库本身所具有的诸多优点所决定的。数据仓库的一些 基本特点,如面向主题、集成性、时间变异性、稳定 性,从各方面支持了电子商务的应用。数据的集成 性,解决了来自互联网的数据格式不一致问题,因为 各种数据在进入数据仓库之前都是经过转换的;时间 变异性则恰好支持了管理者在电子商务中利用大量历 史数据进行决策分析;稳定性则有助于防止电子商务 中的舞弊欺诈行为,因为数据仓库中的数据对于一般 用户而言都是只读的,若更新需由管理员在后台进 行。 从数据仓库的商业化逻辑模型、数据只读性和概 要视图这三个方面来进一步阐明数据仓库对电子商务 的支持。 (一)商业化逻辑模型 数据仓库的逻辑模型比起任何特殊应用的数据模 型来,与商业结构能更好地密切结合。由于具有面向 主题的特性,数据仓库中定义的实体与实际商业实体 相对应,如客户、产品、单据、分销商等。一般地, 数据仓库从多个源应用中收集数据,以形成一个商业 实体的属性。在单一的商业应用中的数据结构,对于 一个数据仓库而言都是不够完全的。例如,一个银行 中,信贷部门可能只知道顾客的贷款情况,而另一个 部门则可能只知道存款情况, 数据仓库则不然,其中 的一个客户就代表整个银行的客户,与该行有各种商 业联系。数据仓库中的数据模型是全面的,而且面向 商业实体,因而能与电子商务应用紧密有效的结合起 来。 (--)数据只读性 数据仓库体系结构的一个主要组成部分,就是用 于决策支持的只读性数据仓库,它具有以下特点:首 先,数据可能来自不同的数据库、不同的平台,而且 以多种数据类型和格式出现,在进入数据仓库之前, 数据必须经过转换;其次,用于决策支持的数据,存 在独立、只读的数据库中,其更新操作由专人在后台 进行,这样既保证了数据的安全,又节省了时间,提 高了系统的性能;最后,用户存取数据只需利用前线 维普资讯 http://www.cqvip.com ・l90・ 商业研究 2o07/IJ 工具,比如web浏览器,使得用户的操作简单方便。 随着用户需求的增长而增长,要能够适应用户需求的 因此,数据仓库中的只读数据库机制也是十分有利于 变化,所以性能链中的每个组件必须能够支持快速增 电子商务的。 长和快速变化这种特性,保证数据仓库平台不仅在开 (三)概要视图 始时可以很好地运行,而且将来也能够良好地运 当今的数据仓库,一个重要性质就是自动生成概 行 。 要视图,数据仓库中的概要视图与传统关系型数据库 (二)数据仓库平台开发方法 所提供的视图有些类似,但视图是一张虚表,而概要 数据仓库设计的主要目标是确定一个模型使之能 视图则是由用户预先生成的实际的表。 对决策支持处理进行优化,这样一个模型对商业分析 例如,一个企业在进行电子商务的过程中,可能 人员必须清楚易懂,而且能够支持快速查询过程。数 会有许多人经常要看产品销售的汇总数据,如果系统 据仓库中的数据必须干净、一致、精确。多维模型恰 在每次需要时都要调用大量数据进行分析,显然很浪 好满足了这些要求,可以采用星型模型来实现数据仓 费时间,而且也完全没有必要。因此,数据仓库就在 库系统,那么工作的重心集中在事实表和维表的建立 用户提出要求之前,预先对数据进行汇总。分析生成 上,而两者的建立主要是基于收集各种可能的OLAP 概要视图,这就显著地提高了系统的效率。 分析。图1显示了构建数据仓库多维模型的过程。数 在电子商务的应用中,概要视图的生成不仅仅是 据仓库平台的开发过程相当复杂,它不同与一般系统 数据的一般性总结,通常还要将商业规律应用到具体 平台的设计,因为数据仓库中的数据是面向主题,因 数据中。如概要视图可能包含一个过滤器,考虑某个 此其开发过程是一个数据驱动的过程,包括软硬件配 订单时,就在过滤器中加入相应的商业规律。通常一 置、体系结构的设计、技术的选择、开发环境等。笔 个数据仓库中有多个基于商业实体的概要视图…。 者侧重介绍数据仓库体系结构的设计,但硬件的配置 三、基于电子商务的数据仓库设计 也是不可忽略的一个部分,需要考虑到硬件对整个数 据仓库平台性能的影响,像各种服务器的选取,如数 (一)数据仓库平台的组成 据仓库数据库服务器、OLAP查询服务器、Web服务 数据仓库平台是由两部分组成的,包括硬件和软 器、应用服务器。整个平台使用Delphi为前端开发 件两部分。硬件平台是用来支持将面对的大量数据、 工具,微软SQL Server2000为目标数据库。微软SQL 多类用户、多种多样的工作量和大量的需求;软件平 Server 2000提供了一套完整的数据仓库分析和解决框 台则用一个高效的且优化的方式来组织和管理数据。 架,它集成了一系列的工具,是下一代可扩展的电子 一个高性能平台是任何一种高性能数据仓库环境的核 商务和数据仓库解决方案之一。微软通过把服务集成 心,就是这种平台决定了数据仓库环境的处理能力和 到技术平台中,使得商业智能系统和数据仓库的实现 输 输出带宽,可以支持的用户数,可以存储的数 更容易。SQL Server 2000提供如下组件,DTS,Rep- 据量,以及数据仓库环境如何适应用户需求的增长和 lication,Analysis Service,English Query,Meta Data 改变。一个高性能平台是由大量组件构成并在一条链 Services,使得数据仓库的实现非常容易 。 中将这些组件连接起来。因为数据仓库环境必须能够 数据仓库 _J\ 收集OLAP _J\ 选择数据仓库 -J\ 确定事实 _J\ 确定维表 确定事实 需求分析 -7/ 分析 -3/ 主题域和维 -1/ 表粒度 属性 表属忭 图1 电子数据仓库多维模型构建过程 (三)基于电子商务的数据仓库平台开发过程 2.逻辑设计阶段 1.需求分析和项目规划阶段 这一阶段主要完成数据仓库逻辑模型和数据仓库 在实现任何系统之前,第一步是需求分析,它是 体系结构的设计。笔者访问了很多电子商务站点来寻 数据仓库设计中非常主要的一部分,尤其是电子商务 求具体经验,同时模拟了许多商业场景来得出各种各 环境下,因为要捕获许多电子商务特有的数据,例 样的OLAP查询,然后在这些查询的基础上进行分 如:多媒体和半结构化数据的处理;各种网页数据到 类,得出所需要的主题域,既要确定事实表的粒度和 Web数据库的转变;支持数据库级的用户接口(如 必要的维,并要确定维的属性。设计时采用星型多维 存储设计,超链接等);模型的变化(如目录合并、 模型,这种数据模型直观且简化了数据结构,有助于 产品目录、新产品、已售商品等);元数据的处理和 提高查询的性能。数据仓库中的每一个主题对应于一 在上下文环境下捕获点击流(ClickStream)数据。 个星型模型结构,由事实表和若干维表组成,并按不 维普资讯 http://www.cqvip.com 总第367期 聂高辉:基于电子商务的数据仓库的探讨 ・191・ 同的粒度来存储数据。在完成数据模型的构建之后, 重要的一部分,只要是支持和管理数据仓库的任何所 设计如图2所示的数据仓库体系结构。这是一个3层 需信息,都要写到元数据库中,元数据管理是控制企 体系结构:最底层是数据仓库服务器,这是一个关系 业数据仓库、Web驱动的应用程序的关键部分。系 数据库系统,笔者把数据集市和元数据库也放在这一 统实现了基于Web的数据仓库访问,用户可以通过 层;中间层为OLAP服务器,它是一种特殊的服务 Meta data Browser来访问和管理元数据。 器,可以直接实现多维数据和操作;最顶层主要是应 (3)数据访问模块。这个模块主要完成数据前 用服务器,主要是商业智能应用程序,包括查询和报 端展现和各种OLAP查询、分析、数据挖掘以及各种 告工具,OLAP分析和数据挖掘,以及各种报表生成 报表的生成。 工具,使用Analysis Services来实现。在上面所提出 (4)数据仓库管理和维护模块。这个模块主要 的体系结构中,整个数据仓库平台由以下几个模块组 完成对数据仓库的日常维护和管理,涉及数据仓库的 成: 更新、备份,ETL规则的更新,平台性能的优化以及 (1)数据抽取、转换和加载模块。其功能是从各 数据仓库的安全性等。 种数据源抽取所需的数据,并通过清理和转换变成统 3.物理设计阶段 一的数据格式,加载到数据仓库数据库中。这里数据 物理阶段设计主要包括数据仓库物理模型的实现 源的选取和数据质量是非常重要的,以后的运作完全 和硬件平台的配置。这里重点考虑存储策略和索引技 是在这一步的基础上。数据源主要包括ERP/CRM数 术,所有表的存放都要充分利用并行处理技术和多线 据、OLAP数据、历史数据、外部数据(如人口统计 程技术,这样来提高数据仓库性能。在数据仓库环境 数据和心理学数据)、点击流数据、邮件列表等等。 下,主要使用位图索引和联合索引,加快今后查询的 (2)元数据管理模块。元数据是数据仓库中最 速度,同时还建立了很多汇总表和视图拉 。 :国I、 ——数—操据—作库— l 一/、I 画Il 、E—R P数—/—据C—R I— M圄国一/、l Il 、 —……——… —I Il、 、C lick数—-据—st— lr am I 图2 电子数据仓库体系结构 不断地理解需求,使得最终用户能做出更准确、更有 四、结束语 效的决策分析。电子商务也只有充分结合传统信息技 术的强大力量,才能持续、稳定、迅速地发展,真正 通过建立一个基于电子商务的数据仓库,企业可 实现全球贸易的伟大变革。 以提高商业智能,预测市场趋势并做出明智的决策, 参考文献: 从而提高市场竞争力。数据仓库系统平台的构建是一 [1] 练慧萍,杨明福.数据仓库技术及其在电子商务 个动态的反馈和循环的过程,是不断循环、螺旋式上 中的应用[J].微型电脑应用,1998(5). 升的,一方面,数据仓库的数据内容、结构、粒度、 [2] 钟珞,马志军,水俊峰.支持电子商务的高性能 分割以及其物理设计根据用户所返回的信息不断地调 数据仓库平台的设计[J].武汉理工大学学报, 整和完善,提高系统的效率和性能;另一方面,通过 2003(2). (责任编辑:席晓虹)