哪种数据仓库架构最成功?

在BI/DW领域中,围绕“哪一种数据仓库架构(Data)最佳?”的争论一直没有休止,这个问题同时也是企业在建立DW时需要决策的关键问题 。Bill Inmon的集线器架构/企业信息工厂架构(Hub and Spoke / CIF –)与Ralph 的数据集市/数据仓库总线架构(Data Mart Bus /DataBus )则是DW架构的争论焦点 。
但是,这些争论一直无法形成统一的结论 。到底哪种DW架构最好,不同的BI/DW从业者在不同的项目中,面对不同企业的不同情况时,往往持有不同的说法 。
2005年,与Hugh 针对DW架构做了一个深入的调查,调查题目为“哪种数据仓库最成功?”,受访者由454位曾在各种不同规模的企业(绝大多数是美国企业)中参与了DW规划与实施的人员组成,受访者根据DW应用实际情况及经验体会做出回答 。
为了合理设计调查问卷,在调查问卷中合理设置调查对象(参与调查的DW架构)和评判标准(影响DW架构选择的因素及判断DW架构成功的因素等)等内容,和邀请了20位专家组成专家组设计调查问卷及判断标准等,这20位专家包括了DW领域的两位先驱——赫赫有名的Bill Inmon和Ralph。因此我们可以认为这份调查的结果是权威可信的 。
参与调查的DW架构
参与“哪种数据仓库架构最成功?”调查的5种DW架构
2005年DW架构调查情况
调查结果显示集线器架构(hub-and-spoke)、总线架构(Bus )、集中式架构()三种DW架构在接受调查的企业的DW实施中均拥有一定的占有率,分别为39%、26%和17% 。
【哪种数据仓库架构最成功?】不同数据仓库架构的占有率 – 2005年调查
调查问卷中针对评判DW架构是否成功设置4个方面的考察标准,每个方面的标准都都由多个评分项(子因素)构成 。考察标准包括:
1) 信息质量( )—— 架构能否有效保证数据准确性、完整性和一致性等;
2) 系统质量( )—— 架构的灵活性、可扩展性和集成能力等;
3) 用户影响( )—— 架构是否方便用户简单快速的获取数据,围绕相关问题以前所未有的方式进行分析和探索,从而提高用户数据决策的速度和能力;
4) 组织影响( )—— 架构是否满足业务业务需求,支持BI相关分析应用,从而保障战略业务目标的达成并改进业务过程,具有可度量的高投资回报率(ROI) 。
调查结果显示,各种DW架构的得分情况如下(评分因素采取7分制,得分越高表示DW架构越成功):
Data Marts
Bus
Hub and Spoke
(NoMarts)

哪种数据仓库架构最成功?

文章插图

4.42
5.16
5.35
5.23
4.73
4.59
5.60
5.56
5.41
4.69
5.08
5.80
5.62
5.64
5.15
4.66
哪种数据仓库架构最成功?

文章插图
5.34
5.24
5.30
4.77
从调查结果可以看出,独立数据集市架构( Data Marts)各项得分最低,这证明了独立数据集市架构是糟糕的架构这一共识是正确的 。
集线器架构(hub-and-spoke)在企业范围内构建大型数据仓库时应用的最为广泛,同时集线器架构也是花费最昂贵和最花费时间的架构,另外,集线器架构还需要在建设之前的前期规划中投入大量时间和预算进行全面而慎重的考虑 。
调查结果还显示出数据仓库总线架构、集线器架构、集中式架构三者得分相近,从而解释了为什么这几种架构相互竞争的局面长期存在——因为他们在各自特定的应用场景中都同样成功,在几个考评角度上没有哪一种能够占据主导地位 。