数 据 仓 库 概 念 的 简 单 理 解
一个典型的企业数据仓库系统通常包含数据源、 数据存储与管理、 OLAP服务
器以及前端工具与应用四个部分。如下图所示:
数据源:
是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和
外部信息。内部信息包括存放于企业操作型数据库中 (通常存放在 RDBMS中)的
各种业务数据和办公自动化 (OA)系统包含的各类文档数据。 外部信息包括各类
法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;
数据的存储与管理:
是整个数据仓库系统的核心。 在现有各业务系统的基础上, 对数据进行抽取、
清理,并有效集成,按照主题进行重新组织, 最终确定数据仓库的物理存储结构,
同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、
数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数
据仓库存储可以分为企业级数据仓库和部门级数据仓库 (通常称为“数据集市”,
Data Mart )。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工
作。这些功能与目前的 DBMS基本一致。
OLAP服务器:
对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多
层次的分析,发现数据趋势。其具体实现可以分为: ROLAP、MOLAP和 HOLAP。ROLAP
基本数据和聚合数据均存放在 RDBMS之中;MOLAP基本数据和聚合数据均存放于
多维数据库中;而 HOLAP是 ROLAP与 MOLAP的综合,基本数据存放于 RDBMS之中,
聚合数据存放于多维数据库中。
前端工具与应用:
前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具
以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对
OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对 OLAP服务
器。?
集线器与车轮状结构的企业级数据仓库 ?
这种结构也称为“ Hub and Spoke”,这是因为中央数据库汇集了来自各业
务处理系统的数据,同时也负责向各从属数据集市提供信息,看上去像一个 Hub
(集线器 );而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数
据集市,这种交叉复杂的连接看上去就像
数据/仓库/工具/系统/存放/包括/分析/存储/业务/OLAP/
数据/仓库/工具/系统/存放/包括/分析/存储/业务/OLAP/
-->