一、大规模定制客户智能数据仓库技术
1、数据的抽取。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量,转换、调度和监控等几个方面。
2、数据的存储和管理。数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多且随时间的推移而累积。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。从当今的技术发展来看,面向决策支持扩充的并行关系数据库将是数据仓库的核心。
3、数据的表现。实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似,数据挖掘与数据仓库也没有直接的联系,而且这个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律。市场上许多数据挖掘工具并不是真正寻找出数据的规律,而是验证尽可能多的假设,最后由人来判断其合理性。因此在当前的数据仓库应用中有效地利用数理统计就已经能够获得可观的效益。
二、客户数据仓库模型设计
1、数据结构图。星型和雪花结构是在数据仓库中最为广泛的数据结构,它们的主要优点是能提供多维的模式,并能实现对数据的快速查询和连接。星型结构是非范式、以查询为中心的模型,这种模型的最大优点是能够提供所谓的星连接,通过一步连接就可以获取大部分所需要的信息,并能很快得到输出结果,这种模型里信息可分为两大类:事实表和维表。
2、概念模型设计。概念模型设计是建立数据仓库的第一步,是主客观之间的一个桥梁,是客观世界到机器世界的一个中间层次。描述概念模型最常用的方法是E-R图法,运用E-R图可以清晰的表示客户、订单和产品之间的关系。
3、数据结构图。星型和雪花结构是在数据仓库中应用最为广泛的数据结构,它们的主要优点是能够提供多为的模式,并能实现对数据的快速查询和连接。星型结构势非范式的,以查询为中心的模型,这种模型的最大优点是能够提供所谓的星连接,通过一步连接就可以获取大部分所需要的信息,并能很快得到输出结果,这种模型里信息可分为两大类:事实表和维表。
4、逻辑数据模型设计。逻辑模型式通用化的数据模型它的典型产品是实体关系图,用于描述现实世界中实体和实体间的关系。