(1)客户数据。少量的客户数据不足以提供有关客户偏好和消费的真实、实时的信息。从客户数据的来源来看,客户数据有一部分可以从企业现有的操作型系统获取,如ERP、SCM、HR系统但这对有效的客户智能实现是远远不够的。大多客户知识的发现需要集成至少5年甚至更长时间的客户数据。因此,能对客户智能起到全面支持作用的数据环境必须包括集成的客户数据和该客户的历史数据。
(2)产品数据。产品数据包括下面几个方面:产品类别信息:包括类别ID和名称;产品价格信息:产品ID、单价等;产品材料信息:材料ID、名称;供应商信息:供应商ID、名称、供应价、供应日期。
(3)订单信息数据。订单信息包括下面几个方面:订单固有信息:包括订单ID、日期等;客户信息:包括客户ID、名称等;产品信息:包括产品名称、设计属性等。
5、数据仓库的物理设计
(1)表空间设计。表空间设计主要是为了把逻辑意义的区分开,也为性能考虑,所以可以在表名前加前缀作为区分表所在的区。
(2)归档设计。由于数据在数据仓库中的频繁加载、删除,以及插入的操作,如果选用归档模式会使数据仓库产生大量日志。如果归档将严重影响性能,而且数据仓库对数据恢复的要求不高,所以采用非归档模式。
(3)安全性设计。数据库中所有法人用任务表全部放在一个用户下,以方便在各个区之间加载转换,再建一个用户用于展现,对所有的业务表只有只读权限。
(4)参数设计。由于数据仓库经常删除、插入,很少更新的特点,相对一般业务系统,加大块的大小,增加preused和减少prefree。
(5)备份恢复。这里采用每2天一次冷备份和一周一次逻辑备份。可以接受恢复两天前的数据,然后通过ETL重新从源数据库中获取最新数据。