Posts Tagged ‘数据仓库’

一周技术回顾(2008 No.11)

1 这周最后两天开始翻去年买的那两本数据挖掘的书。去年随便看过一些,但是一直没有认真的去学习,对于数据仓库、数据集市、OLAP、数据立方体等等的概念 都比较模糊。现在是该深入的时候了。简单说说数据仓库的概念,相对于我们通常的应用数据库(比如说网站后端的数据库),数据仓库是稳定的、面向主题的,没 有事务、恢复和并发处理。通俗一点说就是数据仓库中的数据是按照数据分析、挖掘的需求重新组织后不断的累计起来的。再来说数据集市,它是数据仓库的一部 分,比如某个集团公司中一个分公司的数据。但是注意这样说的前提是先建立了数据仓库,然后区分分公司或部门的数据以满足各自的分析需求。
而OLAP和数据立方体(Data Cube)这两个概念是进行数据分析中碰到的,OLAP(联机分析处理)是数据分析的手段,数据立方体则是OLAP进行分析的数据单元。数据立方体是需要 通过分析需求后(确定分析的维度、度量值等等)在数据仓库中建立的。在这个过程中我认为比较重要的两点是,数据的粒度和分析性能。
先简单说这么多,接下来的一段时间会继续学习和应用这方面的知识,我会继续写这方面的东西。