数据仓库快速入门教程6-OLAP

什么是在线分析处理?

OLAP(Online Analytical Processing)允许用户同时分析来自多个数据库系统的信息。 这项技术使分析师能够从不同的角度提取和查看业务数据。

分析师经常需要分组,汇总和加入数据。 关系数据库中的这些操作是资源密集型的。 使用OLAP数据可以预先计算和预先聚合,从而加快分析速度。

OLAP数据库分为一个或多个多维数据集。 立方体的设计使得创建和查看报告变得容易。

OLAP多维数据集:

image

OLAP的核心是OLAP多维数据集。 OLAP多维数据集是为快速数据分析而优化的数据结构。

OLAP多维数据集由称为度量的数字事实组成,这些度量按维度分类。 OLAP Cube也称为超立方体

通常,使用简单的电子表格执行数据操作和分析,其中数据值以行和列格式排列。 这是二维数据的理想选择。 但是,OLAP包含多维数据,数据通常从不同且不相关的源获取。 使用电子表格不是最佳选择。 多维数据集可以以逻辑和有序的方式存储和分析多维数据。

它是如何工作的?

数据仓库将从多个数据源和格式中提取信息,如文本文件,Excel工作表,多媒体文件等。

提取的数据被清理和转换。 将数据加载到OLAP服务器(或OLAP多维数据集)中,在这里预先计算信息以供进一步分析。

OLAP的基本分析操作

OLAP中的四种分析操作是:

  1. Roll-up 汇聚
  2. Drill-down 下沉
  3. Slice and dice 切片和骰子
  4. Pivot 旋转

1) Roll-up :

汇总也称为“合并”或“聚合”。 有两种方式

  1. 减少尺寸
  2. 概念层次结构是一种根据订单或级别对事物进行分组的系统。

image

  • 在这个例子中,城市新泽西和洛杉矶归入美国。
  • 新泽西州和洛杉矶的销售额分别为440和1560,合并为2000。
  • 在此聚合过程中,数据是位置层次结构从城市向国家。
  • 在卷起过程中,需要移除至少一个或多个尺寸。 在此示例中,Quater维度已删除。

2)下沉

  • 向下移动概念层次结构
  • 增加维度

image

  • Quater Q1将在1月,2月和3月进行。 相应的销售也是登记册。
  • 在此示例中,添加了维度月份。

3)切片:

选择维度,创建新的子多维数据集。

下图说明了切片操作的执行方式:

image

  • 使用Q1作为过滤器对尺寸时间进行切片。
  • 完全创建了一个新的多维数据集。

Dice:

类似于切片。 不同之处在于您选择了2个或更多维度,从而导致创建子多维数据集。

image

4)枢轴

在Pivot中,您可以旋转数据轴以提供数据的替代表示。

在以下示例中,数据透视表基于项类型。

image

OLAP系统的类型

OLAP分层结构

image

OLAP的类型 说明
关系OLAP(ROLAP): 扩展的RDBMS以及多维数据映射,以执行标准的关系操作。
多维OLAP(MOLAP) 在多维数据中实现操作。
混合在线分析处理(HOLAP) 在HOLAP方法中,聚合总计存储在多维数据库中,而详细数据存储在关系数据库中。 这提供了ROLAP模型的数据效率和MOLAP模型的性能。
桌面OLAP(DOLAP) 在桌面OLAP中,用户从本地或在桌面上从数据库下载部分数据并进行分析。 DOLAP的部署成本相对较低,因为与其他OLAP系统相比,它提供的功能非常少。
Web OLAP(WOLAP) 可以通过Web浏览器访问OLAP系统的Web OLAP。 WOLAP是一个三层架构。 它由三个组件组成:客户端,中间件和数据库服务器。
移动OLAP: Mobile OLAP可帮助用户使用移动设备访问和分析OLAP数据
空间OLAP: 创建SOLAP是为了便于管理地理信息系统(GIS)中的空间和非空间数据

ROLAP

ROLAP使用关系数据库中存在的数据。 事实和维度表存储为关系表。 它还允许对数据进行多维分析,是增长最快的OLAP。

ROLAP模型的优点:

  • 高数据效率。 它提供了高数据效率,因为查询性能和访问语言特别针对多维数据分析进行了优化。
  • 可扩展性。 这种类型的OLAP系统为管理大量数据提供了可扩展性,即使数据正在稳步增长。

ROLAP模型的缺点:

  • 对更高资源的需求: ROLAP需要高人力,软件和硬件资源的利用率。
  • 聚合数据限制。 ROLAP工具使用SQL进行聚合数据的所有计算。 但是,处理计算没有设置限制。
  • 查询性能慢。 与MOLAP相比,此模型中的查询性能较慢

MOLAP

MOLAP使用基于数组的多维存储引擎来显示数据的多维视图。 基本上,他们使用OLAP多维数据集。

参考资料

混合OLAP

混合OLAP是ROLAP和MOLAP的混合体。 它提供了MOLAP的快速计算和ROLAP的更高可扩展性。 HOLAP使用两个数据库。

  1. 聚合或计算数据存储在多维OLAP多维数据集中
  2. 详细信息存储在关系数据库中。

混合OLAP的好处:

  • 这种OLAP有助于节省磁盘空间,并且它还保持紧凑,有助于避免与访问速度和便利性相关的问题。
  • Hybrid HOLAP使用立方体技术,可以更快地处理所有类型的数据。
  • ROLAP即时更新,HOLAP用户可以访问这些实时即时更新的数据。 MOLAP带来了数据的清理和转换,从而提高了数据的相关性。 这带来了两全其美。

混合OLAP的缺点:

  • 更高的复杂性级别 HOLAP系统的主要缺点是它支持ROLAP和MOLAP工具和应用程序。 因此,它非常复杂。
  • 潜在的重叠特别是在功能方面存在重叠的可能性更高。

OLAP的优点

  • OLAP是适用于所有类型业务的平台,包括计划,预算,报告和分析。
  • OLAP多维数据集中的信息和计算是一致的。 这是一个至关重要的好处。
  • 快速创建和分析“假设”场景
  • 轻松搜索OLAP数据库以获取广泛或特定的术语。
  • OLAP为业务建模工具,数据挖掘工具,性能报告工具提供构建块。
  • 允许用户通过各种维度,度量和过滤器完成切片和切块立方体数据。
  • 它有利于分析时间序列。
  • 使用OLAP可以轻松找到一些集群和异常值。
  • 它是一个功能强大的可视化在线分析处理系统,可提供更快的响

OLAP的缺点

  • OLAP要求将数据组织成星形或雪花模式。 这些模式实现和管理起来很复杂
  • 您不能在单个OLAP多维数据集中拥有大量维度
  • OLAP系统无法访问事务数据。
  • OLAP多维数据集中的任何修改都需要完全更新多维数据集。 这是一个耗时的过程

摘要:

  • OLAP是一种技术,使分析师能够从不同的角度提取和查看业务数据。
  • OLAP的核心是OLAP多维数据集。
  • 各种业务应用程序和其他数据操作都需要使用OLAP Cube。
  • OLAP中有五种主要的分析操作1)卷起2)向下钻取3)切片4)骰子和5)旋转
  • 三种广泛使用的OLAP系统是MOLAP,ROLAP和Hybrid OLAP。
  • 桌面OLAP,Web OLAP和移动OLAP是一些其他类型的OLAP系统。

参考资料

links