资讯专栏INFORMATION COLUMN

多维数据查询OLAP及MDX语言学习整理

bigdevil_s / 3553人阅读

摘要:多维数组多维数组用维和度量的组合表示。此外,还能对多维数据进行深加工。选定多维数组的一个维成员做数据分割的操作称为该维上的一个切片。

OLAP

为了满足业务管理和决策的报表系统(包括传统报表、数据仓库、OLAP等)也被创建出来,企业主管通过报表了解企业的总体运行状态。
但是,随着企业间竞争的加剧和市场节奏的进一步加快,企业的日常管理需要对关键业务指标的更加实时的监控和反馈。比如:制造业需要更及时的仓库调度、金融业需要更实时的风险防范、电信业需要更及时的服务指标监控。于是,越来越多的企业提出实时企业的要求,传统的ERP等信息系统和报表系统无法满足这些需求。实时业务监控解决方案旨在更好支撑客户此类需求。
http://www.tuicool.com/articl...
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLAP技术非常多的特性,概括起来主要有如下几点特性:

OLAP技术是面向分析人员、管理人员的;

OLAP技术对数据访问通常是只读的,并且一次访问大量数据;

OLAP技术是面向主题的多维数据分析技术。

OLAP(On-Line Analysis Processing)在线分析处理是一种共享多维信息的快速分析技术;
OLAP利用多维数据库技术使用户从不同角度观察数据;OLAP用于支持复杂的分析操作,侧重于对管理人员的决策支持,可以满足分析人员快速、灵活地进行大数据复量的复杂查询的要求,并且以一种直观、易懂的形式呈现查询结果,辅助决策。
上面是OLAP的一些不同的解释,本文将从以下几个方面介绍OLAP。

OLAP的基本概念

http://www.huqiwen.com/2012/0...
Cube立方体的概念:

在Bi领域,cube是一个非常重要的概念,是多维立方体的简称,主要是用于支持联机分析应用(OLAP),为企业决策提供支持。Cube就像一个坐标系,每一个Dimension代表一个坐标系,要想得到一个一个点,就必须在每一个坐标轴上取得一个值,而这个点就是Cube中的Cell。


Cube是联机分析的关键。他们是一种多维结构,包含原始事实数据、聚合数据,这些数据聚合允许用户快速进行复杂的查询,Mdx语言就应用它更是如鱼得水。
Cube包含两个基本概念:维度和度量

维度(Dimension):维度提供了分类描述,表示一类分析角度,用户通过维度分析度量数据。比如上图中的三个维度:时间、产品、地域

度量(Measures):度量表示用来聚合分析的数字信息,度量的集合组合成了一个特殊的维度。如数量、销售额等。

级别(Level):一个维度上可以包含的层次结构,表示特定的分类。如上图中地域维度可以包含的级别层次级:国家、省、市;时间维度包含的级别层次包含:年、季度、月、日等。

成员,是最重要的概念之一,一个成员是维度(包括度量)上的项目值。如上图时间维度上”年“级别的成员就包含:2000,2001,2002,2003...月成员包含:1、2、3等。

计算成员,是一种运行通过特殊表示式动态计算的成员。也就形成了度量(Measures)的结果。计算成员不影响现有的Cube数据,它基于cube数据,通过各种数学表达式和各种函数定义,可以创建复杂的表达式。任何动态分析功能,都可以通过计算成员实现,比如实现占比,同期比等等。

维度的概念
例如一个维度(Dimension):Region
该维度下有四个级别(Levels):country、province、city、county,他们属于层次集合(Hierarchy)
通过维度和级别我们可以定义一个元素(Member)如:
Region.Levels(1).members(2)=china
Region.Levels(2).members(3)=shanghai

http://www.cnblogs.com/zhijia...

二、 OLAP的基本概念
(1)度量、指标)
是数据度量的指标,是数据的实际意义,即描述数据“是什么”。像上面示例中的人数。
(2)维度
维度是描述与业务主题相关的一组属性,单个属性或属性集合可以构成一个维。如上面示例中的学历、民族、性别等都是维度。
(3)维的层次
一个维往往可以具有多个层次,例如时间维度分为年、季度、月和日等层次,地区维可以是国家、地区、省、市等层次。这里的层次表示数据细化程度,对应概念分层。后面介绍的上钻操作就是由低层概念映射到高层概念。概念分层可除根据概念的全序和偏序关系确定外,还可以通过对数据进行离散化和分组实现。
(4)维的成员
若维是多层次的,则不同的层次的取值构成一个维成员。部分维层次同样可以构成维成员,例如“某年某季度”、“某季某月”等都可以是时间维的成员。
(5)多维数组
多维数组用维和度量的组合表示。一个多维数组可以表示为(维1,维2,……,维n,变量),例如(部门,职系、民族、性别,人数)组成一个多维数组。
(6)数据单元(单元格)
多维数组的取值。当多维数组中每个维都有确定的取值时,就唯一确定一个变量的值。数据单元可以表示为(维1成员,维2成员,……,维N成员,变量的值),例如(人事教育部,技能,回族,男,1人)表示一个数据单元,表示人事教育部职系是技能的回族男性有1人。
(7)事实
事实是不同维度在某一取值下的度量,例如上述人事教育部职系是技能的回族男性有1人就表示在部门、职系、民族、性别四个维度上企业人数的事实度量,并且在为人数事实中包含部门维度人事教育部这一个维度层次,如果将人数事实的所有维度考虑在内,就构成有关人数的多维分析立方体。
三、 OLAP的特点
电子数据表与OLAP相比,不具备OLAP的多维性、层次、维度计算以及结构与视图分离等特点。
多维。维是OLAP的核心概念,多维性是OLAP的关键属性,这与数据仓库的多维数据组织正好相互补充。为了使用户能够从多个维度、多个数据粒度查看数据,了解数据蕴含的信息,
系统需要提供对数据的多维分析功能,包括切片、旋转和钻取等多种操作
四、 OLAP的操作
OLAP比较常用的操作包括对多维数据的切片与切块、上钻(drill-up)与下钻(drill-down)以下旋转(rotate)等。此外,OLAP还能对多维数据进行深加工。
OALP的这些操作使用户能够从多个视角观察数据,并以图形、报表等多种形式展示,从而获取隐藏在数据中的信息。
(1)切片与切块。
选定多维数组的一个维成员做数据分割的操作称为该维上的一个切片。通常把多维数组中选定一个二维子集的操作视为切片,假设选定的维i上的某个维成员Vi,则此多维数组子集可以定义为(维V1……,维Vi,维N,变量)。当某维只取一个维成员时,便得到一个切片,而切块则是某一维取值范围下的多个切片的叠合。通过对数据立方体的切片或切块分割,可以从不同的视角得到各种数据。
(2)钻取
钻取包括上钻和下钻。争取能够帮助用户获得更多的细节性数据,逐层的分析问题的所在和原因。
上钻又称为上卷(roll-up)。上钻操作是指通过一个维的概念分层向上攀升或者通过维归约在数据立方体上进行数据汇总。例如在上面的示例中,可以按学历汇总数据,如把各种学历的都归约为所有学历,便可以得到沿学历维上钻的数据汇总。
下钻是上钻的逆操作,通过对某一汇总数据进行维层次的细分(沿维的概念分层向下)分析数据。下钻使用用户对数据能够获得更深入的了解,更容易发现问题本质,从而做出正确的决策。
钻取使用户不会再被海量的数据搞得晕头转向:上钻让用户站在更高层次观察数据,下钻则可以细化到用户所判决的详细数据。钻取的尝试与维度与维所划分的层次相对应,根据用户关心的数据粒度合理划分。
(3)旋转
旋转又称转轴,是一种视图操作,通过旋转变换一个报告或页面显示的维度方向,在表格中重新安排维的位置,例如行列转换。这种对立方体的重定位可以得到不同视角的信息。
(4)其他OLAP操作
除以上常用多维操作外,还有其他多维操作。
钻过(drill-across)。钻过操作涉及多个事实表的查询并把结果合并为单个数据集,一个典型的例子就是预测数据与当前数据的结合:通常预测数据与当前数据存在于不同的表中,当用户比较预测销售与当月销售时,需要跨多个事实表查询。
钻透(drill-through)。钻透使用关系SQL,查询数据立方体的底层,一直到后羰的关系表。
五、 OLAP的分类
OLAP分类
按处理方式分类
Server OLAP:绝大多数的OLAP系统都属于此类,Server OLAP在服务端的数据库上建立多维数据立方体,由服务端提供多维分析,并把最终结果呈现给用户
Client OLAP:所相关立方体数据下载一本地,由本地为用户提供多维分析,从而保证在网络故障时仍然能正常工作。
按存储方式分类
ROLAP。ROLAP使用关系数据库或扩充关系数据库(XRDBMS)存储管理数据仓库,以关系表存储多维数据,有较强的可伸缩性。其中维数据存储在维表中,而事实数据和维ID则存储在事实表中,维表和事实表通过主外键关联。
MOLAP。MOLAP支持数据的多维视图,采用多维数据组存储数据,它把维映射到多维数组的下标或下标的范围,而事实数据存储在数组单元中,从而实现了多维视图到数组的映射,形成了立方体的结构。大容量的数据使立方体稀疏化,此时需要稀疏矩阵压缩技术处理,由于MOLAP是从物理上实现,故又称为物理OLAP(Physical OLAP)。
DOLAP。DOLAP是属于单层架构,它是基于桌面的客户端OLAP,主要特点是由服务器生成请求数据相关的立方体并下载到本地,由本地提供数据结构与报表格式重组,为用户提供多维分析,此时无需任何的网络连接,灵活的存储方式方便了移动用户的需求,但支持数据有限,使用范围有限。

开源OLAP引擎:Mondrian

~/Desktop/Mondrian数据分析学习.pdf
http://mondrian.pentaho.com/d...
http://www.cnblogs.com/panfen...

数据立方体:cube

在Mondrian里面的cube是以XML的形式定义的。(MDX)
Mondrian本身是不存储数据的,通过MDX语句(一个类似于SQL的查询语言)来获取数据,Mondrian 运行的时候要连数据库,并且还要有一个数据模型配置文件(Mondrian叫schema),其实就是一个取数据的规则;由此可知Mondrian只不过是把MDX 翻译成了SQL然后从数据库中把数据拿出来给用户
Mondrian是一个开放源代码的Rolap服务器,使用java开发的。它实现了xmla和jolap规范,而且自定义了一种使用mdx语言的客户端接口。Mondrian是olap服务器,而不是数据仓库服务器,因此Mondrian的元数据主要包括olap建模的元数据,不包括从外部数据源到数据库转换的元数据。也就是说Mondria的元数据仅仅包括了多维逻辑模型,从关系型数据库到多维逻辑模型的映射,存取权限等信息。在功能上,Mondrian支持共享维和成员计算,支持星型模型和雪花模型的功能。

Mondrian 是一个开源项目,是开源项目Pentaho的一部分,是一个用Java写成的OLAP引擎。它实现了MDX语言、XML解析、JOLAP规范。
它从RDBMS和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,同时可以不写SQL就能分析存储于SQL 数据库的庞大数据集,可以封装JDBC数据源并把数据以多维的方式展现出来。

整体的项目架构,四个大部分Schema manager、Session Manager、Dimension Manager、Aggregate Manager

 Schema Manager:与初始化紧密相关。主要是一些重要的数据结构如缓存池的构建以及多维模型的生成。

 Session Manager:最为重要的一个部分。接受MDX查询、解析MDX,返回结果。

 Aggregate Manager:实现了对聚集表的管理。主要是对OLAP缓存的管理,属于性能优化的部分。

 Dimension Manager:维度的管理。实现多维模型中维度和关系数据库表中列的映射,在Schema Manager也有部分功能处理这些映射。

Mondrian通过Schema来定义一个多维数据库,它是一个逻辑概念上的模型,其中包含Cube(立方体)、Dimension(维度)、Hierarchy(层次)、Level(级别)、Measure(度量),这些被映射到数据库物理模型。Mondrian中Schema是以XML文件的形式定义的。

Cube(立方体)由维度构建出来的多维空间,是一系列Dimension和Measure的集合区域,它们共用一个事实表。

Dimension(维度)观察数据的一种角度,维度可以理解为立方体的一个轴。是一个Hierarchy的集合,维度一般有其相对应的维度表,它由Hierarchy(层次)组成,而Hierarchy(层次)又是由组成Level(级别)的。

Hierarchy(层次)是指定维度的层级关系的,如果没有指定,默认Hierarchy里面装的是来自立方体中的真实表。

Level(级别)是Hierarchy的组成部分,使用它可以构成一个结构树,Level的先后顺序决定了Level在结构树上的位置,最顶层的 Level 位于树的第一级,依次类推。

Measure(度量)是我们要进行度量计算的数值,支持的操作有sum、count、avg、distinct-count、max、min等。

在多维分析中,关注的内容通常被称为度量(Measure),而把限制条件称为维度(Dimension)。
多维分析就是对同时满足多种限制条件的所有度量值做汇总统计。包含度量值的表被称为事实表(Fact Table),描述维度具体信息的表被称为维表(Dimension Table)

 立方体:由维度构建出来的多维空间,包含了所有要分析的基础数据,所有的聚合数据操作都在立方体上进行。
 维度:就是观察数据的一种角度。在这个例子中,路线,源,时间都是维度,
 维度成员:构成维度的基本单位。对于时间维,例如它的成员分别是:第一季度、第二季度、第三季度、第四季度。
 层次:维度的层次结构,要注意的是存在两种层次:自然层次和用户自定义层次。对于时间维而言,(年、月、日)是它的一个层次,(年、季度、月)是它的另一个层次,一个维可以有多个层次,层次可以理解为单位数据聚合的一种路径。
 级别:级别组成层次。对于时间维的一个层次(年、月、日)而言,年是一个级别,月是一个级别,日是一个级别,显然这些级别是有父子关系的。
 度量值:要分析展示的数据,即指标。如图1中一个cell中包含了两个度量值:装箱数和截至时间,可以对其进行多维分析。
 事实表:存放度量值的表,同时存放了维表的外键。所有的分析用的数据最终都是来自与事实表。
 维表:一个维度对应一个或者多个维表。一个维度对应一个维表时数据的组织方式就是采用的星型模式,对应多个维表时就是采用雪花模式。雪花模式是对星型模式的规范化。简言之,维表是对维度的描述。
 MDX查询:多维模型的查询语言MDX(MDX是微软发布的多维查询语言标准),它的语法与SQL有很多相似之处:select {[Measures].[Salary]} on columns, {[Employee].[employeeId].members} on rows from CubeTest对于这条语句,COLUMNS 和 ROWS都代表查询轴,其中COLUMNS代表列轴,ROWS代表行轴。COLUMNS又可以写成0,ROWS又可以写成1,当只有两个查询轴时,可以理解为结果的展现格式是一个平坦二维表。这条语句的含义就是查询名字为CubeTest的立方体,列显示Measures维度的salary,行显示 Employee维度employeeId级别的所有成员,那么得出的结果就是employeeId所有成员的salary,也就是所有员工的薪酬。具体语法规范和帮助文档可以参考微软的用户文档。

百万级事实数据:按照Mondrian文档中所描述的内容可以看出,只基于操作系统环境和数据库环境的优化,Mondrian Server在百万行级别数据量的事实表(关系数据库)仍能够运行良好。当然这需要我们自己来评测和证实。
千万级事实数据:当事实表数据立方体的数据量达到千万行以上时,Mondrian建议采用“汇总表”或者是由数据库支持的类似Oracle数据库的“物化视图”功能来优化OLAP查询的性能。
Mondrian缓存设置:由于Mondrian会将查询过的数据缓存起来,所以Mondrian建议缓存的大小根据具体项目的实际情况判断,当然是缓存越大越好

Mondrian缓存控制

为了提高海量数据下的查询响应速度,Mondrian自动将首次查询的结果缓存到内存中,之后的查询如果命中缓存内容,则不再访问数据库。这种实现方式有点自不必说,
但是在实现实时OLAP时会存在问题,实时OLAP中数据变化频繁导致缓存中的数据不是最新的。
缓存控制接口:为了做到不重启OLAP Server也能更新缓存,Mondrian提供了一系列的刷新缓存的接口,支持指定清除指定schema的元数据缓存、查询结果缓存;清除动作可以是全部清除 也可以是 部分清除(可以指定清除某个维度下某级别成员的相关内容)。
数据变化监听: Mondrian提供了缓存控制接口(被动响应),但对于实现我们的目标“实时OLAP”来说我们就需要自己实现一个数据变更监听的模块,来监听数据变化,一旦数据有变化就发起变更事件,更新Mondrian引擎的缓存。目前初步考虑实现方案为ETL工具在数据处理结束后通知OLAP引擎。引擎收到数据变更通知后做清理缓存的动作。

Jpivot:简单说是一个展示工具,有人说是个标签库,类似于struts。只是用来显示mondrian传来的xml数据,将其渲染成我们熟悉的html。对于层次性很强的报表,XML渲染的确有他的魅力,免去了繁杂的js痛苦。总之mondrian是用来研究和提取数据,jpivot是用来显示数据。至于jpivit是如何显示数据,主要是通过xls+xml。 Jpivot本身的界面是很难看的。
Pentaho、Saiku、Jpivot都用到了Mondrian做为其多维数据处理的服务器,网上的很多关于Mondrian的文章也都是以Jpivot来进行分析的,
不过Jpivot已经被抛弃了作者也不再更新了,并且Jpivot只能支持到Mondrian3.5 所以对于新版本的Mondrian一定是不能用Jpivot了(不过Jpivot有一个替代品Pivot4j这个还在持续维护),
这里还是推荐大家用Saiku或者Pivot4j
如果我们不想用Saiku、pivot4j 这样现成的东西(毕竟有很多东西我们用不到)那么可以把Mondrian 集成到我们自己的应用中去

模型配置文件编写

http://mondrian.pentaho.com/d...
personDemo.xml


  
     
     
         
          

对应表:

CREATE TABLE `person` (
`userid`  varchar(100) ,
`department`  varchar(100) ,
`username`  varchar(100),
`sex`  varchar(100) ,
`nationality`  varchar(100),
`post`  varchar(100),
`zyjslb`  varchar(100),
`zyjsdj`  varchar(100) ,
`zhixi`  varchar(100),
`xueli`  varchar(100) ,
`age`  int(10) ,
PRIMARY KEY (`userid`)
)

MDX查询语句:select NON EMPTY {[Measures].[人数]} on columns, NON EMPTY {([部门].[所有部门], [职系].[所有职系], [专业技术资格类别].[所有专业技术资格类别], [专业技术资格等级].[所有专业技术资格等级], [学历].[所有学历], [民族].[所有民族], [性别].[所有性别])} ON rows from Person

模型配置文件XML元素分析

http://www.biaodianfu.com/ola...
Schema
Schema 定义了一个多维数据库。包含了一个逻辑模型,而这个逻辑模型的目的是为了书写 MDX 语言的查询语句。这个逻辑模型实际上提供了这几个概念:

Cubes: 立方体

Dimensions: 维度

Hierarchies: 层次

Levels: 级别

Members: 成员
而一个schema 文件就是编辑这个 schema 的一个xml 文件。在这个文件中形成逻辑模型和数据库物理模型的对应。

Cube
一个 Cube 是一系列维度 (Dimension) 和度量 (Measure) 的集合区域。在 Cube 中, Dimension 和 Measure 的共同地方就是共用一个事实表。 Cube 中的有以下几个属性:

name: Cube 的名字。

caption: 标题 , 在表示层显示的。

cache: 是否对 Cube 对应的实表用 mondrian 进行存储 , 默认为 true。

enabled: 是布尔型的 , 如果是被激活 ,Cubes 就执行 , 否则就不予理睬,默认为 true。

Cube 里面有一个全局的标签定义了所用的事实表的表名。

Dimension
他是一个层次( Hierarchies )的集合 , 维度一般有其相对应的维度表 . 他的组成是由层次(Hierarchies)而层次(Hierarchies)又是有级别(Level)组成 . 其属性如下:

name: Dimension 的名称。

type: 类型,有两个可选的类型: StandarDimension 和 TimeDimension ,默认为StandardDimension。

caption: 标题 , 在表示层显示的UsagePrefix加前缀 , 消除歧义。

foreignKey: 外键,对应事实表中的一个列,它通过 元素中的主键属性连接起来。

Hierarchy
你一定要指定其中的各种关系,如果没有指定,就默认 Hierarchy 里面装的是来自立方体中的真实表 . 属性如下:

name: Hierarchy 的名称,该值可以为空,为空时表示 Hirearchy 的名字和 Dimension 的名字相同。当一个 Dimension 有多个 Hierarchy时,注意 name 值要唯一。

hasAll: 布尔型的 , 决定是否包含全部的成员 member。

allMemberName: 所有成员的名字 , 也就是总的标题 , 例如: allMemberName= “全部产品”。

allLevelName: 所有级别的名字,它会覆盖其下所有的 Member 的 name 和所有的 Level 的 name 属性的值。

allMemberCaption: 例如 : allMemberCaption= “全部产品”这个是在表示层显示的内容。

PrimaryKey: 通过主键来确定成员,该主键指的是成员表中的主键,该主键同时要与 Dimension 里设置的 foreignKey 属性对应的字段形成外键对应关系。

primaryKeyTable: 如果成员表不只一个,而是多个表通过 join 关系形成的,那么就要通过这个属性来指明 join 的这些表中,哪一个与Dimension 里设置的foreignKey 属性形成外键关系。通过该属性来指明主表。

caption: 标题 , 在表示层显示的。

defaultMember

memberReaderClass 设定一个成员读取器,默认情况下 Hierarchy 都是从关系型数据库里读取的,如果你的数据不在 RDBMS 里面的话,你可以通过自定义一个member reader 来表现一个 Hierarchy 。

Level
级别 , 他是组成 Hierarchy 的部分。属性很多,并且是 schema 编写的关键,使用它可以构成一个结构树, Level 的先后顺序决定了 Level在这棵树上的的位置,最顶层的 Level 位于树的第一级,依次类推。 Level 的属性如下:

name: 名称

table: 该 Level 要使用的表名

column: 用上面指定的表中某一列作为该 Level 的关键字

nameColumn: 用来显示的时候使用,如果不定义,那么就采用上面的 column 的值来进行显示。

oridinalColumn: 定义该 Level 上的成员的显示顺序,如果不指定,那么采用 column 的值。

parentColumn: 在一个有父 – 子关系的 Hierarchy 当中,当前 Level 引用的是其父成员的列名。好比是一张部门表,在一张表里表现部门的上下级关系,一个是主键,肯定还有一个字段为连接到该主键的外键的列名,这里的 parentColumn 指的就是这个列名。

nullParentValue: 如果当前的 Level 是有上下级关系(设置了 parentColumn 属性),如果该 Level 又处于顶级,我们需要将顶级的数据取出来,这里指的是位于顶级的父成员的值,有些数据库不支持 null, 那么也可以使用0或-1 等,这就表示顶级的成员的父 ID 为0 或为-1 。

type: 数据类型,默认值为 string 。当然还可以是 Numeric 、 Integer 、 Boolean 、 Date 等。

uniqueMembers: 该属性用于优化产生的 SQL ,如果你知道这个级别和其父级别交叉后的值或者是维度表中给定的级别所有的值是唯一的,那么就可以设置该值为 true ,否则为 false 。

levelType: 该 Level 的类型,默认为 regular (正常的),如果你在其 Dimension 属性 type 里选择了 TimeDimension 那么这里就可以选择 TimeYears 、 TimeQuarters 、 TimeMonth 、 TimeWeeds 、 TimeDays 。

hideMemberIf: 在什么时候不隐藏该成员,可选的值有三个: Never 、 IfBlankName 、 IfParentName

approxRowCount: 该属性可以用来提高性能,可以通过指定一个数值以减少判断级别、层次、维度基数的时间,该属性在通过使用 XMLA 连接Mondrian 很有用处。

caption: 标题 , 在表示层显示的。

captionColumn: 用来显示标题的列。

formatter: 该属性定义了 Member.getCaption() 方法返回的动作值,这里需要是一个实现了 mondrian.olap.MemberFormatter 接口的类,用来对Caption地值进行格式化。

Join
对于一个 Hierarchy 来说,有两种方式为其指定:一种是直接通过一个 Table 标签指定;一种是通过 Join 将若干张表连接起来指定。一旦采用 Join 的话,那么就要在 Hierarchy 里的 primaryKeyTable 属性指定主表。

Measure

Measure 就是我们要计算的数值,操作的核心。它的属性如下:

name: 名称。

aggregator: 要采用的计算函数。

column: 要计算的列名。

formatString: 计算结果的显示格式。

visible: 是否可见。

datatype: 数据类型,默认为 Numeric

formatter: 采用类来对该 Measure 的值进行格式,具体参考 Level 的 formatter 属性。

caption: 标题,用来显示时使用。
概括总结一下:在多维分析中,关注的内容通常被称为度量(Measure),而把限制条件称为维度(Dimension)。多维分析就是对同时满足多种限制条件的所有度量值做汇总统计。包含度量值的表被称为事实表(Fact Table),描述维度具体信息的表被称为维表(Dimension Table),同时有一点需要注意:并不是所有的维度都要有维表,对于取值简单的维度,可以直接使用事实表中的一列作为维度展示。

什么是聚合表(Aggregate Table)

下描述了一个数据库的结构。该数据库中共有五张表,分别是Sales表,Customer表,Time表,Product表和Mfr表。这个数据库的作用是存储每一笔交易:包括这笔交易发生在什么时间,交易的产品类型,进行交易的客户信息,交易方式,交易了多少件产品以及成交金额是多少。
模型中有一张事实表(Sales),两个度量列(units和dollars),四个维度表(Product, Mfr, Customer, Time)。在这个星型模型的最顶层,我们创建了以下多维模型:

[Sales]立方体包含[Unit sales]和[Dollar sales]两个度量值;

[Product]维度包含[All Products],[Manufacturer],[Brand],[Prodid]四个级别;

[Time]维度包含[All Time],[Year],[Quarter],[Month],[Day]五个级别;

[Customer]维度包含[All Customers],[State],[City],[Custid]四个级别;

[Payment Method]维度包含[All Payment Methods],[Payment Method]两个级别。
假设现在我们要对交易做一些统计,例如,某一件特定产品在某一个时间段内以某种特定方式总共卖出多少件或多少钱,这时成交产品数和成交金额是我们最终关注的内容,其他的因素例如时间、产品、方式等都只是对我们最终关注内容进行统计的限制条件。

在上面的例子中,限制条件有时间、产品类型、用户类型和交易方式,
有时我们并不需要同时使用所有的限制条件,例如,当我们只想知道指定产品的成交总金额时,那么除了产品类型之外其他三个限制条件都是多余的,而在查询时,需要在整个事实表中执行查询,找出产品类型为指定类型的所有产品然后再做统计,为了提高查询效率,我们可以新建一张表,这张表按照产品类型把事实表中的行合并到一起,合并的方式是抛弃其他维,把度量值按特定的方式(max,min,sum,count或avg)整合到一起。这种表被叫做聚合表(Aggregate Table)。

聚合表的应用场景
事实表中的行构成了一个集合,每一维(或若干维)按照其取值的不同可以将事实表这个全集划分成若干个不相交的子集。聚合表所做的工作实际上就是把划分出的子集归为数据库表中的一行,这样做一方面可以减少数据库表的行数,另一方面也省去了查询时所需要做的一些统计工作,从而提高查询时的效率。

使用Mondrian做大数据量(如>100W行)的OLAP分析时,考虑是否可以使用聚合表进行优化。

然而Mondrian的优化方式又不限于聚合表这一种,是否要进行聚合表优化,要根据实际情况来决定。

Mondrian目前并不提供对聚合表的数据同步机制,如果要做实时OLAP,需要自己实现聚合表和事实表中的数据同步。
聚合表的定义见:http://www.cnblogs.com/panfen...

Schema-workspace图形化配置模型文件

http://sourceforge.net/projec...
http://blog.csdn.net/athenaer...

其他参考:http://blog.csdn.net/zhangzho...
http://blog.csdn.net/xiaolang...
http://wushexu.iteye.com/blog...

MDX

MDX(Multidimensional Expressions)是多维 数据库(OLAP 数据库)的查询语言.
Mondrian是java中的一个OLAP与MDX解析引擎,它会解析MDX,转换成SQL来查询关系数据库(可能是多条查询)。
MDX 的内容很多,功能强大,这里只介绍最基础和最重要的部分。

1 基本语法

以下是里两条MDX 查询语句及其查询结果
 语句1:

SELECT
{ [Measures].[Dollar Sales], [Measures].[Unit Sales] } on columns,
{ [Time].[Q1, 2005], [Time].[Q2, 2005] } on rows
FROM [Sales]
WHERE ([Customer].[MA])

语句 2

SELECT
{ [Time].[Q1, 2005], [Time].[Q2, 2005], [Time].[Q3, 2005] } on columns,
{ [Customer].[MA], [Customer].[CT] } on rows
FROM Sales
WHERE ( [Measures].[Dollar Sales] )

第一条语句查询对[Customer].[MA]这个客户在 2005 年第一、第二季度的销售额、报表期销售额。
第二条语句查询对[Customer].[MA], [Customer].[CT]这两个客户在 2005 年前三个季度的销售额。
可以看到,mdx 有类似 sql 的结构,同样有 select、from、where 这三部分。但也有很多不同。

Select 字句指定一个集合,把它放到某个轴上。

From 字句说明要从哪个数据立方体来查询。

方括号([])用于维度名、层次名、维度成员名,避免名字和函数混淆(函数名
是不加方括号的)。

Where 字句指定切片,即对不出现在轴上的维度的成员的限定。

Mdx 没有 group by 字句。其实分组是隐含的。

Mdx 没有 order by 字句。排序只会对某个轴进行,通过使用排序函数。

和 sql 一样,mdx 也是不区分大小写的,并且可以随意分行。

Mdx 中也可以包含注释,除了支持 sql 的--注释外还支持//和/ ... /注释。

2 轴

用 on {axis}语法来把维度分配到轴(Axis,复数 Axes)上,一个查询可以有多个轴。
不同轴用逗号分隔,分配的顺序是没关系的。但如果把轴调换(如 A on columns, B on rows 改成 A on rows, B on columns),结果的行和列也会转置过来。
轴用 axis(0),axis(1),axis(2)...表示,前五个轴可以使用别名 Columns,Rows,Pages,Chapters,Sections。因此 on Columns 等价于 on axis(0)。超过 5 个轴时只能用 axis(5),axis(6)...来表示(极少会需要这么多的轴)。
很多实现(包括 Mondrian)支持仅用数字表示轴,因此 on Columns 可以写成 on 0。axis(0)和别名表示可以混用,例如下面语句是可以的:

SELECT
{ [Time].[Q1, 2005], [Time].[Q2, 2005] } on axis(0),
{ [Customer].[MA], [Customer].[CT] } on rows
FROM Sales

轴必须从 0 开始,并且连续,不能跳过。下面的是不可以的:

SELECT
{ [Time].[Q1, 2005], [Time].[Q2, 2005] } on rows,
{ [Customer].[MA], [Customer].[CT] } on pages
FROM Sales

错误,跳过了轴 axis(0)(columns) 。

在大多查询中,轴一般是两个。一个轴也可以,甚至 0 个轴。
如果轴多于两个,就没法在平面上表示。如果维度多于两个,需要把多个维度(交叉后)放到一个轴上。

3 切片维度

切片(Slice)维度就是出现在 MDX 语句 WHERE 子句中的维度,跟 SQL 一样,表示对数据集的限制。例如 MDX 语句:
SELECT
{[Product].[All Products].[Food], [Product].[All Products].[Drink]} ON COLUMNS
FROM [Sales]
WHERE [Time].[Year].[2005]
限制了查询的数据范围,只限于 2005 年。语法和 SQL 不一样,[Time].[Year].[2005](是一个元组)本身就表示了一个条件。这可以看成对数据立方体从某个方向进行切片(从 Time维度的方向)得到一个子立方体,因此叫切片。
切片维度不会出现在轴上。上面的时间维度不会出现在轴上。
一个维度不能同时出现在轴维度(SELECT 的维度)和切片维度上。
切片器维度只可接受评估为单个元组的表示式

默认成员

如果一个维度既没有出现在轴维度上,也没有出现在切片维度上,就会用维度的(默认层次的)默认成员进行切片。一般维度的默认成员是“All xxx” ,因此默认是对这个维度所有成员的数据进行聚集操作。例如:
SELECT {[Time].[Year].Members } ON COLUMNS
FROM [Sales]
Product 维度没有出现在轴维度和切片维度上。如果 Product 的默认成员是[All Products],就会查询所有产品的销售额汇总,符合人的习惯。上面语句相当于:
SELECT {[Time].[Year].Members } ON COLUMNS
FROM [Sales]
WHERE [Product].[ All Products]
维度有一个函数 defaultMember 可以返回维度的默认成员,因此也相当于:
SELECT {[Time].[Year].Members } ON COLUMNS
FROM [Sales]
WHERE [Product]. defaultMember
除了 Product 维度,其他没有出现在轴维度和切片维度上的维度也是一样的。

度量维度(为了一致可以把度量看成一个维度:Measures 维度)是没有”All xxx”成员的,它的默认成员可以明确设置,如果没设置,就是第一个度量。如果默认度量是[Store Sales],
下面的查询
SELECT {[Time].[Year].Members } ON COLUMNS
FROM [Sales]

SELECT {[Time].[Year].Members } ON COLUMNS
FROM [Sales]
WHERE [Measures]. [Store Sales]
是等价的。
一个维度的默认成员、是否有 All 成员(一般都应该有),是可以在 Schema 文件中设置的。
如果没有明确设置默认成员,默认成员就是 All 成员,如果没有 All 成员,默认成员就是第一个成员。

4、元组和集合

元组和集合是 MDX 中的两种数据类型,也是 MDX 语句的构件。

元组

元组(Tuple)就是一个或多个维度的成员的组合当一个元组有多个维度时,必须用括号括起来
([Customer].[Chicago, IL], [Time].[Jan, 2005])
一个元组可以代表立方体的一个切片
以这种语法构造的元组可以直接用于
SELECT
{ ( [Time].[2005], [Measures].[Dollar Sales],
( [Time].[Feb, 2005],[Measures].[Unit Sales] )
} ON COLUMNS ,
{ [Product].[Tools], [Product].[Toys]} ON ROWS
FROM [Sales]
元组不能嵌套
元组用于定义来自多维数据切片;他是由一个或多个维度的单个成员的有序集合组成。元组内不包含来自同一个维度的多个成员(可以理解为坐标),元组用()包围。
where 字句也是一个元组,用以指定一个数据切片

集合

集合(Set)是零个、一个或多个元组的有序集合。不像数学上的集合,MDX 集合一个元组可以出现多次,而且顺序是重要的。
集合最常用于在Mdx查询中定义轴维度和切片器维度, 通常的指定集合的方式是把一个元组列表用花括号括起来。如{ [Customer].[MA],
[Customer].[CT] }就表示一个集合,集合里是客户维度的两个成员。一个集合中的所有元组必须有同样的维度性质,即所表示的维度及其顺序。
使用下面的集合将会报错,因为维度的顺序不一样:
{ ( [Time].[2005], [Measures].[Dollar Sales] ), ( [Measures].[Unit Sales], [Time].[Feb, 2005] ) }
很多函数都可以返回一个集合

5、维度成员

要把维度成员放在轴上,可以列举维度的成员,例如{ [Customer].[MA], [Customer].[CT] }。也可以通过范围语法或一个函数得到成员的集合。
通过坐标值可以定义出每个成员的名称

成员范围

冒号(:)语法可以表示成员范围。冒号前后是同一个层次的起点和终点两个成员。
SELECT
{ [Time].[2003] : [Time].[2008] } on columns,
{ [Product].[Drinks] : [Product].[Bread] } on rows
FROM [Sales]
时间维度表示 2003 年到 2008 年(6 个成员),产品维度表示从 Drinks 到 Bread。这通常跟排序方式有关。

集合里可以包含子集合。例如下面集合,包含 2001 年的前三个月跟后三个月。
{ { [Time].[January-2001] : [Time].[March-2001] } ,{ [Time].[October-2001] : [Time].[December-2001] } }

可以用成员名称或成员键引用某个成员。
&符号可以标记出其父级中的元素集合中的值也叫做元素值,&符号用于区分成员键和成员名称。例如:

 SELECT
    {[Dim Region].[City].&[上海],[Dim Region].[City].&[北京]}
 ON COLUMNS,
    {[Dim Time].[Day Of Month].&[13],[Dim Time].[Day OfMonth].&[14]}
 ON ROWS
FROM
    [MKAS]
WHERE ([Measures].[Fact Ind Count])
全部成员

大多时候需要得到一个维度、层次、层的全部成员,这个时候可以使用.Members 操作(函数)。比如[Time].[Years].Members 可以得到所有年份。
SELECT
{ [Time].[Years].Members} ON COLUMNS,
{ [Product].[Line].Members} ON ROWS
FROM [SteelWheelsSales]
WHERE [Measures].[sales]
这个语句查询所有年份、所有产品线的销售额,把年份放在列上,产品线放在行上。

下级成员

有时候需要得到某个成员的下一层次的全部成员,这是需要用.Children 函数。这在下钻操作时经常用到。
例如要得到产品线 Classic Cars 下的所有产品,可以这样[Product].[Line].[Classic
Cars].Children。[Product].[Line].[Classic Cars]是 Product 维度 Line 层的一个成员。
.Children 只能得到直接下级成员,如果需要多级,需要使用 Descendants()函数。语法是:
Descendants (member [, [ level ] [, flag]] )
Descendants 返回 member 成员下 level 层的成员,可选标志 flag 有多个选项,以设置包含最下一层上面的哪些层的成员。
以下是一个例子,查询 Tools 和 Toys 两类产品在 2005 年各月的销售额,因为年和月两个层次中间有一个季度层次,所以不能用[Time].[2005].Children。
SELECT
{ [Product].[Tools], [Product].[Toys] } ON COLUMNS,
Descendants ([Time].[2005],[Time].[Month],SELF_AND_BEFORE) ON ROWS
FROM Sales
WHERE [Measures].[Dollar Sales]
flag 设为 SELF_AND_BEFORE,可以看到行上包含了 2005 年和各个季度(如果设为SELF 则不会包含) 。

成员属性

有时要获取维度成员的属性(维表上的某些列),这时可以使用 dimemsion properties子句。dimemsion关键字可以省略。
以下查询同时获取客户所在地的邮编属性
SELECT
{ [Customer].[Akron, OH].Children }
DIMENSION PROPERTIES [Customer].[Zip Code]
on columns,
{ [Product].[Category].Members } on rows
FROM Sales
WHERE ([Measures].[Units Sold], [Time].[July 3, 2005])

6、集合操作 NON EMPTY

在多维空间,数据很多时候是稀疏的。比如:比如,不是每一个产品都销售给了所有的客户,不是每一个客户在每个时期都购买了产品。如果按维度所有成员交叉得出报表,就会有很多空行、空列。
要从查询结果去掉这些空行
SELECT
{ [Time].[Jan,2005],[Time].[Feb,2005] } ON COLUMNS ,
NON EMPTY { [Product].[Toys], [Product].[Toys].Children } ON ROWS
FROM Sales
WHERE ([Measures].[Dollar Sales], [Customer].[TX])
这样空行就去掉了。non empty 可用于任何轴上。

CROSS JOIN

很多时候,我们需要对两个不同的集合进行交叉,也就是要得到两个集合成员的所有组合。CrossJoin()函数就是用来得到组合的最直接方式,它的语法是 CrossJoin (set1, set2)
以下语句在每个季度下分出两个度量
SELECT
CrossJoin (
{ [Time].[Q1, 2005], [Time].[Q2, 2005]},
{ [Measures].[Dollar Sales], [Measures].[Unit Sales] }
) ON COLUMNS,
{ [Product].[Tools], [Product].[Toys] } ON ROWS
FROM Sales
CrossJoin 的结果是一个集合。因此支持CrossJoin 嵌套。

FILTER

Filter 函数用来筛选一个集合,它以一个集合和一个 boolean 表达式为参数
Filter (set,boolean-expression)。
例如,以下表达式会返回关联的产品销售额至少为500 的产品分类的集合。
Filter (
{ [Product].[Product Category].Members },
[Measures].[Dollar Sales] >= 500
)
要求销售额至少为 150 并且销售额要至少在成本的1.2 倍以上
Filter (
{ [Product].[Product Category].Members },
([Measures].[Dollar Sales] >= 1.2 *[Measures].[Dollar Costs])
AND [Measures].[Dollar Sales] >= 150
)

ORDER

Order()函数用于对一个集合进行排序,语法:
Order (set1, expression[,ASC| DESC | BASC | BDESC])
SELECT
{ [Measures].[Dollar Sales] } on columns,
Order (
[Product].[Product Category].Members,
[Measures].[Dollar Sales],
BDESC
) on rows
FROM [Sales]
WHERE [Time].[2004]

7、计算成员

在 sql 中可以增加计算出来的列,MDX 中同样也可以,在 MDX 中叫计算成员(CalculatedMember)。因为MDX 操作的是多维数据,计算成员实际是给一个维度增加成员。
语法:
with
member 成员标识 as ‘表达式’ [, 属性...]
select ...
表达式用单引号引注。
以下例子增加一个新的度量[Avg Sales Price]
WITH
MEMBER [Measures].[Avg Sales Price] AS
"[Measures].[Dollar Sales] / [Measures].[Unit Sales]"
SELECT
{ [Measures].[Dollar Sales], [Measures].[Unit Sales],
[Measures].[Avg Sales Price]
} on columns,
{ [Time].[Q1, 2005], [Time].[Q2, 2005] } on rows
FROM Sales
WHERE ([Customer].[MA])

公式优先级(Solve Order)

当不止一个维度增加了计算成员时,由于每个维度的成员都有计算公式,在这些维度的交叉点上,就可以有多种计算顺序。这时候就不需要考虑公式优先级的问题。因此引入了 SOLVE_ORDER 属性
WITH
MEMBER [Measures].[Avg Sales Price] AS
‘[Measures].[Dollar Sales] / [Measures].[Unit Sales]",
SOLVE_ORDER=0
MEMBER [Time].[Q1 to Q2 Growth] AS
‘[Time].[Q2, 2005]- [Time].[Q1, 2005]’,
SOLVE_ORDER=1
SELECT
{ [Measures].[Dollar Sales], [Measures].[Unit Sales],
[Measures].[Avg Sales Price]
} on columns,
{ [Time].[Q1, 2005], [Time].[Q2, 2005], [Time].[Q1 to Q2 Growth] } on rows
FROM [Sales]
WHERE ([Customer].[MA])

8、命名集合

命名集合(Named Set)允许预先定义的一个集合,供后面的语句使用。语法和计算成员类似。
with
set 集合标识 as ‘集合表达式’
select ...

WITH
SET [User Selection] AS ‘{ [Product].[Action Figures], [Product].[Dolls] }"
MEMBER [Product].[UserTotal] AS ‘Sum ( [User Selection] )’
SELECT
{ [Time].[Jan, 2005], [Time].[Feb, 2005] } ON COLUMNS,
{ [Product].[Toys], [User Selection], [Product].[UserTotal] } ON ROWS
FROM Sales
WHERE ([Measures].[Unit Sales])

9、函数

http://mondrian.pentaho.com/d...

列出一些重要的,按返回类型来分类。

成员函数

.currentMember
.parent
.prevMember/.nextMember
.firstChild/.lastChild
.firstSibling/.lastSibling
Ancestor(, )
Ancestor(, )

LAG 返回当前成员开始往前数的本层的第几个成员.
.Lag(n)
n是索引,0 是它本身,1是前一个(.prevMember)

LEAD 类似 Lag(),但方向相反

OpeningPeriod 返回某个层次上第一个后代成员
语法:OpeningPeriod([[, ]])。
ClosingPeriod 返回某个层次上最后一个后代成员

PARALLELPERIOD 返回一个成员同层次对应位置的成员
ParallelPeriod([[, [, ]]])在时间维度上取同期(如上年同期)等的时候需要用到它。

集合函数

前面介绍的 members、children、descendants、crossJoin、filter、order 都是集合函数
union
合并两个集合。语法:Union(set1,set2[, ALL]) All 标志指示保留重复元素
Except
从set1里去除set2的元素,即求两个集合的差。Except(set1,set2[, ALL])
Head/Tail
返回集合Head/Tail元素 。 Head/Tail(set[, ))。
.SIBLINGS
返回成员的兄弟成员,包括它自己。.Siblings。
.MEMBERS
返回维度/层次的成员。.Members
DESCENDANTS
返回成员的后代成员。Descendants (member, [level[,flag]])
flag 可以是:SELF、BEFORE、SELF_BEFORE_AFTER、LEAVES、AFTER、SELF_AND_BEFORE、SELF_AND_AFTER。

DrillDownLevel(set,[level])
下钻(一级)成员。
DrillDownLevelBottom(set,index,level)
下钻最下一级成员。
DrillDownLevelBTop(set,index,level)
下钻最上一级成员。
DrillDownMember
下钻集合2中的成员.DrillDownMember(set1,set2[,Recursive])

TopCount 返回前n个数据的集合

 TopCount(, , )
 TopCount(, )

(TopCount, BottomCount, TopPercent, Hierarchize ,etc.)

统计函数

count (set [,INCLUDEEMPTY])
可选标记指定是包含无数据的元组
Sum (set [,数值表达式]])
max/min/median/avg(set [,数值表达式]])

逻辑函数

IS
object is object2。
例如:
[Jan 2000].PrevMember IS NULL
[Jan 2000].Level IS [Time].[Month]

ISEMPTY
判断一个值是否为空。语法:IsEmpey(表达式)。

字符串函数

NAME
返回维度、层次等的名称。语法:.Name
PROPERTIES
返回成员的属性值。语法:.properties(<属性名>)

其他函数

这里是一些返回类型不定的函数。
iiF
根据条件返回值,类似Excel 的If 函数。语法:iif(<布尔表达式>, <值1>, <值2>)。
ITEM
根据索引返回集合中元素。语法:item(set, )。
返回类型一般为元组。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/66347.html

相关文章

  • 数据仓库的直白概述

    摘要:如销售数据跟部门表,客户表之间的关系。而查询,又是这三者之间的粘合剂,它表达了用户的需求,经过引擎的解析,根据数据模型的描述,从数据仓库找到所需要的数据。 本文来自网易云社区 作者:王攀 我们知道,大部分公司都拥有了自己的财务,OA,CRM 等系统。这些系统都有自己的独立数据库,记录着企业运行情况某个方面的数据。但是单独看这些系统的报表,并不一定能对企业运行情况有全面客观的了解。就像只...

    sorra 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<