77百科网
当前位置: 首页 生活百科

维度和指标字段类型(指标-标签维度-度量)

时间:2023-05-23 作者: 小编 阅读量: 4 栏目名: 生活百科

缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。处理缓慢变化维的方法通常分为三种方式:第一种方式是直接覆盖原值。第一种方式通常简称为“TYPE1”。微型维度的提出主要是为了解决快变超大维度。

作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。

本文结构如下图所示:

一、数仓中常见概念解析1. 实体

实体是指依附的主体,就是我们分析的一个对象,比如我们分析商品的销售情况,如华为手机近半年的销售量是多少,那华为手机就是一个实体;我们分析用户的活跃度,用户就是一个实体。当然实体也可以现实中不存在的,比如虚拟的业务对象,活动,会员等都可看做一个实体。

实体的存在是为了业务分析,作为分析的一个筛选的维度,拥有描述自己的属性,本身具有可分析的价值

2. 维度

维度就是看待问题的角度,分析业务数据,从什么角度分析,就建立什么样的维度。所以维度就是要对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按商品类别来进行分析,这就构成一个维度,把所有商品类别集合在一起,就构成了维度表。

3. 度量

度量是业务流程节点上的一个数值。比如销量,价格,成本等等。

事实表中的度量可分为三类:完全可加,半可加,不可加

  1. 完全可加的度量是最灵活,最有用的,比如说销量,销售额等,可进行任意维度汇总;
  2. 半可加的度量可以对某些维度汇总,但不能对所有维度汇总,差额是常见的半可加度量,它除了时间维度外,可以跨所有维度进行加法操作;
  3. 还有一种是完全不可加的,例如:比率。对于这类非可加度量,一种好的方法是,尽可能存储非可加度量的完全可加分量,并在计算出最终的非可加事实前,将这些分量汇总到最终的结果集中。
4. 粒度

粒度就是业务流程中对度量的单位,比如商品是按件记录度量,还是按批记录度量。

在数仓建设中,我们说这是用户粒度的事实表,那么表中每行数据都是一个用户,无重复用户;例如还有销售粒度的表,那么表中每行都是一条销售记录。

选择合适的粒度级别是数据仓库建设好坏的重要关键内容,在设计数据粒度时,通常需重点考虑以下因素:

  1. 要接受的分析类型、可接受的数据最低粒度和能存储的数据量;
  2. 粒度的层次定义越高,就越不能在该仓库中进行更细致的分析;
  3. 如果存储资源有一定的限制,就只能采用较高的数据粒度划分;
  4. 数据粒度划分策略一定要保证:数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则
5. 口径

口径就是取数逻辑(如何取数的),比如要取的数是10岁以下儿童中男孩的平均身高,这就是统计的口径。

6. 指标

指标是口径的衡量值,也就是最后的结果。比如最近七天的订单量,一个促销活动的购买转化率等。

一个指标具体到计算实施,主要有以下几部分组成:

  • 指标加工逻辑,比如count ,sum, avg
  • 维度,比如按部门、地域进行指标统计,对应SQL中的group by
  • 业务限定/修饰词,比如以不同的支付渠道来算对应的指标,微信支付的订单退款率,支付宝支付的订单退款率 。对应sql中的where。

除此之外,指标本身还可以衍生、派生出更多的指标,基于这些特点,可以将指标进行分类:

  • 原子指标:基本业务事实,没有业务限定、没有维度。比如订单表中的订单量、订单总金额都算原子指标;

业务方更关心的指标,是有实际业务含义,可以直接取数据的指标。比如店铺近1天订单支付金额就是一个派生指标,会被直接在产品上展示给商家看。但是这个指标却不能直接从数仓的统一中间层里取数(因为没有现成的事实字段,数仓提供的一般都是大宽表)。需要有一个桥梁连接数仓中间层和业务方的指标需求,于是便有了派生指标

  • 派生指标维度 修饰词 原子指标。店铺近1天订单支付金额中店铺是维度,近1天是一个时间类型的修饰词,支付金额是一个原子指标;

维度:观察各项指标的角度;修饰词:维度的一个或某些值,比如维度性别下,男和女就是2种修饰词。

  • 衍生指标:比如某一个促销活动的转化率就是衍生指标,因为需要促销投放人数指标促销订单数指标进行计算得出。
7. 标签

标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果,如网红、白富美、萝莉。对于有歧义的标签,我们内部可进行标签区分,比如:苹果,我们可以定义苹果指的是水果,苹果手机才指的是手机。画像标签数据体系实践。

8. 自然键

由现实中已经存在的属性组成的键,它在业务概念中是唯一的,并具有一定的业务含义,比如商品ID,员工ID。

以数仓角度看,来自于业务系统的标识符就是自然键,比如业务库中员工的编号。

9. 持久键

保持永久性不会发生变化。有时也被叫做超自然持久键。比如身份证号属于持久键。

自然键和持久键区别:举个例子就明白了,比如说公司员工离职之后又重新入职,他的自然键也就是员工编号发生了变化,但是他的持久键身份证号是不变的。

10. 代理键

就是不具有业务含义的键。代理键有许多其他的称呼:无意义键、整数键、非自然键、人工键、合成键等。

代理键就是简单的以按照顺序序列生产的整数表示。产品行的第1行代理键为1,则下一行的代理键为2,如此进行。代理键的作用仅仅是连接维度表和事实表

11. 退化维度

退化维度,就是那些看起来像是事实表的一个维度关键字,但实际上并没有对应的维度表,就是维度属性存储到事实表中,这种存储到事实表中的维度列被称为退化维度。与其他存储在维表中的维度一样,退化维度也可以用来进行事实表的过滤查询、实现聚合操作等。

那么究竟怎么定义退化维度呢?比如说订单id,这种量级很大的维度,没必要用一张维度表来进行存储,而我们进行数据查询或者数据过滤的时候又非常需要,所以这种就冗余在事实表里面,这种就叫退化维度,citycode这种我们也会冗余在事实表里面,但是它有对应的维度表,所以它不是退化维度

12. 缓慢变化维

维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。

处理缓慢变化维的方法通常分为三种方式:

  • 第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。第一种方式通常简称为“TYPE 1”。
  • 第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。第二种方式通常简称为“TYPE 2”。
  • 第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。第三种方式通常简称为“TYPE 3”。

在实际建模中,我们可以联合使用三种方式,也可以对一个维度表中的不同属性使用不同的方式,这些,都需要根据实际情况来决定,但目的都是一样的,就是能够支持方便的分析历史变化情况。

13. 微型维度

维度建模中,有一种维度叫minidimension,中文一般翻译成“微型维度”。微型维度的提出主要是为了解决快变超大维度

以客户维度举例来说,如果维度表中有数百万行记录或者还要多,而且这些记录中的字段又经常变化,这样的维度表一般称之为快变超大维度。对于快变超大维度,设计人员一般不会使用TYPE 2的缓慢变化维处理方法,因为大家都不愿意向本来就有几百万行的维度表中添加更多的行。

这时,有一项技术可以解决这个问题。解决的方法是,将分析频率比较高或者变化频率比较大的字段提取出来,建立一个单独的维度表。这个单独的维度表就是微型维度表

微型维度表有自己的关键字,这个关键字和原客户维度表的关键字一起进入事实表。有时为了分析的方便,可以把微型维度的关键字的最新值作为外关键字进入客户维度表。这时一定要注意,这个外关键字必须做TYPE 1型处理。

14. 下钻

这是在数据分析中常见的概念,下钻可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据,比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。

15. 上卷

知道了下钻,上卷就容易理解了,它俩是相逆的操作,所以上卷可以理解为删掉维的某些层,由细粒度到粗粒度观察数据的操作或沿着维的层次向上聚合汇总数据。

16. 数据集市

数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局。数据集市可以分为两种:

  • 一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;
  • 另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的子集。
二、数仓概念之间关系1. 实体表,事实表,维度表之间的关系

在Kimball维度建模中有维度与事实,在Inmon范式建模中有实体与关系,如果我们分开两种建模方式看这些概念比较容易理解。但是目前也出现了不少混合建模方式,两种建模方式结合起来看,这些概念是不是容易记忆混乱,尤其事实表和实体表,它们之间到底有怎样区别与联系,先看下它们各自概念:

  1. 维度表:维度表可以看成是用户用来分析一个事实的窗口,它里面的数据应该是对事实的各个方面描述,比如时间维度表,地域维度表,维度表是事实表的一个分析角度。
  2. 事实表:事实表其实就是通过各种维度和一些指标值的组合来确定一个事实的,比如通过时间维度,地域组织维度,指标值可以去确定在某时某地的一些指标值怎么样的事实。事实表的每一条数据都是几条维度表的数据和指标值交汇而得到的。数仓进阶:详解维度建模之事实表。
  3. 实体表:实体表就是一个实际对象的表,实体表放的数据一定是一条条客观存在的事物数据,比如说各种商品,它就是客观存在的,所以可以将其设计一个实体表。实时表只描述各个事物,并不存在具体的事实,所以也有人称实体表是无事实的事实表。

举个例子:比如说手机商场中有苹果手机,华为手机等各品牌各型号的手机,这些数据可以组成一个手机实体表,但是表中没有可度量的数据。某天苹果手机卖了15台,华为手机卖了20台,这些手机销售数据属于事实,组成一个事实表。这样就可以使用日期维度表地域维度表对这个事实表进行各种维度分析。数仓用户行为分析SQL实现(第三节)

2. 指标与标签的区别
  • 概念不同

指标是用来定义、评价和描述特定事物的一种标准或方式。比如:新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标;

标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果,如网红、白富美、萝莉。

  • 构成不同

指标名称是对事物质与量两方面特点的命名;指标取值是指标在具体时间、地域、条件下的数量表现,如人的体重,指标名称是体重,指标的取值就是120斤;

标签名称通常都是形容词或形容词 名词的结构,标签一般是不可量化的,通常是孤立的,除了基础类标签,通过一定算法加工出来的标签一般都没有单位和量纲。如将超过200斤的称为大胖子。

  • 分类不同

对指标的分类

按照指标计算逻辑,可以将指标分为原子指标、派生指标、衍生指标三种类型;DPM如何搭建指标体系。

按照对事件描述内容的不同,分为过程性指标和结果性指标;

对标签的分类

按照标签的变化性分为静态标签和动态标签;

按照标签的指代和评估指标的不同,可分为定性标签和定量标签;

指标最擅长的应用是监测、分析、评价和建模。标签最擅长的应用是标注、刻画、分类和特征提取。特别需要指出的是,由于对结果的标注也是一种标签,所以在自然语言处理和机器学习相关的算法应用场景下,标签对于监督式学习有重要价值,只是单纯的指标难以做到的。而指标在任务分配、绩效管理等领域的作用,也是标签无法做到的。

3. 维度和指标区别与联系

维度就是数据的观察角度,即从哪个角度去分析问题,看待问题。

指标就是从维度的基础上去衡算这个结果的值。

维度一般是一个离散的值,比如时间维度上每一个独立的日期或地域,因此统计时,可以把维度相同记录的聚合在一起,应用聚合函数做累加、均值、最大值、最小值等聚合计算。

指标就是被聚合的通计算,即聚合运算的结果,一般是一个连续的值。

4. 自然键与代理键在数仓的使用区别

数仓工具箱中说维度表的唯一主键应该是代理键而不应该是自然键。有时建模人员不愿意放弃使用自然键,因为他们希望与操作型代码查询事实表,而不希望与维度表做连接操作。然而,应该避免使用包含业务含义的多维键,因为不管我们做出任何假设最终都可能变得无效,因为我们控制不了业务库的变动。

所以数据仓库中维度表与事实表的每个连接应该基于无实际含义的整数代理键。避免使用自然键作为维度表的主键

5. 数据集市与数据仓库的区别与联系

数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

,
    推荐阅读
  • 家炖大黄鱼的做法(家炖大黄鱼怎么做)

    接下来我们就一起去研究一下吧!家炖大黄鱼的做法食材:黄鱼四条、黄酒适量、辣椒2个、酱油适量、姜蒜少许、小葱少许。黄鱼洗净后沥干水。平底锅烧热放油后加入少许食盐。黄鱼下锅煎制,下锅后不要急着翻动。一面焦黄硬朗时翻煎另一面。另起油锅,炒香姜蒜。撒入红椒圈盖盖炖煮一刻钟左右即可。

  • 夏季养生知识 夏季养生知识要点

    最佳调味品——食醋酷夏炎热出汗多,多吃点醋,能提高胃酸浓度,帮助消化和吸收,促进食欲。最佳饮料——热茶茶叶中富含钾元素,既解渴又解乏。最佳营养素——维生素E维生素可让你平安度夏,“最佳”桂冠非维生素E莫属。最佳除湿蔬菜——苦味菜夏季气温高湿度大,往往使人精神萎靡、倦怠乏力、胸闷、头昏、食欲不振、身体消瘦。最佳取凉“设施”——扇子从健身角度看,取凉“设施”是扇子最佳。

  • 一呆解字,六微旨大论篇天文解,1,

    《黄帝内经》是研究“气”的學問。“气”就是云气,有向上升腾之意。为了与“三”字区别,逐渐演化出向上和向下的弯曲,以表示地气上升及云气下降之象。也就是说人体内的“氣”是由脾胃运化水谷之精微而成,随肝肺升降。观其字形,分明是真火下降,心肾相交,存无守有,炼精化气之法。以上两段文字大致思想一致,认为天地万物,无不是秉气而生。又经五千四百岁,子会将终,近丑之会,而逐渐坚实。

  • 盆景养护与管理方法(盆景养护与管理方法有哪些)

    确定好放置的位置后,不要轻易搬动,频繁的搬动会造成盆景不断适应多变环境,造成生长困难。生桩建议三个月以内不要搬动,熟桩可以每隔半月转动180度。一般的盆景在夏季要注意遮阴,放置在通风凉爽的地方,避开强光。盆景的生长容器较小,生长期间需定期施肥,很多微量元素需要人为补充。对于大部分的盆景花卉来说,冬季室内温度需保持在10℃以上,部分需要春化的植物,可以将温度控制在4-10℃左右。

  • 用车为什么要买全险(买了全险)

    按照道路交通安全法规及相关实施条例:申请机动车注册登记,应当提交机动车第三者责任强制保险凭证。不过很多新手在保险机构办理机动车保险时,往往会碰到一个名为“汽车全险”的车辆保险产品,可是别以为买了“全险”就能“全赔”了,实际上没这么简单。

  • 化妆品是什么垃圾(化妆品属于哪些垃圾呢)

    我们一起去了解并探讨一下这个问题吧!化妆品是什么垃圾化妆品在不同的状态下属于不同的垃圾,如果化妆品用完了,包装是玻璃瓶或者塑料,把包装清洗干净就是可回收垃圾。如果在化妆过程中使用的面膜、面膜袋、粉扑、化妆刷等,都属于干垃圾,如果化妆品过期了,就属于有害垃圾。化妆品是属于一个非常大的类目,里面包括了很多产品,所以不能一概而论,还是要仔细划分里面的具体种类。

  • 国展儿童画展(这个超有趣的画展开展啦)

    这个超有趣的画展开展啦长江日报大武汉客户端5月22日讯5月21日,《“艺”想天开·2022国际少儿视觉艺术展》在武汉美术馆开展400余件来自全球的儿童绘画作品和美术装置让人仿佛置身于童话世界,步入展厅就此展开一段奇妙的艺术。

  • 单机打击感强的角色扮演手游推荐(那些年好玩的单机角色扮演类手游)

    游戏画风q萌可爱且有多种装扮,目前这款游戏支持的版本为Android2.1。游戏截图:图片来自于网络侵删图片来自于网络侵删2.艾诺迪亚4《艾诺迪亚4》是由Com2us发行的一款角色扮演类游戏,于2012年9月30日发行。本作为《艾诺迪亚3:卡尼亚传人》的续集版。艾诺迪亚主要有六大职业:黑暗骑士、忍者、黑魔导、祭司、暗影猎手和狂战士。并且每个职业都有完整的技能说明,并且划分更细致。主要讲述了在泽诺尼亚大陆上骑士团与龙族的长久斗争故事。

  • 生银杏果能吃吗(生银杏能不能吃)

    生银杏果能吃吗银杏果是不能生吃的,因为银杏果中含有毒素,生吃的话可能会造成身体不适等一些症状。而且银杏果里面含丰富的维生素和优质的水溶蛋白,有着良好的护肝解毒和修复肝组织损伤的功效。银杏果可以让女人排毒养颜,可以延缓衰老,能防止皱纹的产生,并且可以改善皮肤的血液的微循环。

  • 逗比人生句子说说心情(逗比的句子小合集)

    逗比人生句子说说心情春天,你在后山种下一个女朋友,到了秋天,结出那漫山遍野的绿帽子!第一只克隆羊诞生,生物技术新时代来临。深夜布什看到拉登站立在自己床前,批头散发,布什大惊说:你好大胆,敢夜闯白宫!拉登甩了甩齐胸的胡子,阴森森地笑了,说:潘婷,就是这样自信!您的假期已不足十天,请及时充值。若我当场晕倒,你要替我做人工呼吸,记住吸的时候要用力。