Scott's Blog

学则不固, 知则不惑

0%

数据分析在做什么

数据分析即做比较。

数据分析在做什么?

数据分析本质上做对比,所以首先考虑的问题是和谁比,怎么比,比什么。 其次,分析对应的是分解问题,分析拆解后的复杂事物,得到拆解元素之间的联系。

1
数据分析 -> 拆分、分解问题 -> 比较

数据的字段 (Field) 有各种类型,如:

  1. 定类尺度(性别)
  2. 定序尺度(成绩优良中下)
  3. 定距尺度(30比20高10)
  4. 定比尺度(项目数,每月工时)

同样,对于数据的属性也有好几种,如离散属性以及连续属性。离散属性中有频率与频数。连续属性则有:

  1. 平均值
  2. 中位数、分位数
  3. 众数
  4. 方差、标准差、自由度
  5. 偏态系数
  6. 峰态系数

怎么比

首先来看怎么比的问题,简单的多少、长短也是比较,对于数据分析我们有如下几种常用的类型。

  1. 假设检验,一致还是不一致
  2. 多维分析与钻取分析(Drill Down,Roll up)
  3. 交叉分析与透视表
  4. 秩次比较
  5. 相关分析
  6. 回归探索
  7. 自由分组与归类

这里说的是什么暂时不理解没关系,之后会单独拿出来讲。

一致还是不一致

我们可以通过假设检验来回答一致还是不一致的问题,先解释假设检验中的两个单词: H0H1

  • H0 表示,在我们比较的数据中(样本与总体或样本与样本)的偏差是由自然误差引起的
  • H1 表示,在我们比较的数据中(样本与总体或样本与样本)的偏差存在本质上的差别

拒绝H0 的成立,就可以对数据的比较做出结论推断,通常需要确定最大概率,用 \(\alpha\) 表示,常见的情况下取 0.05 或 0.01, 如果原假设发生的概率小于 \(\alpha\) 则可以拒绝 H0。 为了拒绝原假设,需要进行检验,即检验统计量,检验统计量的方法有很多种,在不同的场景下对应着不同的检验方法,常见的检验方法及应用场景有:

  • Z 检验, 样本均值是否与正态分布总体一致?
  • T 检验,样本平均数与整体平均数
  • F 检验,多组样本间的一致性比较
  • 卡方检验, 两个分部是否一致的差异
  • 秩和检验, 摆脱对总体分布的依赖,秩理解为名次
  • A/B Test,新功能衡量部分用户的表现,上不上?
  • 低功效实验,P值

需注意不同的检验方法的要求与统计量的计算方式不同,需要根据实际情况选择。

假设检验的结果也有可能是错的,主要有两类错误:

  • 第一类错误,是真实情况为 H0 成立,但判断结论为拒绝 H0, 也就是把真的当成了假的
  • 第二类错误,是真实情况为 H0 不成立,但判断结果接受 H0,也就是把假的当成了真的

在饱和的情况下,这两类的错误属于此消彼长的关系,当降低第一类错误发生概率时,第二类错误发生的概率会增加,反之亦然。

假设检验公式

  • Z检验, \(Z = \frac{(\bar{x}-\mu_0)}{s}\) = \(\frac{(sample average-mean)}{standard\ deviation}\)

多维分析与钻取分析

多维分析的问题类似,调查北京有多少厨师?你需要列举所有可能的与厨师数量的属性,比如餐馆的数量、门店类型、分布规律等。

钻取分析的例子,假设某月,可乐的销量突然上涨,你想知道具体是在什么地区上涨(Contributing)。

多维分析是从多个角度、多个维度分析。钻取分析则是从维度变化的角度考虑,扩大或者缩小分析粒度。

多维分析可以在不同对象的相同维度下进行比较,也可以在相同对象的不同维度下,甚至是不同对象的不同维度,只要有业务支持。具体的方法可以比数值、也可以比占比。其精髓在于尽可能的罗列所有维度。

钻取分析需要注意其陷阱,因为下钻的层次越深,复合特征的样本越来越少,越少的样本代表着越高的风险,也会导致越不可靠的结论。

其次钻取的顺序也需要注意,比如调查离职员工的规律,为什么先从部门开始钻取,而不是其他?这里需要有个标准,一般来说区分程度最大的下钻方式应该排在最前面,如何衡量这个区分度呢?这就属于决策树中的内容了。

另外一个钻取的陷阱是辛普森悖论, 这里不做多介绍,感兴趣的可以打开链接了解。

交叉分析与透视表

这部分如果会使用 Excel 的 Pivot Table,或者 Pandas 里的 groupbypivotpivot_table 方法就懂了,在此不做解释。

秩次比较

未完待续...