数据分析即做比较。
数据分析在做什么?
数据分析本质上做对比,所以首先考虑的问题是和谁比,怎么比,比什么。 其次,分析对应的是分解问题,分析拆解后的复杂事物,得到拆解元素之间的联系。
1 | 数据分析 -> 拆分、分解问题 -> 比较 |
数据的字段 (Field) 有各种类型,如:
- 定类尺度(性别)
- 定序尺度(成绩优良中下)
- 定距尺度(30比20高10)
- 定比尺度(项目数,每月工时)
同样,对于数据的属性也有好几种,如离散属性以及连续属性。离散属性中有频率与频数。连续属性则有:
- 平均值
- 中位数、分位数
- 众数
- 方差、标准差、自由度
- 偏态系数
- 峰态系数
怎么比
首先来看怎么比的问题,简单的多少、长短也是比较,对于数据分析我们有如下几种常用的类型。
- 假设检验,一致还是不一致
- 多维分析与钻取分析(Drill Down,Roll up)
- 交叉分析与透视表
- 秩次比较
- 相关分析
- 回归探索
- 自由分组与归类
这里说的是什么暂时不理解没关系,之后会单独拿出来讲。
一致还是不一致
我们可以通过假设检验来回答一致还是不一致的问题,先解释假设检验中的两个单词: H0
和 H1
。
H0
表示,在我们比较的数据中(样本与总体或样本与样本)的偏差是由自然误差引起的H1
表示,在我们比较的数据中(样本与总体或样本与样本)的偏差存在本质上的差别
拒绝H0
的成立,就可以对数据的比较做出结论推断,通常需要确定最大概率,用 \(\alpha\) 表示,常见的情况下取 0.05 或 0.01, 如果原假设发生的概率小于 \(\alpha\) 则可以拒绝 H0
。 为了拒绝原假设,需要进行检验,即检验统计量,检验统计量的方法有很多种,在不同的场景下对应着不同的检验方法,常见的检验方法及应用场景有:
- Z 检验, 样本均值是否与正态分布总体一致?
- T 检验,样本平均数与整体平均数
- F 检验,多组样本间的一致性比较
- 卡方检验, 两个分部是否一致的差异
- 秩和检验, 摆脱对总体分布的依赖,秩理解为名次
- A/B Test,新功能衡量部分用户的表现,上不上?
- 低功效实验,P值
需注意不同的检验方法的要求与统计量的计算方式不同,需要根据实际情况选择。
假设检验的结果也有可能是错的,主要有两类错误:
- 第一类错误,是真实情况为
H0
成立,但判断结论为拒绝H0
, 也就是把真的当成了假的 - 第二类错误,是真实情况为
H0
不成立,但判断结果接受H0
,也就是把假的当成了真的
在饱和的情况下,这两类的错误属于此消彼长的关系,当降低第一类错误发生概率时,第二类错误发生的概率会增加,反之亦然。
假设检验公式
- Z检验, \(Z = \frac{(\bar{x}-\mu_0)}{s}\) = \(\frac{(sample average-mean)}{standard\ deviation}\)
多维分析与钻取分析
多维分析的问题类似,调查北京有多少厨师?你需要列举所有可能的与厨师数量的属性,比如餐馆的数量、门店类型、分布规律等。
钻取分析的例子,假设某月,可乐的销量突然上涨,你想知道具体是在什么地区上涨(Contributing)。
多维分析是从多个角度、多个维度分析。钻取分析则是从维度变化的角度考虑,扩大或者缩小分析粒度。
多维分析可以在不同对象的相同维度下进行比较,也可以在相同对象的不同维度下,甚至是不同对象的不同维度,只要有业务支持。具体的方法可以比数值、也可以比占比。其精髓在于尽可能的罗列所有维度。
钻取分析需要注意其陷阱,因为下钻的层次越深,复合特征的样本越来越少,越少的样本代表着越高的风险,也会导致越不可靠的结论。
其次钻取的顺序也需要注意,比如调查离职员工的规律,为什么先从部门开始钻取,而不是其他?这里需要有个标准,一般来说区分程度最大的下钻方式应该排在最前面,如何衡量这个区分度呢?这就属于决策树中的内容了。
另外一个钻取的陷阱是辛普森悖论, 这里不做多介绍,感兴趣的可以打开链接了解。
交叉分析与透视表
这部分如果会使用 Excel 的 Pivot Table,或者 Pandas 里的 groupby
, pivot
或 pivot_table
方法就懂了,在此不做解释。
秩次比较
未完待续...