|
|
@@ -5,8 +5,8 @@
|
|
|
我们经常会使用以下几个指标来描述一组数据的集中趋势:
|
|
|
|
|
|
1. 均值 - 均值代表某个数据集的整体水平,我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值的缺点是容易受极值的影响,虽然可以使用加权平均值来消除极值的影响,但是可能事先并不清楚数据的权重;对于正数可以用几何平均值来替代算术平均值。
|
|
|
- - 算术平均值:$$\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$。
|
|
|
- - 几何平均值:$$\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}$$。
|
|
|
+ - 算术平均值:$$\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$,例如计算最近30天日均DAU、日均新增访客等,都可以使用算术平均值。
|
|
|
+ - 几何平均值:$$\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}$$,例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率等,就可以使用几何平均值。
|
|
|
2. 中位数 - 将数据按照升序或降序排列后位于中间的数,它描述了数据的中等水平。
|
|
|
3. 众数 - 数据集合中出现频次最多的数据,它代表了数据的一般水平。数据的趋势越集中,众数的代表性就越好。众数不受极值的影响,但是无法保证唯一性和存在性。
|
|
|
|
|
|
@@ -17,24 +17,22 @@ A组:5, 6, 6, 6, 6, 8, 10
|
|
|
B组:3, 5, 5, 6, 6, 9, 12
|
|
|
```
|
|
|
|
|
|
-A组:
|
|
|
+A组的均值:6.74,中位数:6,众数:6。
|
|
|
|
|
|
-均值:6.74,中位数:6,众数:6。
|
|
|
+B组的均值:6.57,中位数:6,众数:5, 6。
|
|
|
|
|
|
-B组:
|
|
|
-
|
|
|
-均值:6.57,中位数:6,众数:5, 6。
|
|
|
+> **说明**:在Excel中,可以使用AVERAGE、MEDIAN、MODE函数分别计算均值、中位数和众数。
|
|
|
|
|
|
对A组的数据进行一些调整。
|
|
|
|
|
|
```
|
|
|
-A组:5, 6, 6, 6, 6, 8, 10, 20
|
|
|
+A组:5, 6, 6, 6, 6, 8, 10, 200
|
|
|
B组:3, 5, 5, 6, 6, 9, 12
|
|
|
```
|
|
|
|
|
|
A组的均值会大幅度提升,但中位数和众数却没有变化。
|
|
|
|
|
|
-> **思考**:怎样判断上面的20到底是不是一个异常值?
|
|
|
+> **思考**:怎样判断上面的200到底是不是一个异常值?
|
|
|
|
|
|
| | 优点 | 缺点 |
|
|
|
| ------ | -------------------------------- | ------------------------------------ |
|
|
|
@@ -48,17 +46,26 @@ A组的均值会大幅度提升,但中位数和众数却没有变化。
|
|
|
|
|
|
### 数据的离散趋势
|
|
|
|
|
|
-如果说数据的集中趋势,说明了数据最主要的特征是什么;那么数据的离散趋势,则体现了这个特征的稳定性。例如A地区冬季平均气温`0`摄氏度,最低气温`-10`摄氏度;B地区冬季平均气温`-2`摄氏度,最低气温`-4`摄氏度;如果你是一个特别怕冷的人,在选择A和B两个区域作为工作和生活的城市时,你会做出怎样的选择?
|
|
|
+如果说数据的集中趋势,说明了数据最主要的特征是什么;那么数据的离散趋势,则体现了这个特征的稳定性。例如 A 地区冬季平均气温`0`摄氏度,最低气温`-10`摄氏度;B 地区冬季平均气温`-2`摄氏度,最低气温`-4`摄氏度;如果你是一个特别怕冷的人,在选择 A 和 B 两个区域作为工作和生活的城市时,你会做出怎样的选择?
|
|
|
|
|
|
1. 极值:就是最大值(maximum)、最小值(minimum),代表着数据集的上限和下限。
|
|
|
+
|
|
|
+ > **说明**:在Excel中,计算极值的函数是MAX和MIN。
|
|
|
+
|
|
|
2. 极差:又称“全距”,是一组数据中的最大观测值和最小观测值之差,记作$R$。一般情况下,极差越大,离散程度越大,数据受极值的影响越严重。
|
|
|
+
|
|
|
3. 方差:将每个值与均值的偏差进行平方,然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大,就意味着数据越不稳定、波动越剧烈,因此代表着数据整体比较分散,呈现出离散的趋势;而方差越小,意味着数据越稳定、波动越平滑,因此代表着数据整体比较集中。
|
|
|
- 总体方差:$$ \sigma^2 = \frac {\sum_{i=1}^{N}(X_i - \mu)^2} {N} $$。
|
|
|
- 样本方差:$$ S^2 = \frac {\sum_{i=1}^{N}(X_i - \bar{X})^2} {N-1} $$。
|
|
|
+
|
|
|
+ > **说明**:在Excel中,计算总体方差和样本方差的函数分别是VAR.P和VAR.S。
|
|
|
+
|
|
|
4. 标准差:将方差进行平方根运算后的结果,与方差一样都是表示数据与期望值的偏离程度。
|
|
|
- 总体标准差:$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}} $$。
|
|
|
- 样本标准差:$$ S = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \bar{X})^2}{N-1}} $$。
|
|
|
|
|
|
+ > **说明**:在Excel中,计算标准差的函数分别是STDEV.P和STDEV.S。
|
|
|
+
|
|
|
> **练习3**:复制“概率基础练习.xlsx”文件的表单“练习1”,将复制的表单命名为“练习3”,计算订单支付金额的最大值、最小值、极差、方差和标准差。
|
|
|
|
|
|
### 数据的频数分析
|
|
|
@@ -130,6 +137,23 @@ A组的均值会大幅度提升,但中位数和众数却没有变化。
|
|
|
|
|
|
> **说明**:泊松分布是在没有计算机的年代,由于二项分布的运算量太大运算比较困难,为了减少运算量,数学家为二项分布提供的一种近似。
|
|
|
|
|
|
+#### 分布函数和密度函数
|
|
|
+
|
|
|
+对于连续型随机变量,我们不可能去罗列每一个值出现的概率,因此要引入分布函数的概念。
|
|
|
+$$
|
|
|
+F(x) = P\{X \le x\}
|
|
|
+$$
|
|
|
+如果将$ X $看成是数轴上的随机坐标,上面的分布函数表示了$ x $落在区间$ (-\infty, x) $中的概率。分布函数有以下性质:
|
|
|
+
|
|
|
+1. $ F(x) $是一个单调不减的函数;
|
|
|
+2. $ 0 \le F(x) \le 1$,且$ F(-\infty) = \lim_{x \to -\infty} F(x) = 0 $, $F(\infty) = \lim_{x \to \infty} F(x) = 1$;
|
|
|
+3. $ F(x) $是右连续的。
|
|
|
+
|
|
|
+概率密度函数就是给分布函数求导的结果,简单的说就是:
|
|
|
+$$
|
|
|
+F(x) = \int_{- \infty}^{x} f(t)dt
|
|
|
+$$
|
|
|
+
|
|
|
#### 连续型分布
|
|
|
|
|
|
1. 均匀分布(*Uniform distribution*):如果连续型随机变量$X$具有概率密度函数$f(x)=\begin{cases}{\frac{1}{b-a}} \quad &{a \leq x \leq b} \\ {0} \quad &{\mbox{other}}\end{cases}$,则称$X$服从$[a,b]$上的均匀分布,记作$X\sim U[a,b]$。
|
|
|
@@ -138,12 +162,25 @@ A组的均值会大幅度提升,但中位数和众数却没有变化。
|
|
|
|
|
|
3. 正态分布(*Normal distribution*):又名**高斯分布**(*Gaussian distribution*),是一个非常常见的连续概率分布,经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量$X$服从一个位置参数为$\mu$、尺度参数为$\sigma$的正态分布,记为$X \sim N(\mu,\sigma^2)$,其概率密度函数为:$\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$。
|
|
|
|
|
|
- <img src="normal-distribution.png" width="600">
|
|
|
+ <img src="https://gitee.com/jackfrued/mypic/raw/master/20210716155507.png" width="80%">
|
|
|
|
|
|
“3$\sigma$法则”:
|
|
|
|
|
|
- <img src="3sigma.png" height="600">
|
|
|
+ <img src="https://gitee.com/jackfrued/mypic/raw/master/20210716155542.png" width="75%">
|
|
|
+
|
|
|
+ 正态分布有一个非常重要的性质,**大量统计独立的随机变量的平均值的分布趋于正态分布**,这就是**中心极限定理**。中心极限定理的重要意义在于,我们可以用正态分布作为其他概率分布的近似。
|
|
|
+
|
|
|
+ 一个例子:假设某校入学新生的智力测验平均分数与标准差分别为 100 与 12。那么随机抽取 50 个学生,他们智力测验平均分数大于 105 的概率是多少?小于 90 的概率是多少?
|
|
|
+
|
|
|
+ 本例没有正态分布的假设,还好中心极限定理提供一个可行解,那就是当随机样本数量超过30,样本平均数 近似于一个正态变量,标准正态变量$ Z = \frac {\bar{X} - \mu} {\sigma / \sqrt{n}} $。
|
|
|
+
|
|
|
+ 平均分数大于 105 的概率为:$ P(Z \gt \frac{105 - 100}{12 / \sqrt{50}}) = P(Z \gt 5/1.7) = P(Z \gt 2.94) = 0.0016$。
|
|
|
+
|
|
|
+ 平均分数小于 90 的概率为:$ P(Z \lt \frac{90-100}{12/\sqrt{50}}) = P(Z < -5.88) = 0.0000 $。
|
|
|
+
|
|
|
+ > **说明**:上面标准正态分布的概率值可以查表得到。
|
|
|
|
|
|
4. 伽马分布(*Gamma distribution*):假设$X_1, X_2, ... X_n$为连续发生事件的等候时间,且这$n$次等候时间为独立的,那么这$n$次等候时间之和$Y$($Y=X_1+X_2+...+X_n$)服从伽玛分布,即$Y \sim \Gamma(\alpha,\beta)$,其中$\alpha=n, \beta=\lambda$,这里的$\lambda$是连续发生事件的平均发生频率。
|
|
|
|
|
|
-5. 卡方分布(*Chi-square distribution*):若$k$个随机变量$Z_1,Z_2,...,Z_k$是相互独立且符合标准正态分布(数学期望为0,方差为1)的随机变量,则随机变量$Z$的平方和$X=\sum_{i=1}^{k}Z_i^2$被称为服从自由度为$k$的卡方分布,记为$X \sim \chi^2(k)$。
|
|
|
+5. 卡方分布(*Chi-square distribution*):若$k$个随机变量$Z_1,Z_2,...,Z_k$是相互独立且符合标准正态分布(数学期望为0,方差为1)的随机变量,则随机变量$Z$的平方和$X=\sum_{i=1}^{k}Z_i^2$被称为服从自由度为$k$的卡方分布,记为$X \sim \chi^2(k)$。
|
|
|
+
|