统计学梳理

2016-04-12

概述

统计学大体上可分为两类,描述性统计(descriptive statistics)和推断统计(inferential statistics)。用一些关键数据来描述数据的相关情况,就是描述性统计;而根据样本来推断出总体数据的情况,就是推断统计。

集中趋势和离中趋势

给定一组数据,我们想找出其中最能代表这组数据的个别数字,或者说能体现集中趋势(central tendency)的数字,这个数就是平均数(average)。此处的平均数是广义的平均数,指的是描述数据集中趋势的一个数值,它可以是均值(mean),可以是中位数(median),也可以是众数(mode)。不同的情况下我们用不同的方法描述数据的集中趋势。既然有了集中趋势,那么很自然的我们引入了离中趋势(dispersion)来衡量一组数据是接近该集中趋势还是远离该集中趋势。我们用方差$\sigma^2$来衡量该趋势。方差越大,离集中趋势越远,数据越分散。注意无论是集中趋势的均值,中位数,众数,还是离中趋势的方差,标准差,都是人为创造出的描述数据的方法。

随机变量

随机变量不是传统意义上的变量,它更像是一个函数,用来映射一个随机过程的函数。随机变量分为两类,离散随机变量(discrete random variables)和连续随机变量(continuous random variables)。分别举一个例子,掷骰子,骰子一共六个面,结果只能是$1-6$中的一个,可以用离散随机变量来量化这一个掷骰子的随机过程。预测雨后水库水位,水位的取值是无限的,可以用连续随机变量来量化这一过程。如果我们画出掷骰子这个随机过程的概率密度函数的话,我们会发现每一个可能取得的数值,其概率都等于$1/6$,我们就可以说这个随机过程服从均匀分布(uniform distribution)。现实中还有很多其他分布,比如二项分布(binomial distribution),正态分布(normal distribution)等等。

无偏估计

在总体非常大的情况下,我们往往使用样本来估计总体。除非运气特别好,否则样本均值跟总体均值肯定是不一样的,那么为什么说样本均值是总体均值的无偏估计量呢?这里引用知乎上的一段解释:

作者:包龙图
链接:https://www.zhihu.com/question/22983179/answer/23472111
来源:知乎
现在甲市有一万名小学三年级学生,他们进行了一次统考,考试成绩服从1~100的均匀分布:00001号学生得1分,00002号学生得1.01分……10000号学生得100分。那么他们的平均分是多少?(1+1.01+1.02+....+100)/10000=50.5,这个值叫做总体平均数。现在假定你是教委的一个基层人员,教委主任给你一个早上时间,让你估算一下全市学生的平均成绩,你怎么办?把全市一万名学生都问一遍再计算时间显然是来不及了,因此在有限的时间里,你找到了一个聪明的办法:给全市的78所小学每一所学校打了一个电话,让他们随机选取一名学生的成绩报上来,这样你就得到了78个学生的成绩,这78个学生就是你的样本。你现在的任务很简单了,拿这78个学生的成绩相加并除以78,你就得到了样本平均数。你把这个数报告给教委主任,这个数就是你估算出来的全市平均成绩。这个样本平均数会不会等于总体平均数50.5?很显然这和你的“手气”有关——不过大多数情况下是不会相等的。那么问题来了:既然样本平均数不等于总体平均数(也就是说你报给教委主任的平均分和实际的平均分非常有可能是不一样的),要它还有用吗?有!因为样本平均数是总体平均数的无偏估计——也就是说只要你采用这种方法进行估算,估算的结果的期望值(你可以近似理解为很多次估算结果的平均数)既不会大于真实的平均数,也不会小于之。换句话说:你这种估算方法没有系统上的偏差,而产生误差的原因只有一个:随机因素(也就是你的手气好坏造成的)。

“样本均值”其实就是一个随机变量,他的期望跟跟总体分布的均值是一样的,这里的无偏性指的是期望层面的。当抽样次数趋近于无穷的时候,我们的所有“样本均值”的均值就等于总体的均值,但是由于其只是一个随机变量,只是估计而不是精确的等于总体均值,所以是无偏估计量。

总体方差的无偏估计

我们知道了抽样的概念,知道了方差公式,那么我们很容易知道方差的估计量(estimator)为:
$$S_1^2=\frac{1}{n}\sum_{i=1}^{n}{(X_i-\overline{X})^2}$$
但是这个估计量是有偏差(bias)的,可以看证明:
$$
\begin{align}
E(S_1^2)&=\frac{1}{n}\sum_{i=1}^{n}{E((X_i-\overline{X})^2)} \\
&=\frac{1}{n}E\left(\sum_{i=1}^{n}{(X_i-\mu+\mu-\overline{X})^2}\right) \\
&=\frac{1}{n}E\left(\sum_{i=1}^{n}{((X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2})\right) \\
&=\frac{1}{n}{E\left(\sum_{i=1}^{n}{(X_i-\mu)^2-2\sum_{i=1}^{n}(X_i-\mu)(\overline{X}-\mu)+n(\overline{X}-\mu)^2}\right)} \\
&=\frac{1}{n}E\left(\sum_{i=1}^{n}(X_i-\mu)^2-2n(\overline{X}-\mu)(\overline{X}-\mu)+n(\overline{X}-\mu)^2\right) \\
&=\frac{1}{n}E\left(\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2\right) \\
&=\frac{1}{n}\left(\sum_{i=1}^{n}E\left((X_i-\mu)^2\right)-nE\left((\overline{X}-\mu)^2\right)\right) \\
&=\frac{1}{n}\left(nVar(X)-nVar(\overline{X})\right) \\
&=\sigma^2-\frac{\sigma^2}{n}
\end{align}
$$
所以,为了避免使用有偏差的估计,我们常常使用它的修正值:
$$S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\overline{X})^2}$$

期望值E(X)

随机变量的期望值其实就是总体的均值。在总体等于无穷的时候,直接球总体的均值不可能,不过我们可以根据概率分布来求总体的均值。离散随机变量的概率分布的$y$轴其实就是随机变量取值对应的频率。

概率密度函数

我们看到下面的概率密度函数(probability density function)曲线,它是服从正太分布的。我们暂且不管正态分布,假设我们这个分布描述的是明天的水位,我们想求水位等于$0$的概率,从图中看,水位等于$0$时,y轴数值为$0.4$,那么概率是否为$0.4$?显然不等于,因为水位是一个连续变化的值,若纵轴表示的是当前水位的概率,那设想概率之和为无穷个大于$0$的小数之和,等于无穷,不等于$1$,显然不可能,因为所有事件都发生的概率为$1$。所以我们一般不会求某个具体的值的概率,而是求一个区间概率,比如,求明天水位大于$-0.5$小于$0.5$的概率,这样一个区间概率我们可以通过定积分求解。在概率密度函数中,横坐标表示随机变量的取值范围,纵坐标表示概率的密度,纵轴数值越大,密度越高,在该范围处的概率也就越大,但是注意一点连续随机变量在某点的概率为0 。所以用概率密度求概率,必须明确该概率密度时对应的取值范围,其面积也就是,出现在这个范围的概率。

二项分布

二项分布是统计学里一个非常重要的分布。二项分布是$n$个独立的试验中成功的次数的离散概率分布,在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,其中每次试验的成功概率为$p$。如果是连续的,就成了正态分布。二项式分布的公式为:
$$f(k;n;p)=\dbinom{n}{k}p^k(1-p)^{n-k}$$
k为正好得到k次成功,$\dbinom{n}{k}$为二项式系数,二项分布因此而得名。$\dbinom{n}{k}=\frac{n!}{k!(n-k)!}$。求二项分布的期望,即求:
$$E(X)=\sum_{k=0}^{n}k\dbinom{n}{k}p^k(1-p)^{n-k}=np$$
二项分布的期望为$n*p$,可以理解为,最有可能成功的次数。