直方图是一个样本分布的完整描述,也就是说,有了直方图,我们可以重构样本中的值(但无法重构其顺序)。

如果一个分布的细节很重要,我们可能需要展示其直方图。但是,我们经常只需使用几个描述性的统计量,对变量分布进行一个概述。

我们可能需要描述的变量分布特征有如下这些。

  • 集中趋势

    变量值是否聚集在某个值的附近?

  • 众数

    是否有多个聚集点?

  • 展布

    变量的变化性如何?

  • 尾部

    当值偏离众数时,其概率降低多快?

  • 离群值

    是否有远离众数的极端值?

汇总统计量(summary statistic)就是为回答以上这些问题而设计的。目前最常用的汇总统计量是均值(mean),用于描述分布的集中趋势(central tendency) 。

如果有一个样本,其中包含 n 个值 xi,均值 \bar x 就是所有值的总和除以值的个数,即:

\bar x=\frac {1}{n}\sum_i x_i

“均值”和“平均数”这两个词有时可以互换使用,但有一个区别:

  • 一个样本的“均值”是使用上面的公式计算得到的汇总统计量;
  • “平均数”是描述集中趋势的汇总统计量之一。

有时,均值可以很好地描述一组值。例如:苹果的大小都差不多(至少超市卖的苹果如此)。因此,如果我买了6个苹果,总重量为3磅,那么每个苹果约重半磅就是合理的说法。

但是南瓜个体差异比较大。假设我在院子里种了好几种南瓜,某天收获了3个做装饰的南瓜,每个1磅重;2个做派的南瓜,每个3磅重;还有1个Atlantic Giant南瓜,重达591磅。我收获的南瓜样本均值为100磅。但是如果我说“我院子里普通大小的南瓜重100磅”,那就是在误导你。这个例子中不存在具有代表性的南瓜,因此平均值没有意义。

30:00