第2章 分布

描述变量的最佳方法之一是列出该变量在数据集中的值,以及每个值出现的次数。这种描述称为该变量的分布(distribution)。

分布最常用的呈现方法是直方图(histogram),即展示每个值的频数(frequency)的图形。在这里,“频数”指一个值出现的次数。

使用Python计算频数的一种有效方法是使用字典。假设有一个值序列t

hist = {}
for x in t:
    hist[x] = hist.get(x, 0) + 1

执行这段代码,可以得到一个将值映射到频数的字典。此外,也可以使用collections模块中定义的Counter类。

from collections import Counter
counter = Counter(t)

结果是一个Counter对象,是字典类的子类。

还有一个方法是使用前一章介绍的pandas方法value_counts。但是我为本书创建了一个类Hist,用来表示直方图,并提供操作方法。

30:00