前言

本书介绍探索性数据分析的实用工具,书中章节按照我自己处理数据集时遵循的步骤进行组织。

  • 导入和清洗:无论数据格式如何,我们通常都需要花费一些时间和精力进行数据的读取、清洗和变换,并进行检查,以确保在此过程中信息完好无损。
  • 单变量探索:通常情况下,我会首先逐个检查变量,弄清变量的意义,分析变量值的分布,选择合适的汇总统计量。
  • 成对探索:为了发现变量之间的关系,我会分析表格和散点图,计算相关性并进行线性拟合。
  • 多变量分析:如果变量之间存在明显关系,我就要使用多元回归以增加控制变量,从而研究更复杂的关联关系。
  • 估计和假设检验:在汇报统计结果时,有3个重要问题需要回答。效应规模如何?再次运行同一测量时,预期的变化性有多大?这个明显的效应是否可能是偶然产生的?
  • 可视化:在数据探索中,可视化是寻找可能关系和效应的一个重要工具。如果一个明显的效应是统计显著的,那么可视化可以帮助我们有效地展示结果。

本书采用的是计算方法。相比数学方法,计算方法具有如下优点。

  • 大多数概念用Python代码进行展示,而非数学符号。总体而言,Python代码的可读性更好,而且这些代码是可执行的,读者可以下载、运行并进行修改。
  • 每一章都附有练习,可以帮助读者扩展并巩固知识。编写程序时,你把自己对知识的理解表达为代码;调试代码时,这些理解也可以得到修正。
  • 一些练习使用了实验检验统计行为。例如,你可以通过生成随机样本并计算它们的总和来探索中心极限定理(Central Limit Theorem,CLT)。练习得到的可视化结果展示了CLT的工作原理及适用条件。
  • 一些概念很难从数学角度进行理解,却很容易通过模拟掌握。例如,通过运行随机模拟对 p 值进行近似,可以增强我们对 p 值含义的理解。
  • 由于本书使用通用编程语言(Python),因此读者几乎可以从任何数据源导入数据,而不必受限于使用特定统计工具进行了清洗和格式化的数据集。

本书使用基于项目的方法。在我的课堂上,学生需要完成一个为期一个学期的项目。在项目中,学生要提出一个统计问题,寻找可以解决这个问题的数据集,并将学到的各种技术应用于这个数据集。

为了展示我采用的统计分析方法,本书将介绍一个贯穿各章的案例。这个案例使用的数据来自以下两方面资源。

  • 全国家庭增长调查(National Survey of Family Growth,NSFG),这一调查由美国疾病控制和预防中心(Center for Disease Control and Prevention,CDC)开展,以收集“与家庭生活、婚姻状况、妊娠情况、生育情况、避孕情况,以及两性健康相关的信息”。参见http://cdc.gov/nchs/nsfg.htm
  • 行为危险因素监测系统(Behavioral Risk Factor Surveillance System,BRFSS),由国家慢性病预防和健康促进中心(National Center for Chronic Disease Prevention and Health Promotion)主持,以“跟踪美国的健康状况及风险行为”。参见http://cdc.gov/BRFSS/

其他示例使用的数据来自美国国税局(IRS)、美国人口普查(U.S. Census)及波士顿马拉松赛(Boston Marathon)。

《统计思维》的第2版包含了第1版的各章,但对其中很多内容进行了大幅修改,并新增了关于回归、时间序列分析、生存分析和分析方法的章节。本书第1版没有使用pandas、SciPy和StatsModels,所以这些内容也都是新增的。

30:00