从1973年起,美国疾病控制和预防中心(CDC)就开始进行全国家庭增长调查(NSFG,http://cdc.ogv/nchs/nsfg.htm),以收集“与家庭生活、婚姻状况、妊娠情况、生育情况、避孕情况,以及两性健康相关的信息。此项调查的结果用于……进行健康服务和健康教育项目的规划,以及对家庭、生育及健康情况进行统计研究”。

我们将使用这项调查收集到的数据研究第一胎是否出生较晚,并解答一些其他问题。为了有效地使用这些数据,我们必须理解这项研究是如何设计的。

全国家庭增长调查是一项横截面(cross-sectional)研究,也就是说该研究捕获的是一个群组在某一时刻的快照。在横截面研究之外,最常见的是纵向(longitudinal)研究,指在一个时间段内重复观察一个群组。

全国家庭增长调查进行过7次,每一次都称为一个周期(cycle)。我们将使用第6次的数据,其时间段为2002年1月至2003年3月。

这项调查的目的是对一个总体(population)得出结论。全国家庭增长调查的目标总体是居住在美国、年龄在15~44岁的人。理想情况下,调查要收集这个总体中每个成员的数据,但这是不可能实现的。实际上,我们收集了这个总体的一个子集的数据,这个子集称为样本(sample)。参与调查的人称为调查参与者(respondent)。

通常来说,横截面研究应该是有代表性(representative)的,也就是说目标总体中每个成员参与调查的机会均等。这种理想条件在实践中很难实现,但是进行调查的人员会竭尽所能满足这个条件。

全国家庭增长调查不具有代表性,而是特意进行过度抽样(oversample)。这项研究的设计者招募了拉美裔美国人、非洲裔美国人和青少年3个群组的参与者,每个群组的招募比例都超过其在美国人口中所占的比例,以确保各群组的参与者数量足够多,从而进行有效的统计推断。

当然,过度抽样也有缺点,那就是不容易从调查的统计数据中得出关于总体的结论。我们稍后会对此进行讨论。

在使用这种调查数据时,我们必须熟悉代码本(codebook),这一点非常重要。代码本记录了一项研究的设计、使用的调查问题,以及调查中响应变量的编码。你可以从美国疾病控制和预防中心的网站(http://www.cdc.gov/nchs/nsfg/nsfg_cycle6.htm)下载全国家庭增长调查数据的代码本和使用手册。

30:00