我们已经使用了全国家庭增长调查数据集中的两个变量——caseidpregordr,还看到数据集中共有244个变量。本书的探索性分析用到如下变量。

  • caseid:调查参与者的整数ID。
  • prglength:妊娠周数,是一个整数。
  • outcome:怀孕结果的整数代码。1代表成功生产。
  • pregordr:妊娠的顺序号。例如,一位调查参与者的第一次妊娠为1,第二次为2,以此类推。
  • birthord:成功生产的顺序号,一位调查参与者的第一个孩子代码为1,以此类推。对没有成功生产的其他妊娠结果,此字段为空。
  • birthwgt_lbbirthwgt_oz:新生儿体重的磅部分数值和盎司部分数值。
  • agepreg:妊娠结束时母亲的年龄。
  • finalwgt:调查参与者的统计权重。这是一个浮点数,表示这位调查参与者在全美人口中代表的人数。

如果你仔细阅读了代码本,就会发现这些变量中很多都是重编码(recode),也就是说这些不是调查收集的原始数据(raw data),而是使用原始数据计算得到的。

例如,如果成功生产,prglngth的值就与原始变量wksgest(妊娠周数)相等;否则,prglngth的值估算为mosgest * 4.33(妊娠月数乘以一个月的平均周数)。

重编码通常都基于一定的逻辑,这种逻辑用于检查数据的一致性和准确性。一般情况下,如果数据中存在重编码,我们就直接使用,除非有特殊的原因需要自己处理原始数据。

30:00