• 练习1.1

    你下载的代码中应该有一个名为chap01ex.ipynb的文件,这是一个IPython记事本。你可以用如下命令从命令行启动IPython记事本:

    $ ipython notebook &

    如果系统安装了IPython,会启动一个在后台运行的服务器,并打开一个浏览器查看记事本。如果你不熟悉IPython,我建议你从IPython网站(http://ipython.org/ipython-doc/stable/notebook/notebook.html)开始学习。

    你可以添加一个命令行选项,使图片在“行内”(即在记事本中)显示,而非弹出窗口:

    $ ipython notebook --pylab=inline &

    打开chap01ex.ipynb。记事本中一些单元已经填好了代码,可以直接执行。其他单元列出了你应该尝试的练习。

    本练习的参考答案在chap01soln.ipynb中。

  • 练习1.2

    创建一个名为chp01ex.py的文件,编写代码,读取参与者文件2001FemResp.dat.gz。你可以复制nsfg.py文件并对其进行修改。

    变量pregnum是一个重编码,用于说明每位调查参与者有过多少次妊娠经历。打印这个变量中不同值的出现次数,将结果与全国家庭增长调查代码本中发布的结果进行比较。

    你也可以将每位调查参与者的pregnum值与妊娠文件中的记录数进行比较,对调查参与者文件和妊娠文件进行交叉验证。

    你可以使用nsfg.MakePregMap生成一个字典,将每个caseid映射到妊娠DataFrame的索引列表。

    本练习的参考答案在chp01soln.py中。

  • 练习1.3

    学习统计学的最好方法是使用一个你感兴趣的项目。你想研究“第一胎是否都会晚出生”这样的问题吗?

    请思考一些你个人感兴趣的问题,可以是传统观点、争议话题或影响政局的问题,看是否可以构想出一个能以统计调查进行验证的问题。

    寻找能帮助你回答这个问题的数据。公共研究的数据经常可以免费获取,因此政府网站是很好的数据来源,如http://www.data.gov/http://www.science.gov/。如果想获得英国的数据,可以访问http://data.gov.uk/

    我个人最喜爱的两个数据集是General Social Survey(http://www3.norc.org/gss+website/)和European Social Survey(http://www.europeansocialsurvey.org)。

    如果有人看似已经解答了你的问题,那么仔细检查该回答是否合理。数据和分析中可能存在的缺陷都会使结论不可靠。如果发现别人的解答存在问题,你可以对同样的数据进行不同的分析,或者寻找更好的数据来源。

    如果有一篇论文解答了你的问题,那么你应该能够获得论文使用的原始数据。很多论文作者会把数据放在网上供大家使用,但如果涉及敏感信息,你可能需要向作者写信索要,提供你计划如何使用这些数据的信息,或者同意某些使用条款。坚持就是胜利!

30:00