3.1 Python中的统计学

In [1]:

  1. %matplotlib inline
  2. import numpy as np

作者 : Gaël Varoquaux

必要条件

要安装Python及这些依赖,推荐下载Anaconda PythonEnthought Canopy, 如果你使用Ubuntu或其他linux更应该使用包管理器。

也可以看一下: Python中的贝叶斯统计

本章并不会涉及贝叶斯统计工具。适用于贝叶斯模型的是PyMC, 在Python中实现了概率编程语言。

为什么统计学要用Python?

R是一门专注于统计学的语言。Python是带有统计学模块的通用编程语言。R比Python有更多的统计分析功能,以及专用的语法。但是,当面对构建复杂的分析管道,混合统计学以及例如图像分析、文本挖掘或者物理实验控制,Python的富有就是物价的优势。

内容

  • 数据表征和交互
    • 数据作为表格
    • panda data-frame
  • 假设检验: 对比两个组
    • Student’s t-test: 最简单的统计检验
    • 配对实验: 对同一个体的重复测量
  • 线性模型、多因素和方差分析
    • 用“公式” 来在Python中指定统计模型
    • 多元回归: 包含多元素
    • 事后假设检验: 方差分析 (ANOVA)
  • 更多的可视化: 用seaborn来进行统计学探索
    • 配对图: 散点矩阵
    • lmplot: 绘制一个单变量回归
  • 交互作用检验

免责声明: 性别问题

本教程中的一些实例选自性别问题。其原因是在这种问题上这种控制的声明实际上影响了很多人。