3.1 Python中的统计学
In [1]:
%matplotlib inline
import numpy as np
作者 : Gaël Varoquaux
必要条件
- 标准Python科学计算环境 (numpy, scipy, matplotlib)
- Pandas
- Statsmodels
- Seaborn
要安装Python及这些依赖,推荐下载Anaconda Python 或 Enthought Canopy, 如果你使用Ubuntu或其他linux更应该使用包管理器。
也可以看一下: Python中的贝叶斯统计
本章并不会涉及贝叶斯统计工具。适用于贝叶斯模型的是PyMC, 在Python中实现了概率编程语言。
为什么统计学要用Python?
R是一门专注于统计学的语言。Python是带有统计学模块的通用编程语言。R比Python有更多的统计分析功能,以及专用的语法。但是,当面对构建复杂的分析管道,混合统计学以及例如图像分析、文本挖掘或者物理实验控制,Python的富有就是物价的优势。
内容
- 数据表征和交互
- 数据作为表格
- panda data-frame
- 假设检验: 对比两个组
- Student’s t-test: 最简单的统计检验
- 配对实验: 对同一个体的重复测量
- 线性模型、多因素和方差分析
- 用“公式” 来在Python中指定统计模型
- 多元回归: 包含多元素
- 事后假设检验: 方差分析 (ANOVA)
- 更多的可视化: 用seaborn来进行统计学探索
- 配对图: 散点矩阵
- lmplot: 绘制一个单变量回归
- 交互作用检验
免责声明: 性别问题
本教程中的一些实例选自性别问题。其原因是在这种问题上这种控制的声明实际上影响了很多人。