2.概率论基础 - 五、常见概率分布 - 《AI算法工程师手册》

五、常见概率分布

五、常见概率分布

5.1 均匀分布

离散随机变量的均匀分布：假设有个取值：，则均匀分布的概率密度函数(probability mass function:PMF)为：
连续随机变量的均匀分布：假设在 [a,b]上均匀分布，则其概率密度函数(probability density function：PDF)为：

.

5.2 伯努利分布

伯努利分布：参数为。随机变量。
- 概率分布函数为：。
- 期望：。方差：。
categorical 分布：它是二项分布的推广，也称作multinoulli分布。假设随机变量，其概率分布函数为：

其中为参数，它满足，且。

5.3 二项分布

假设试验只有两种结果：成功的概率为，失败的概率为。则二项分布描述了：独立重复地进行次试验中，成功次的概率。
- 概率质量函数：
- 期望：。方差：。

5.4 高斯分布

正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数，且对它的概率分布一无所知，通常会假设它服从正态分布。有两个原因支持这一选择：
- 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明，多个独立随机变量的和近似正态分布。
- 在具有相同方差的所有可能的概率分布中，正态分布的熵最大（即不确定性最大）。

5.4.1 一维正态分布

正态分布的概率密度函数为 :

其中为常数。
- 若随机变量的概率密度函数如上所述，则称服从参数为的正态分布或者高斯分布，记作。
- 特别的，当时，称为标准正态分布，其概率密度函数记作，分布函数记作。
- 为了计算方便，有时也记作：，其中。
正态分布的概率密度函数性质：
- 曲线关于对称。
- 曲线在时取最大值。
- 曲线在处有拐点。
- 参数决定曲线的位置；决定图形的胖瘦。
若则：
- 期望：。方差：。
有限个相互独立的正态随机变量的线性组合仍然服从正态分布：若随机变量且它们相互独立，则它们的线性组合：仍然服从正态分布（其中不全是为 0 的常数），且：。

5.4.2 多维正态分布

二维正态随机变量的概率密度为：

根据定义，可以计算出:
引入矩阵：

为的协方差矩阵。其行列式为，其逆矩阵为：

于是的概率密度函数可以写作表示矩阵的转置：

其中：
- 均值决定了曲面的位置（本例中均值都为0）。
- 标准差决定了曲面的陡峭程度（本例中方差都为1）。
- 决定了协方差矩阵的形状，从而决定了曲面的形状。
  - 时，协方差矩阵对角线非零，其他位置均为零。此时表示随机变量之间不相关。
    
    此时的联合分布概率函数形状如下图所示，曲面在平面的截面是个圆形：
  - 时，协方差矩阵对角线非零，其他位置非零。此时表示随机变量之间相关。
    
    此时的联合分布概率函数形状如下图所示，曲面在平面的截面是个椭圆，相当于圆形沿着直线方向压缩：
- 时，协方差矩阵对角线非零，其他位置非零。
  
  此时表示随机变量之间完全相关。此时的联合分布概率函数形状为：曲面在平面的截面是直线，相当于圆形沿着直线方向压缩成一条直线。
  
  由于会导致除数为 0，因此这里给出：
多维正态随机变量，引入列矩阵：

为的协方差矩阵。则：

记做：。
维正态变量具有下列四条性质：
- 维正态变量的每一个分量都是正态变量；反之，若都是正态变量，且相互独立，则是维正态变量。
- 维随机变量服从维正态分布的充要条件是：的任意线性组合：服从一维正态分布，其中不全为 0 。
- 若服从维正态分布，设是的线性函数，则也服从多维正态分布。
  
  这一性质称为正态变量的线性变换不变性。
- 设服从维正态分布，则相互独立两两不相关。

5.5 拉普拉斯分布

拉普拉斯分布：
- 概率密度函数：。
- 期望：。方差：。

5.6 泊松分布

假设已知事件在单位时间（或者单位面积）内发生的平均次数为，则泊松分布描述了：事件在单位时间（或者单位面积）内发生的具体次数为的概率。
- 概率质量函数：。
- 期望：。方差：。

用均匀分布模拟泊松分布：

def make_poisson(lmd,tm):
    '''
    用均匀分布模拟泊松分布。 lmd为 lambda 参数； tm 为时间
    '''
    t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻
    count,tm_edges=np.histogram(t,bins=tm,range=(0,tm))#获取每个单位时间内，事件发生的次数
    max_k= lmd *2 # 要统计的最大次数
    dist,count_edges=np.histogram(count,bins=max_k,range=(0,max_k),density=True)
    x=count_edges[:-1]
    return x,dist,stats.poisson.pmf(x,lmd)

该函数：

首先随机性给出了 lmd*tm个事件发生的时间（时间位于区间[0,tm]）内。
然后统计每个单位时间区间内，事件发生的次数。
然后统计这些次数出现的频率。
最后将这个频率与理论上的泊松分布的概率质量函数比较。

5.7 指数分布

若事件服从泊松分布，则该事件前后两次发生的时间间隔服从指数分布。由于时间间隔是个浮点数，因此指数分布是连续分布。
- 概率密度函数：（为时间间隔）
- 期望：。方差：。

用均匀分布模拟指数分布：

def make_expon(lmd,tm):
    '''
    用均匀分布模拟指数分布。 lmd为 lambda 参数； tm 为时间 
    '''
    t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻
    sorted_t=np.sort(t) #时刻升序排列
    delt_t=sorted_t[1:]-sorted_t[:-1] #间隔序列
    dist,edges=np.histogram(delt_t,bins="auto",density=True)
    x=edges[:-1]
    return x,dist,stats.expon.pdf(x,loc=0,scale=1/lmd) #scale 为 1/lambda

5.8 伽马分布

若事件服从泊松分布，则事件第次发生和第次发生的时间间隔为伽玛分布。由于时间间隔是个浮点数，因此指数分布是连续分布。
- 概率密度函数：，为时间间隔。
- 期望：。方差：。
上面的定义中必须是整数。事实上，若随机变量服从伽马分布，则其概率密度函数为：

记做。其中称作形状参数，称作尺度参数。
- 期望，方差。
- 当时，为递减函数。
- 当时，为单峰函数。
性质：
- 当时，为 Erlang分布。
- 当时，就是参数为的指数分布。
- 当时，就是常用的卡方分布。
伽马分布的可加性：设随机变量相互独立并且都服从伽马分布：，则：

用均匀分布模拟伽玛分布：

def make_gamma(lmd,tm,k):
    '''
    用均匀分布模拟伽玛分布。 lmd为 lambda 参数； tm 为时间；k 为 k 参数
    '''
    t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻
    sorted_t=np.sort(t) #时刻升序排列
    delt_t=sorted_t[k:]-sorted_t[:-k] #间隔序列
    dist,edges=np.histogram(delt_t,bins="auto",density=True)
    x=edges[:-1]
    return x,dist,stats.gamma.pdf(x,loc=0,scale=1/lmd,a=k) #scale 为 1/lambda,a 为 k

5.9 贝塔分布

贝塔分布是定义在之间的连续概率分布。

如果随机变量服从贝塔分布，则其概率密度函数为：

记做。
- 众数为：。
- 期望为：，方差为：。

5.10 狄拉克分布

狄拉克分布：假设所有的概率都集中在一点上，则对应的概率密度函数为：。

其中为狄拉克函数，其性质为：
狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本，则定义经验分布函数：

它就是对每个样本赋予了一个概率质量。
对于离散型随机变量的经验分布，则经验分布函数就是multinoulli分布，它简单地等于训练集中的经验频率。
经验分布的两个作用：
- 通过查看训练集样本的经验分布，从而指定该训练集的样本采样的分布（保证采样之后的分布不失真）。
- 经验分布就是使得训练数据的可能性最大化的概率密度函数。

5.11 多项式分布与狄里克雷分布

多项式分布的质量密度函数：

它是的多项式展开的形式。
狄利克雷分布的概率密度函数：
可以看到，多项式分布与狄里克雷分布的概率密度函数非常相似，区别仅仅在于前面的归一化项：
- 多项式分布是针对离散型随机变量，通过求和获取概率。
- 狄里克雷分布时针对连续型随机变量，通过求积分来获取概率。

5.12 混合概率分布

混合概率分布：它组合了其他几个分量的分布来组成。
- 在每次生成样本中，首先通过multinoulli分布来决定选用哪个分量，然后由该分量的分布函数来生成样本。
- 其概率分布函数为：
  
  其中为一个multinoulli分布，的取值范围就是各分量的编号。
前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子，此时。
混合概率分布可以通过简单的概率分布创建更复杂的概率分布。一个常见的例子是混合高斯模型，其中为高斯模型。每个分量都有对应的参数。
- 有些混合高斯模型有更强的约束，如，更进一步还可以要求为一个对角矩阵。
- 混合高斯模型是一个通用的概率密度函数逼近工具。任何平滑的概率密度函数都可以通过足够多分量的混合高斯模型来逼近。