五、常见概率分布

5.1 均匀分布

  1. 离散随机变量的均匀分布:假设 五、常见概率分布 - 图1五、常见概率分布 - 图2 个取值: 五、常见概率分布 - 图3,则均匀分布的概率密度函数(probability mass function:PMF)为:

    五、常见概率分布 - 图4

  2. 连续随机变量的均匀分布: 假设 五、常见概率分布 - 图5[a,b]上均匀分布,则其概率密度函数(probability density function:PDF)为:

    五、常见概率分布 - 图6

    .

5.2 伯努利分布

  1. 伯努利分布:参数为 五、常见概率分布 - 图7。随机变量 五、常见概率分布 - 图8

    • 概率分布函数为:五、常见概率分布 - 图9
    • 期望: 五、常见概率分布 - 图10 。方差: 五、常见概率分布 - 图11
  2. categorical 分布:它是二项分布的推广,也称作multinoulli分布。假设随机变量 五、常见概率分布 - 图12,其概率分布函数为:

    五、常见概率分布 - 图13

    其中 五、常见概率分布 - 图14 为参数,它满足 五、常见概率分布 - 图15,且 五、常见概率分布 - 图16

5.3 二项分布

  1. 假设试验只有两种结果:成功的概率为 五、常见概率分布 - 图17,失败的概率为 五、常见概率分布 - 图18。 则二项分布描述了:独立重复地进行 五、常见概率分布 - 图19 次试验中,成功 五、常见概率分布 - 图20 次的概率。

    • 概率质量函数:

      五、常见概率分布 - 图21

    • 期望: 五、常见概率分布 - 图22。 方差: 五、常见概率分布 - 图23

5.4 高斯分布

  1. 正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:

    • 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。
    • 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。

5.4.1 一维正态分布

  1. 正态分布的概率密度函数为 :

    五、常见概率分布 - 图24

    其中 五、常见概率分布 - 图25 为常数。

    • 若随机变量 五、常见概率分布 - 图26 的概率密度函数如上所述,则称 五、常见概率分布 - 图27 服从参数为 五、常见概率分布 - 图28 的正态分布或者高斯分布,记作 五、常见概率分布 - 图29
    • 特别的,当 五、常见概率分布 - 图30 时,称为标准正态分布,其概率密度函数记作 五、常见概率分布 - 图31,分布函数记作 五、常见概率分布 - 图32
    • 为了计算方便,有时也记作:五、常见概率分布 - 图33 ,其中 五、常见概率分布 - 图34
  2. 正态分布的概率密度函数性质:

    • 曲线关于 五、常见概率分布 - 图35 对称。
    • 曲线在 五、常见概率分布 - 图36 时取最大值。
    • 曲线在 五、常见概率分布 - 图37 处有拐点。
    • 参数 五、常见概率分布 - 图38 决定曲线的位置; 五、常见概率分布 - 图39 决定图形的胖瘦。

    五、常见概率分布 - 图40

  3. 五、常见概率分布 - 图41 则:

    • 五、常见概率分布 - 图42
    • 期望:五、常见概率分布 - 图43 。方差:五、常见概率分布 - 图44
  4. 有限个相互独立的正态随机变量的线性组合仍然服从正态分布:若随机变量 五、常见概率分布 - 图45 且它们相互独立,则它们的线性组合:五、常见概率分布 - 图46 仍然服从正态分布(其中五、常见概率分布 - 图47 不全是为 0 的常数),且:五、常见概率分布 - 图48

5.4.2 多维正态分布

  1. 二维正态随机变量 五、常见概率分布 - 图49 的概率密度为:

    五、常见概率分布 - 图50

    根据定义,可以计算出:

    五、常见概率分布 - 图51

  2. 引入矩阵:

    五、常见概率分布 - 图52

    五、常见概率分布 - 图53五、常见概率分布 - 图54 的协方差矩阵。其行列式为 五、常见概率分布 - 图55,其逆矩阵为:

    五、常见概率分布 - 图56

    于是 五、常见概率分布 - 图57 的概率密度函数可以写作 五、常见概率分布 - 图58 表示矩阵的转置:

    五、常见概率分布 - 图59

    其中:

    • 均值 五、常见概率分布 - 图60 决定了曲面的位置(本例中均值都为0)。

    • 标准差 五、常见概率分布 - 图61 决定了曲面的陡峭程度(本例中方差都为1)。

    • 五、常见概率分布 - 图62 决定了协方差矩阵的形状,从而决定了曲面的形状。

      • 五、常见概率分布 - 图63 时,协方差矩阵对角线非零,其他位置均为零。此时表示随机变量之间不相关。

        此时的联合分布概率函数形状如下图所示,曲面在 五、常见概率分布 - 图64 平面的截面是个圆形:

        五、常见概率分布 - 图65

      • 五、常见概率分布 - 图66 时,协方差矩阵对角线非零,其他位置非零。此时表示随机变量之间相关。

        此时的联合分布概率函数形状如下图所示,曲面在 五、常见概率分布 - 图67 平面的截面是个椭圆,相当于圆形沿着直线 五、常见概率分布 - 图68 方向压缩 :

        五、常见概率分布 - 图69

    • 五、常见概率分布 - 图70 时,协方差矩阵对角线非零,其他位置非零。

      此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 五、常见概率分布 - 图71 平面的截面是直线 五、常见概率分布 - 图72 ,相当于圆形沿着直线 五、常见概率分布 - 图73 方向压缩成一条直线 。

      由于 五、常见概率分布 - 图74会导致除数为 0,因此这里给出 五、常见概率分布 - 图75

      五、常见概率分布 - 图76

  3. 多维正态随机变量 五、常见概率分布 - 图77 ,引入列矩阵:

    五、常见概率分布 - 图78

    五、常见概率分布 - 图79五、常见概率分布 - 图80 的协方差矩阵。则:

    五、常见概率分布 - 图81

    记做 :五、常见概率分布 - 图82

  4. 五、常见概率分布 - 图83 维正态变量具有下列四条性质:

    • 五、常见概率分布 - 图84 维正态变量的每一个分量都是正态变量;反之,若 五、常见概率分布 - 图85 都是正态变量,且相互独立,则 五、常见概率分布 - 图86五、常见概率分布 - 图87 维正态变量。

    • 五、常见概率分布 - 图88 维随机变量 五、常见概率分布 - 图89 服从 五、常见概率分布 - 图90 维正态分布的充要条件是: 五、常见概率分布 - 图91 的任意线性组合: 五、常见概率分布 - 图92 服从一维正态分布,其中 五、常见概率分布 - 图93 不全为 0 。

    • 五、常见概率分布 - 图94 服从 五、常见概率分布 - 图95 维正态分布,设 五、常见概率分布 - 图96五、常见概率分布 - 图97 的线性函数,则 五、常见概率分布 - 图98 也服从多维正态分布。

      这一性质称为正态变量的线性变换不变性。

    • 五、常见概率分布 - 图99 服从 五、常见概率分布 - 图100 维正态分布,则 五、常见概率分布 - 图101 相互独立 五、常见概率分布 - 图102 五、常见概率分布 - 图103 两两不相关。

5.5 拉普拉斯分布

  1. 拉普拉斯分布:

    • 概率密度函数:五、常见概率分布 - 图104
    • 期望: 五、常见概率分布 - 图105 。方差: 五、常见概率分布 - 图106

    五、常见概率分布 - 图107

5.6 泊松分布

  1. 假设已知事件在单位时间(或者单位面积)内发生的平均次数为 五、常见概率分布 - 图108 ,则泊松分布描述了:事件在单位时间(或者单位面积)内发生的具体次数为 五、常见概率分布 - 图109 的概率。

    • 概率质量函数:五、常见概率分布 - 图110
    • 期望: 五、常见概率分布 - 图111。 方差: 五、常见概率分布 - 图112

    五、常见概率分布 - 图113

  2. 用均匀分布模拟泊松分布:

    1. def make_poisson(lmd,tm):
    2. '''
    3. 用均匀分布模拟泊松分布。 lmd为 lambda 参数; tm 为时间
    4. '''
    5. t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻
    6. count,tm_edges=np.histogram(t,bins=tm,range=(0,tm))#获取每个单位时间内,事件发生的次数
    7. max_k= lmd *2 # 要统计的最大次数
    8. dist,count_edges=np.histogram(count,bins=max_k,range=(0,max_k),density=True)
    9. x=count_edges[:-1]
    10. return x,dist,stats.poisson.pmf(x,lmd)

    该函数:

    • 首先随机性给出了 lmd*tm个事件发生的时间(时间位于区间[0,tm])内。
    • 然后统计每个单位时间区间内,事件发生的次数。
    • 然后统计这些次数出现的频率。
    • 最后将这个频率与理论上的泊松分布的概率质量函数比较。

5.7 指数分布

  1. 若事件服从泊松分布,则该事件前后两次发生的时间间隔服从指数分布。由于时间间隔是个浮点数,因此指数分布是连续分布。

    • 概率密度函数:( 五、常见概率分布 - 图114 为时间间隔)

      五、常见概率分布 - 图115

    • 期望: 五、常见概率分布 - 图116。方差:五、常见概率分布 - 图117

    五、常见概率分布 - 图118

  2. 用均匀分布模拟指数分布:

    1. def make_expon(lmd,tm):
    2. '''
    3. 用均匀分布模拟指数分布。 lmd为 lambda 参数; tm 为时间
    4. '''
    5. t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻
    6. sorted_t=np.sort(t) #时刻升序排列
    7. delt_t=sorted_t[1:]-sorted_t[:-1] #间隔序列
    8. dist,edges=np.histogram(delt_t,bins="auto",density=True)
    9. x=edges[:-1]
    10. return x,dist,stats.expon.pdf(x,loc=0,scale=1/lmd) #scale 为 1/lambda

5.8 伽马分布

  1. 若事件服从泊松分布,则事件第 五、常见概率分布 - 图119 次发生和第 五、常见概率分布 - 图120 次发生的时间间隔为伽玛分布。由于时间间隔是个浮点数,因此指数分布是连续分布。

    • 概率密度函数:五、常见概率分布 - 图121五、常见概率分布 - 图122 为时间间隔 。
    • 期望: 五、常见概率分布 - 图123 。方差:五、常见概率分布 - 图124
  2. 上面的定义中 五、常见概率分布 - 图125 必须是整数。事实上,若随机变量 五、常见概率分布 - 图126 服从伽马分布,则其概率密度函数为:

    五、常见概率分布 - 图127

    记做 五、常见概率分布 - 图128 。其中 五、常见概率分布 - 图129 称作形状参数,五、常见概率分布 - 图130 称作尺度参数。

    • 期望 五、常见概率分布 - 图131,方差五、常见概率分布 - 图132
    • 五、常见概率分布 - 图133 时,五、常见概率分布 - 图134 为递减函数。
    • 五、常见概率分布 - 图135 时,五、常见概率分布 - 图136 为单峰函数。

    五、常见概率分布 - 图137

  3. 性质:

    • 五、常见概率分布 - 图138 时, 为 Erlang分布。
    • 五、常见概率分布 - 图139 时,就是参数为 五、常见概率分布 - 图140 的指数分布。
    • 五、常见概率分布 - 图141 时,就是常用的卡方分布。
  4. 伽马分布的可加性:设随机变量 五、常见概率分布 - 图142 相互独立并且都服从伽马分布: 五、常见概率分布 - 图143,则:

    五、常见概率分布 - 图144

  5. 用均匀分布模拟伽玛分布:

    1. def make_gamma(lmd,tm,k):
    2. '''
    3. 用均匀分布模拟伽玛分布。 lmd为 lambda 参数; tm 为时间;k 为 k 参数
    4. '''
    5. t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻
    6. sorted_t=np.sort(t) #时刻升序排列
    7. delt_t=sorted_t[k:]-sorted_t[:-k] #间隔序列
    8. dist,edges=np.histogram(delt_t,bins="auto",density=True)
    9. x=edges[:-1]
    10. return x,dist,stats.gamma.pdf(x,loc=0,scale=1/lmd,a=k) #scale 为 1/lambda,a 为 k

5.9 贝塔分布

  1. 贝塔分布是定义在 五、常见概率分布 - 图145 之间的连续概率分布。

    如果随机变量 五、常见概率分布 - 图146 服从贝塔分布,则其概率密度函数为:

    五、常见概率分布 - 图147

    记做 五、常见概率分布 - 图148

    • 众数为: 五、常见概率分布 - 图149
    • 期望为: 五、常见概率分布 - 图150 ,方差为: 五、常见概率分布 - 图151

    五、常见概率分布 - 图152

5.10 狄拉克分布

  1. 狄拉克分布:假设所有的概率都集中在一点 五、常见概率分布 - 图153 上,则对应的概率密度函数为:五、常见概率分布 - 图154

    其中 五、常见概率分布 - 图155 为狄拉克函数,其性质为:

    五、常见概率分布 - 图156

  2. 狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本 五、常见概率分布 - 图157,则定义经验分布函数:

    五、常见概率分布 - 图158

    它就是对每个样本赋予了一个概率质量 五、常见概率分布 - 图159

  3. 对于离散型随机变量的经验分布,则经验分布函数就是multinoulli分布,它简单地等于训练集中的经验频率。

  4. 经验分布的两个作用:

    • 通过查看训练集样本的经验分布,从而指定该训练集的样本采样的分布(保证采样之后的分布不失真)。
    • 经验分布就是使得训练数据的可能性最大化的概率密度函数。

5.11 多项式分布与狄里克雷分布

  1. 多项式分布的质量密度函数:

    五、常见概率分布 - 图160

    它是 五、常见概率分布 - 图161 的多项式展开的形式。

  2. 狄利克雷分布的概率密度函数:

    五、常见概率分布 - 图162

  3. 可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:

    • 多项式分布是针对离散型随机变量,通过求和获取概率。
    • 狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。

5.12 混合概率分布

  1. 混合概率分布:它组合了其他几个分量的分布来组成。

    • 在每次生成样本中,首先通过multinoulli分布来决定选用哪个分量,然后由该分量的分布函数来生成样本。

    • 其概率分布函数为:

      五、常见概率分布 - 图163

      其中 五、常见概率分布 - 图164 为一个multinoulli分布,五、常见概率分布 - 图165 的取值范围就是各分量的编号。

  2. 前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子,此时 五、常见概率分布 - 图166

  3. 混合概率分布可以通过简单的概率分布创建更复杂的概率分布。一个常见的例子是混合高斯模型,其中 五、常见概率分布 - 图167 为高斯模型。每个分量都有对应的参数 五、常见概率分布 - 图168

    • 有些混合高斯模型有更强的约束,如 五、常见概率分布 - 图169,更进一步还可以要求 五、常见概率分布 - 图170 为一个对角矩阵。
    • 混合高斯模型是一个通用的概率密度函数逼近工具。任何平滑的概率密度函数都可以通过足够多分量的混合高斯模型来逼近。