11.2. 数学基础

本节总结了本书中涉及的有关线性代数、微分和概率的基础知识。为避免赘述本书未涉及的数学背景知识,本节中的少数定义稍有简化。

11.2.1. 线性代数

下面分别概括了向量、矩阵、运算、范数、特征向量和特征值的概念。

11.2.1.1. 向量

本书中的向量指的是列向量。一个

11.2. 数学基础 - 图1 维向量 11.2. 数学基础 - 图2 的表达式可写成

11.2. 数学基础 - 图3

其中

11.2. 数学基础 - 图4 是向量的元素。我们将各元素均为实数的 11.2. 数学基础 - 图5 维向量 11.2. 数学基础 - 图6 记作 11.2. 数学基础 - 图711.2. 数学基础 - 图8

11.2.1.2. 矩阵

一个

11.2. 数学基础 - 图911.2. 数学基础 - 图10 列矩阵的表达式可写成

11.2. 数学基础 - 图11

其中

11.2. 数学基础 - 图12 是矩阵 11.2. 数学基础 - 图13 中第 11.2. 数学基础 - 图14 行第 11.2. 数学基础 - 图15 列的元素( 11.2. 数学基础 - 图16 )。我们将各元素均为实数的 11.2. 数学基础 - 图1711.2. 数学基础 - 图18 列矩阵 11.2. 数学基础 - 图19 记作 11.2. 数学基础 - 图20 。不难发现,向量是特殊的矩阵。

11.2.1.3. 运算

11.2. 数学基础 - 图21 维向量 11.2. 数学基础 - 图22 中的元素为 11.2. 数学基础 - 图2311.2. 数学基础 - 图24 维向量 11.2. 数学基础 - 图25 中的元素为 11.2. 数学基础 - 图26 。向量 11.2. 数学基础 - 图2711.2. 数学基础 - 图28 的点乘(内积)是一个标量:

11.2. 数学基础 - 图29

设两个

11.2. 数学基础 - 图3011.2. 数学基础 - 图31 列矩阵

11.2. 数学基础 - 图32

矩阵

11.2. 数学基础 - 图33 的转置是一个 11.2. 数学基础 - 图3411.2. 数学基础 - 图35 列矩阵,它的每一行其实是原矩阵的每一列:

11.2. 数学基础 - 图36

两个相同形状的矩阵的加法是将两个矩阵按元素做加法:

11.2. 数学基础 - 图37

我们使用符号

11.2. 数学基础 - 图38 表示两个矩阵按元素做乘法的运算:

11.2. 数学基础 - 图39

定义一个标量

11.2. 数学基础 - 图40 。标量与矩阵的乘法也是按元素做乘法的运算:

11.2. 数学基础 - 图41

其他诸如标量与矩阵按元素相加、相除等运算与上式中的相乘运算类似。矩阵按元素开根号、取对数等运算也就是对矩阵每个元素开根号、取对数等,并得到和原矩阵形状相同的矩阵。

矩阵乘法和按元素的乘法不同。设

11.2. 数学基础 - 图4211.2. 数学基础 - 图4311.2. 数学基础 - 图44 列的矩阵, 11.2. 数学基础 - 图4511.2. 数学基础 - 图4611.2. 数学基础 - 图47 列的矩阵。两个矩阵相乘的结果

11.2. 数学基础 - 图48

是一个

11.2. 数学基础 - 图4911.2. 数学基础 - 图50 列的矩阵,其中第 11.2. 数学基础 - 图51 行第 11.2. 数学基础 - 图52 列( 11.2. 数学基础 - 图53 )的元素为

11.2. 数学基础 - 图54

11.2.1.4. 范数

11.2. 数学基础 - 图55 维向量 11.2. 数学基础 - 图56 中的元素为 11.2. 数学基础 - 图57 。向量 11.2. 数学基础 - 图5811.2. 数学基础 - 图59 范数为

11.2. 数学基础 - 图60

例如,

11.2. 数学基础 - 图6111.2. 数学基础 - 图62 范数是该向量元素绝对值之和:

11.2. 数学基础 - 图63

11.2. 数学基础 - 图6411.2. 数学基础 - 图65 范数是该向量元素平方和的平方根:

11.2. 数学基础 - 图66

我们通常用

11.2. 数学基础 - 图67 指代 11.2. 数学基础 - 图68

11.2. 数学基础 - 图69 是一个 11.2. 数学基础 - 图7011.2. 数学基础 - 图71 列矩阵。矩阵 11.2. 数学基础 - 图72 的Frobenius范数为该矩阵元素平方和的平方根:

11.2. 数学基础 - 图73

其中

11.2. 数学基础 - 图74 为矩阵 11.2. 数学基础 - 图75 在第 11.2. 数学基础 - 图76 行第 11.2. 数学基础 - 图77 列的元素。

11.2.1.5. 特征向量和特征值

对于一个

11.2. 数学基础 - 图7811.2. 数学基础 - 图79 列的矩阵 11.2. 数学基础 - 图80 ,假设有标量 11.2. 数学基础 - 图81 和非零的 11.2. 数学基础 - 图82 维向量 11.2. 数学基础 - 图83 使

11.2. 数学基础 - 图84

那么

11.2. 数学基础 - 图85 是矩阵 11.2. 数学基础 - 图86 的一个特征向量,标量 11.2. 数学基础 - 图8711.2. 数学基础 - 图88 对应的特征值。

11.2.2. 微分

我们在这里简要介绍微分的一些基本概念和演算。

11.2.2.1. 导数和微分

假设函数

11.2. 数学基础 - 图89 的输入和输出都是标量。函数 11.2. 数学基础 - 图90 的导数

11.2. 数学基础 - 图91

且假定该极限存在。给定

11.2. 数学基础 - 图92 ,其中 11.2. 数学基础 - 图9311.2. 数学基础 - 图94 分别是函数 11.2. 数学基础 - 图95 的自变量和因变量。以下有关导数和微分的表达式等价:

11.2. 数学基础 - 图96

其中符号

11.2. 数学基础 - 图9711.2. 数学基础 - 图98 也叫微分运算符。常见的微分演算有 11.2. 数学基础 - 图9911.2. 数学基础 - 图100 为常数)、 11.2. 数学基础 - 图10111.2. 数学基础 - 图102 为常数)、 11.2. 数学基础 - 图10311.2. 数学基础 - 图104 等。

如果函数

11.2. 数学基础 - 图10511.2. 数学基础 - 图106 都可导,设 11.2. 数学基础 - 图107 为常数,那么

11.2. 数学基础 - 图108

如果

11.2. 数学基础 - 图10911.2. 数学基础 - 图110 都是可导函数,依据链式法则,

11.2. 数学基础 - 图111

11.2.2.2. 泰勒展开

函数

11.2. 数学基础 - 图112 的泰勒展开式是

11.2. 数学基础 - 图113

其中

11.2. 数学基础 - 图114 为函数 11.2. 数学基础 - 图11511.2. 数学基础 - 图116 阶导数(求 11.2. 数学基础 - 图117 次导数), 11.2. 数学基础 - 图11811.2. 数学基础 - 图119 的阶乘。假设 11.2. 数学基础 - 图120 是一个足够小的数,如果将上式中 11.2. 数学基础 - 图12111.2. 数学基础 - 图122 分别替换成 11.2. 数学基础 - 图12311.2. 数学基础 - 图124 ,可以得到

11.2. 数学基础 - 图125

由于

11.2. 数学基础 - 图126 足够小,上式也可以简化成

11.2. 数学基础 - 图127

11.2.2.3. 偏导数

11.2. 数学基础 - 图128 为一个有 11.2. 数学基础 - 图129 个自变量的函数, 11.2. 数学基础 - 图130 ,它有关第 11.2. 数学基础 - 图131 个变量 11.2. 数学基础 - 图132 的偏导数为

11.2. 数学基础 - 图133

以下有关偏导数的表达式等价:

11.2. 数学基础 - 图134

为了计算

11.2. 数学基础 - 图135 ,只需将 11.2. 数学基础 - 图136 视为常数并求 11.2. 数学基础 - 图137 有关 11.2. 数学基础 - 图138 的导数。

11.2.2.4. 梯度

假设函数

11.2. 数学基础 - 图139 的输入是一个 11.2. 数学基础 - 图140 维向量 11.2. 数学基础 - 图141 ,输出是标量。函数 11.2. 数学基础 - 图142 有关 11.2. 数学基础 - 图143 的梯度是一个由 11.2. 数学基础 - 图144 个偏导数组成的向量:

11.2. 数学基础 - 图145

为表示简洁,我们有时用

11.2. 数学基础 - 图146 代替 11.2. 数学基础 - 图147

假设

11.2. 数学基础 - 图148 是一个向量,常见的梯度演算包括

11.2. 数学基础 - 图149

类似地,假设

11.2. 数学基础 - 图150 是一个矩阵,那么

11.2. 数学基础 - 图151

11.2.2.5. 海森矩阵

假设函数

11.2. 数学基础 - 图152 的输入是一个 11.2. 数学基础 - 图153 维向量 11.2. 数学基础 - 图154 ,输出是标量。假定函数 11.2. 数学基础 - 图155 所有的二阶偏导数都存在, 11.2. 数学基础 - 图156 的海森矩阵 11.2. 数学基础 - 图157 是一个 11.2. 数学基础 - 图15811.2. 数学基础 - 图159 列的矩阵:

11.2. 数学基础 - 图160

其中二阶偏导数

11.2. 数学基础 - 图161

11.2.3. 概率

最后,我们简要介绍条件概率、期望和均匀分布。

11.2.3.1. 条件概率

假设事件

11.2. 数学基础 - 图162 和事件 11.2. 数学基础 - 图163 的概率分别为 11.2. 数学基础 - 图16411.2. 数学基础 - 图165 ,两个事件同时发生的概率记作 11.2. 数学基础 - 图16611.2. 数学基础 - 图167 。给定事件 11.2. 数学基础 - 图168 ,事件 11.2. 数学基础 - 图169 的条件概率

11.2. 数学基础 - 图170

也就是说,

11.2. 数学基础 - 图171

当满足

11.2. 数学基础 - 图172

时,事件

11.2. 数学基础 - 图173 和事件 11.2. 数学基础 - 图174 相互独立。

11.2.3.2. 期望

离散的随机变量

11.2. 数学基础 - 图175 的期望(或平均值)为

11.2. 数学基础 - 图176

11.2.3.3. 均匀分布

假设随机变量

11.2. 数学基础 - 图177 服从 11.2. 数学基础 - 图178 上的均匀分布,即 11.2. 数学基础 - 图179 。随机变量 11.2. 数学基础 - 图18011.2. 数学基础 - 图18111.2. 数学基础 - 图182 之间任意一个数的概率相等。

11.2.4. 小结

  • 本节总结了本书中涉及的有关线性代数、微分和概率的基础知识。

11.2.5. 练习

  • 求函数 11.2. 数学基础 - 图183 的梯度。