白板机械学习笔书|基础一
机械学习基础。笔记思路参考了 shuhuai-白板机械学习 系列教程。
基础
极大似然估计
极大似然估计可以理解为:已知观测变量来源于分布 ,求 使得出现当前观测变量的概率最大。 解极大似然,可以先定义出似然函数,而后取对数再令导数为 0,得到似然方程并求解。
如假设 中有 个观测样本,样本来源分布符合高斯分布 。首先写出根据假设的高斯分布似然函数:
求解最优的 参数:
而后求导:
同样的可以求得 的最优参数值:
令导数为 0:
有偏估计与无偏估计
若参数数学期望等于它本身: ,则为无偏估计。
对于以上结果 为无偏估计:
的最优解为有偏估计:
无偏估计为:。 因此从上面结果可以看出,使用极大似然估计,会带来一定的偏差。
高维高斯分布
指数部分可以理解为 与 的 马氏距离。
对 进行特征值分解: ;其中 (两者正交) (对角阵)
特征值分解可以将矩阵分解为连加形式:
其中 , 是 在 上的投影。通过上述公式, 马氏距离可以理解为各个特征值 的加权。加权系数为不同维度特征在各个特征向量上的投影。
从几何上理解,当 时, 即为椭圆。 的值决定了椭圆大小。
,若 , 给定后, 就是在三维空间 上的椭圆曲线的切面。
由于 参数复杂度为 ,通常假设其为对角矩阵以简化计算(如 PCA),此时椭圆曲线的切面为正的,椭圆的对称轴平行于坐标轴。
若对角矩阵 中的 都相等,则切面为正圆,这种情况称为 各向同性 。
概率分布
给定联合概率分布
求边缘概率分布 与 条件概率分布 。(通常使用配方法)视频 中使用了另一种方法:
定理: 已知 , 则
求 :
令
则
求 ,先定义:
其中第二、三式可通过一式推导得来。提示:将一式写成:
相关知识:Schur Complement
由一式可得: , ,当 给定时可以看做常量。因此:
求得:
线性高斯模型基础
已知: , 求:
此处 为
求 :
因此:
求 :
思路:先求出联合概率分布,在通过上文定理求条件概率。
定义 ,通过上文结论可知:
只要求出 ,就可以通过上节定理求出 !
因为 与 独立,所以
继续,求得:
所以,结合上节 式可得:
Jensen's 不等式
对于凸函数 有: 。
证明:
过点 做切线 。因此:
Jensen's 不等式变型: