跳至主要內容
机械学习|决策树 到 XGBoost

机械学习|决策树 到 XGBoost

关键词:决策树、ID3、C4.5、CART、随机森林、Adaboost、GBDT、XGBOOST

决策树

划分标准 缺失值 剪枝 目标 问题(相对其他两者)
ID3 信息增益 - 预剪枝 分类 倾向于选择对数量多的特征
C4.5 信息增益率 有考虑 预/后剪枝 分类 多叉树,效率低;对数运算耗时
CART 基尼系数 有考虑 基于代价复杂度剪枝 分类/回归 -

Kevin 吴嘉文大约 17 分钟知识笔记Machine Learning
白板机械学习笔书|基础一

机械学习基础。笔记思路参考了 shuhuai-白板机械学习 系列教程。

基础

极大似然估计

极大似然估计可以理解为:已知观测变量来源于分布 f(θ)f(\theta),求 θ\theta 使得出现当前观测变量的概率最大。 解极大似然,可以先定义出似然函数,而后取对数再令导数为 0,得到似然方程并求解。


Kevin 吴嘉文大约 8 分钟知识笔记Machine Learning
白板机械学习笔书|线性回归

线性回归基础数学。笔记思路源于 shuhuai-白板机械学习 系列教程。

线性回归基础

最小二乘法

最小二乘法矩阵表达的损失函数:

L(W)=i=1NWTxiyi2 L(W)=\sum_{i=1}^{N}\left\|W^{T} x_{i}-y_{i}\right\|^{2}


Kevin 吴嘉文大约 7 分钟知识笔记Machine Learning
机械学习|降维

线性回归基础数学。笔记思路源于 shuhuai-白板机械学习 系列教程。

降维

维度灾难

特征数量的增加并不能保证模型效果更上一层楼,大量的特征可能导致样本稀疏率的增加,进而导致过拟合。 在高纬度的情况下,样本之间的欧式距离趋向于无法区分大小:


Kevin 吴嘉文大约 6 分钟知识笔记Machine Learning