机械学习|决策树 到 XGBoost
关键词:决策树、ID3、C4.5、CART、随机森林、Adaboost、GBDT、XGBOOST
决策树
划分标准 | 缺失值 | 剪枝 | 目标 | 问题(相对其他两者) | |
---|---|---|---|---|---|
ID3 | 信息增益 | - | 预剪枝 | 分类 | 倾向于选择对数量多的特征 |
C4.5 | 信息增益率 | 有考虑 | 预/后剪枝 | 分类 | 多叉树,效率低;对数运算耗时 |
CART | 基尼系数 | 有考虑 | 基于代价复杂度剪枝 | 分类/回归 | - |
大约 17 分钟
关键词:决策树、ID3、C4.5、CART、随机森林、Adaboost、GBDT、XGBOOST
划分标准 | 缺失值 | 剪枝 | 目标 | 问题(相对其他两者) | |
---|---|---|---|---|---|
ID3 | 信息增益 | - | 预剪枝 | 分类 | 倾向于选择对数量多的特征 |
C4.5 | 信息增益率 | 有考虑 | 预/后剪枝 | 分类 | 多叉树,效率低;对数运算耗时 |
CART | 基尼系数 | 有考虑 | 基于代价复杂度剪枝 | 分类/回归 | - |
机械学习基础。笔记思路参考了 shuhuai-白板机械学习 系列教程。
极大似然估计可以理解为:已知观测变量来源于分布 f(θ),求 θ 使得出现当前观测变量的概率最大。 解极大似然,可以先定义出似然函数,而后取对数再令导数为 0,得到似然方程并求解。
对于混合模型,如 GMM。使用 MLE 直接求极大似然的解析解是十分困难的。EM 解决的就是具有隐变量的混合模型的参数估计。
线性回归基础数学。笔记思路源于 shuhuai-白板机械学习 系列教程。
特征数量的增加并不能保证模型效果更上一层楼,大量的特征可能导致样本稀疏率的增加,进而导致过拟合。 在高纬度的情况下,样本之间的欧式距离趋向于无法区分大小: