1、 回归(逻辑回归、岭回归等)
逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的。岭回归与Lasso回归最大的区别在于岭回归引入的是L2范数惩罚项,Lasso回归引入的是L1范数惩罚项。
2、决策树主要算法:ID3、C4.5、CART,分别基于信息增益、信息增益率和基尼系数构建决策树。
3、随机森林:随机选取n个变量生成树,每棵树的权重一样。
4、GBDT利用前一颗树的残差(实际值-拟合值),拟合出下一颗树;传统GBDT在优化时只用到一阶导数信息。
5、Adaboost的目标都是找到一个值(通过使得偏导数等零的方法)直接使得损失函数降低到最小。
6、XGBoost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数,XGBoost为防止过拟合,加入了正则项。每棵树的得分不同,累加结果作为预测值。
7
逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的。岭回归与Lasso回归最大的区别在于岭回归引入的是L2范数惩罚项,Lasso回归引入的是L1范数惩罚项。
2、决策树主要算法:ID3、C4.5、CART,分别基于信息增益、信息增益率和基尼系数构建决策树。
3、随机森林:随机选取n个变量生成树,每棵树的权重一样。
4、GBDT利用前一颗树的残差(实际值-拟合值),拟合出下一颗树;传统GBDT在优化时只用到一阶导数信息。
5、Adaboost的目标都是找到一个值(通过使得偏导数等零的方法)直接使得损失函数降低到最小。
6、XGBoost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数,XGBoost为防止过拟合,加入了正则项。每棵树的得分不同,累加结果作为预测值。
7
