课程收获
XGBOOST被认为是目前最快最好的开源boosted tree工具包,并在各种数据挖掘算法竞赛中大放异彩。由于XGBOOST分布式版本有广泛的可移植性,也使得它可以很好地解决工业界规模的问题。
XGBOOST风靡各种竞赛,但凡使用过的人,都知道其威力。很多人会用模型,但背后的原理理解甚少。
xgboost相比传统GBDT有何不同?
xgboost为什么快?
如何用代码实现xgboost?
竞赛中有哪些调参的技巧?
作为各路数据挖掘竞赛的绝对大神—Bryan(周耀),将带你从原理到实践,揭秘xgboost背后的数学模型、纵览xgboost参数及特征,了解更多经典材料及代码实现。相信你对xgboost背后的数学原理有深入的理解之后,可以在竞赛或企业面试中根据自己的需求建立更好的算法模型。
我们拥有
从Decision Tree,Boosting Tree,Gradient Boosting Tree 到 XGBOOST:
一步步拆解XGBOOST背后的数学模型:
• Decision Tree:信息熵、条件熵、Gini指数、CART
• Boosting Tree:分类树(分裂特征选择)、回归树(分裂变量、分裂点)
• Gradient Boosting Tree:损失函数、回归树梯度提升算法
• XGBOOST:实际例子解析XGBOOST的迭代步骤 ;taylor 展开、一阶导数、二阶导数
XGBOOST的参数:
• 通用参数(如booster、silent、nthread、num_pbuffer、num_feature);
• booster参数(Parameter for Tree Booster 如 eta、gamma、max_depth、min_child_weight、max_delta_step、subsample、colsample_bytree、colsample_bylevel、scale_pos_weight ;
Parameter for Linear Booster 如 lambda、alpha、lambda_bias);
• 学习目标参数(如objective、base_score、eval_metric、seed);
XGBOOST与特征
• 特征重要性评估
• 线性特征生成
XGBOOST学习材料、参考代码
• XGBOOST在代码中的实现
• Python中的XGBOOST包以及参数介绍
• XGBOOST在Python中的API
• 更多关于XGBOOST的经典学习材料和实现代码
如果你是
• 如果你已经参加过一些数据竞赛,在尝试寻找更好的算法建立模型,想在竞赛中进入Top10;
• 如果你要参加算法工程师的面试,很多时候XGBOOST是一个绕不过去的题目,你需要懂得原理;
• 如果你已经了解过XGBOOST,却总是充当一个调包侠,不明白算法背后的数学模型;
• 如果你已经应用过XGBOOST,在实际使用以及调参方面,总是不能得心应手而耗费大量时间。
预备知识
了解数据挖掘基本算法,如果关注过一些数据挖掘竞赛学习起来就更没问题啦。
学习安排
推荐同学们看完课程后,使用XGBOOST实战一番,去DC竞赛提升你的竞赛排名吧。
了解导师
周耀
数不清的竞赛冠军获得者
竞赛圈的知名ID:Bryan,现就职于腾讯。
在多个数据挖掘竞赛中斩获佳绩:
DC微额借款用户人品预测大赛冠军;
菜鸟-需求预测与分仓规划初赛冠军;
阿里云安全算法挑战赛季军;
2016CCF大数据与计算智能大赛季军;
IJCAI口碑商家客流量预测冠军;
京东JData算法大赛亚军;
2017 KDD CUP季军。