Task6贷款违约预测
- 1.知识点概要
- 2.学习内容
-
- 2.1zip() 函数
- 2.2 元组
- 2.3CatBoost
- 3.学习问题与解答
-
- 3.1什么是类别型特征?
- 4.学习总结
1.知识点概要
- 自学期间忘记的一些基础知识的回顾
2.学习内容
2.1zip() 函数
- 语法:
zip([iterable, …])
- 参数说明:
iterabl —— 一个或多个迭代器;
>>>a = [1,2,3]
>>> b = [4,5,6]
>>> c = [4,5,6,7,8]
>>> zipped = zip(a,b) # 打包为元组的列表
[(1, 4), (2, 5), (3, 6)]
>>> zip(a,c) # 元素个数与最短的列表一致
[(1, 4), (2, 5), (3, 6)]
>>> zip(*zipped) # 与 zip 相反,*zipped 可理解为解压,返回二维矩阵式
[(1, 2, 3), (4, 5, 6)]
2.2 元组
元组使用小括号,列表使用方括号。
- 创建空元组:
- 元组中只包含一个元素时,需要在元素后面添加逗号:
- 元组与字符串类似,下标索引从0开始,可以进行截取,组合等。
- 元组中的元素值是不允许删除的,但我们可以使用del语句来删除整个元组
- 内置函数:
#比较两个元组元素
cmp(tuple1, tuple2)
tuple(seq)
将列表转换为元组。
2.3CatBoost
- CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器,都是在GBDT算法框架下的一种改进实现
- 算法准确率相比XGBoost,LightGBM更高
- 与XGBoost、LightGBM相比,CatBoost的创新点有:
-
嵌入了自动将类别型特征处理为数值型特征的创新算法。首先对categorical
features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical
features)。
- Catboost还使用了组合类别特征,可以利用到特征之间的联系,这极大的丰富了特征维度。
- 采用排序提升的方法对抗训练集中的噪声点,从而避免梯度估计的偏差,进而解决预测偏移的问题。
- 采用了完全对称树作为基模型。
-
3.学习问题与解答
3.1什么是类别型特征?
区别于数值型特征,是离散的集合
4.学习总结
- 持续了十多天的学习到了尾声,感觉这种有目标,循序渐进的学习方式很适合我。对我来说,这次训练营项目真正意义在于让我找到了比较适合我的学习方式,让我更加积极的去学习,也更有方向性,更有成就感。
- 有目录的笔记能够一目了然,不至于想要找的时候花费太多的时间,在这之前,我的笔记基本都是记了懒得看的,因为想找到想要的全看运气,这次也让我找到了记笔记的一种更好的方式。
参考文献:
1.https://www.runoob.com/python/python-tuples.html
2.https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA