天天看点

金融风控训练营Task6贷款违约预测1.知识点概要2.学习内容3.学习问题与解答4.学习总结

Task6贷款违约预测

  • 1.知识点概要
  • 2.学习内容
    • 2.1zip() 函数
    • 2.2 元组
    • 2.3CatBoost
  • 3.学习问题与解答
    • 3.1什么是类别型特征?
  • 4.学习总结

1.知识点概要

  • 自学期间忘记的一些基础知识的回顾

2.学习内容

2.1zip() 函数

  • 语法:
zip([iterable, …])
  • 参数说明:
iterabl —— 一个或多个迭代器;
>>>a = [1,2,3]
>>> b = [4,5,6]
>>> c = [4,5,6,7,8]
>>> zipped = zip(a,b)     # 打包为元组的列表
[(1, 4), (2, 5), (3, 6)]
>>> zip(a,c)              # 元素个数与最短的列表一致
[(1, 4), (2, 5), (3, 6)]
>>> zip(*zipped)          # 与 zip 相反,*zipped 可理解为解压,返回二维矩阵式
[(1, 2, 3), (4, 5, 6)]
           

2.2 元组

元组使用小括号,列表使用方括号。

  • 创建空元组:
  • 元组中只包含一个元素时,需要在元素后面添加逗号:
  • 元组与字符串类似,下标索引从0开始,可以进行截取,组合等。
  • 元组中的元素值是不允许删除的,但我们可以使用del语句来删除整个元组
  • 内置函数:
#比较两个元组元素
cmp(tuple1, tuple2)
           
tuple(seq)
将列表转换为元组。
           

2.3CatBoost

  • CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器,都是在GBDT算法框架下的一种改进实现
  • 算法准确率相比XGBoost,LightGBM更高
  • 与XGBoost、LightGBM相比,CatBoost的创新点有:
    • 嵌入了自动将类别型特征处理为数值型特征的创新算法。首先对categorical

      features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical

      features)。

    • Catboost还使用了组合类别特征,可以利用到特征之间的联系,这极大的丰富了特征维度。
    • 采用排序提升的方法对抗训练集中的噪声点,从而避免梯度估计的偏差,进而解决预测偏移的问题。
    • 采用了完全对称树作为基模型。

3.学习问题与解答

3.1什么是类别型特征?

区别于数值型特征,是离散的集合

4.学习总结

  • 持续了十多天的学习到了尾声,感觉这种有目标,循序渐进的学习方式很适合我。对我来说,这次训练营项目真正意义在于让我找到了比较适合我的学习方式,让我更加积极的去学习,也更有方向性,更有成就感。
  • 有目录的笔记能够一目了然,不至于想要找的时候花费太多的时间,在这之前,我的笔记基本都是记了懒得看的,因为想找到想要的全看运气,这次也让我找到了记笔记的一种更好的方式。

参考文献:

1.https://www.runoob.com/python/python-tuples.html

2.https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA