天天看点

ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)

竞赛相关信息

竞赛背景:

       为贯彻关于“推动互联网、大数据、人工智能和实体经济深度融合”以及“善于运用互联网技术和信息化手段开展工作”等讲话精神,引导高校在校生学习掌握计算机与互联网知识,提高计算机的技能应用,中国软件行业协会培训中心将举办全国大学生计算机技能应用大赛。大赛旨在增强广大在校大学生的IT应用技能,对于进一步落实学校培养应用型人才的目标要求,培育创新创业人才、促进产学研相结合有着重要意义。

       当今社会,房屋租金由装修情况、位置地段、户型格局、交通便利程度、市场供需量等多方面因素综合决定,对于租房这个相对传统的行业来说,信息严重不对称一直存在。一方面,房东不了解租房的市场真实价格,只能忍痛空置高租金的房屋;另一方面,租客也找不到满足自己需求高性价比房屋,这造成了租房资源的极大浪费。

       本次计算机技能大赛中的大数据赛题将基于租房市场的痛点,提供脱敏处理后的真实租房市场数据。选手需要利用有月租金标签的历史数据建立模型,实现基于房屋基本信息的住房月租金预测,为该城市租房市场提供客观衡量标准。

任务与数据

         数据为某地4个月的房屋租赁价格以及房屋的基本信息,我们对数据做了脱敏处理。 选手需要利用训练集中的房屋信息和月租金训练模型,利用测试集中的房屋信息对测试集数据中的房屋的月租金进行预测。

         数据分为两组,分别是训练集和测试集。 训练集为前3个月采集的数据,共196539条。 测试集为第4个月采集的数据,相对于训练集,增加了“id”字段,为房屋的唯一id,且无“月租金”字段,其它字段与训练集相同,共56279条。 训练集所含字段如下:

ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)

2018年全国大学生计算机技能应用大赛

住房月租金预测大数据赛(付费竞赛)

数据集处理前后

1、训练集、测试集

ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)
ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)

2、FE处理后的训练集

ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)

输出结果

1、测试集经过模型训练后输出的结果

ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)

设计思路

1、处理的【小区房屋出租数量】列为空值的思路

ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)

2、处理数据

ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)
ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)
ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)
ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码(一)

继续阅读