他笑了起来:“嗨——其实就是省里搞了个金融建模,搞大了声势,成了国际赛事,其实还不是省里那些人参加。我们去年钱花了不少,却得了个倒数。今年准备一雪前耻。”
“明白了。我尽力。可能也许又会是倒数。做好心理准备。”林荃歌再次实话实说。
“没事。总不能比倒数第一更差了。”姚霖彦从楼上走了下来,一身LV睡衣。
“姚董。”林荃歌见他一脸疲态,头发半湿的样子,便知这伙人也许玩了个通宵,现在只是为了等她到来。
“只有半个月的时间,辛苦你了。”姚霖彦将一叠文件递给她。
林荃歌打开文件一看。
“信用风险是金融监管机构重点关注的风险,关乎金融系统运行的稳定。
在实际业务开展和模型构建过程中,面临着高维稀疏特征以及样本不平衡等各种问题,如何应用机器学习等数据挖掘方法提高信用风险的评估和预测能力,是各家金融机构积极探索的方向。
本次竞赛提供实际业务场景中的信贷数据作为建模的对象,希望能借此展现各参赛选手数据挖掘的实战能力。
本次赛题给出30个非匿名的业务字段以及112个匿名字段,在极不平衡的样本数据中,预测客户是否会出现信用违约行为。
赛题难点
①数据的高维稀疏性导致数据的可利用性降低,给模型学习能力的提升带来了困难;
②数据的极度不平衡,导致模型极其容易出现过拟合问题;
③匿名字段的处理:如何理解并使用匿名字段中潜在的业务意义;
④新旧数据探索:如何衡量新旧数据的差异,如何把握特征的新旧差异,以及如何构建合适的验证策略。”
后面是大片的相关数据、字段说明。最后是评分指标。
林荃歌看了看,感受到了压力,人家是团体作战,而她是孤军奋战,居然还是一拖六。
林荃歌阖上文件,摸了摸鼻子:“姚董,我们的参赛队伍是七个人?”
“只有我们三个,他们都是来玩的。”
林荃歌这才放松下来,还好还好,一拖二,那她还能接受。
“姚董,有数据的电子版吗?”
“我让秘书马上发你。”
“行。这是我的游戏地址。”林荃歌迅速将邮箱地址发他,又问道,“那我是在这里建模,还是带回家干?”
“就在这里,我们要保密。对了,你们几个,赶紧滚吧,老子要好好学习, 天天向上了。”
林荃歌又摸了摸鼻子,这有什么好保密的,不就是个模型嘛!
没想到,除了郑雅勋,其余四人均站起身,打着哈欠走了。
林荃歌一脸莫名:“他们就这么走了?”
“他们就是看看,我们今年请来的人怎么样,看完就走了呗!”郑雅勋向她解释道。
二人将她带到了一间极其宽敞的书房,摆了十来台配置高端的电脑。
“电脑有故障就找阿龙,他在隔壁,马上会来修。不过一般不会有事。”姚霖彦打着哈欠拍了拍林荃歌的肩膀,“五天后要提交方案了,如果通过就是决赛,加油啊!阿州。”
“这么紧张的赛程?”林荃歌瞪大了眼睛,“决赛也是这样提交方案?”
“现场给你半天时间作答。闯进决赛就有奖金。”