天天看点

机器学习、数据分析类面经分享

菜鸟一枚,记录一下实习、秋招经历的较大公司面经,成功失败都是经历,写给自己,写给需要的同学,持续更新…

招聘信息来源:我个人关注牛客网、赛码网、应届生论坛、学院招聘、智联招聘、前程无忧、拉勾网、大街网、实习僧,以及公众号:

机器学习、数据分析类面经分享
机器学习、数据分析类面经分享

创维_秋招_校招_20171014

美群酒店,两位面试官,一个负责技术面,一个负责问期望工作地点,因为他们研发团队好像全是在北京,还有部门老大事阿里跳过来的,也在北京等,最后说了下下次面试时间

技术面:1分钟自我介绍,讲一个最满意的项目,SVM线性不可分怎么办,哪些核函数,讲kmeans流程,初始聚类中心怎么定,距离度量怎么选,贝叶斯公式,SVM线性可分公式,大数据处理,如文件太大,内存不够怎么办,数据建索引的话,用什么数据格式检索最快,我说的dataframe,貌似没回答到点上,不知道是不是要说list这类可以下标检索数据结构

题外话:也不知道面试酒店能不能代表公司实力,感觉各个公司面试地点之间的差距还是蛮大的

格力_秋招_校招_20171013

岗位:人工智能

天马大酒店,签到,领面试表格,整理资料(要求必备成绩单、学生证复印件、身份证复印件),排队面试,感觉人工智能这个岗位还是蛮多人的

一面:自我介绍,科研项目,SVM问了几个小问题,类似核函数选择等,实习内容。然后就让去门口等二面

大约半小时,二面:自我介绍;说一个你学到很多东西的事;为什么没去BAT;职位规划;期望薪资;身高体重(这个真是头一回被问到);有没有得国奖;是不是保研

中通_秋招_校招_20171012

岗位:算法工程师

中通是陪小芳去的,因为现场有笔试,就想给她助攻一下,就报了同个岗位。后来算法岗就几个人,就没笔试,直接开始面试:自我介绍,科研项目,SVM,实习等。然后就是说回来等电话技术面

富士康FG-CNSBG(富华科5G研究所)_秋招_校招_20171011

岗位:算法工程师

富士康是个意外收获,这天本来是计划去广发银行或汇川,出发前在群里得知富士康在深圳有岗位,就去试试

hr收取简历,然后电话技术面:自我介绍,问科研项目,难点,SVM问了几个小问题,基本都是之前面试问到过的,像核函数选择等,实习内容,然后介绍了一下公司情况,问了我期望岗位和薪资,就完了。接着hr让我在手机上做了个类似行测的小测评,还有几个英语阅读理解题

然后等了几分钟,hr就叫过去问了一下家庭情况啥的,就开始谈他们公司情况,岗位薪资、福利待遇什么的,让我同意的话,隔天就可以签offer

中科院先进院_秋招_校招_20171010

岗位:助理研究员

小芳来长沙,耶!

先进院在实习的时候就去试过一次,算是有过面试经验,但那会因为个别原因没去成,所以校招的时候考虑研究所时,果断又投了先进院一个,面试官国庆前与我联系过一次,改到10号面试

面试官是个女生,声音听起来蛮年轻的,上来直接问学校专业等信息,然后聊研究方向、科研内容,论文等,因为我的生物信息这一点和他们匹配度很高,所以全程聊下来蛮顺利,一面算是通过了,说过段时间会再和主管进行一次视频面,通过的话就给offer了,最后面试官还聊了很多研究院情况,包括发展、福利等,就结束了

招商(长沙分行)_秋招_校招_20171009

岗位:信息技术岗

国庆假期前,心心念念的美的、跑去武汉面的顺丰纷纷得知自己挂在终面,好戳心,之前一直在幻想着拿到美的offer就结束秋招去沈阳看侄女,国庆前后放任了个把星期,直至招商面试才算是重新振作起来,继续找奋战秋招

要求着正装,发现银行面试人格外多,等了好久,4人一组站着面试,三个面试官,进去后每人依次用三个关键词介绍自己,然后面试官挑了2个人问了些简单问题,就结束了,说回去等通知,面试通过者会发笔试通知

万德wind_秋招_校招_20170928

岗位:算法工程师

万德是专门来我们校区招人,昨天是第一天,没赶上。到场后有几个HR在整理简历,坐下笔试,一套行测,一套选择+编程,算法岗还有一个算法题(四选一),完事后让填了个表,回答一些类似HR会问的问题,然后直接把表、简历、成绩单和试卷订一起,直接带过去面试。

面试官应该是公司的管理人员,坐下来后都没自我介绍,直接问问题:

  • 项目中最困难的部分,我提到了数据预处理
  • 数据中的缺失值怎么处理
  • jaccard系数与余弦距离的区别,各自的应用场景(试卷题),然后还语重心长地说了一句:你除了数据挖掘的算法,其他知识也要深入了解一下啊
    • 欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。
    • 余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感)
    • 杰卡德相似度算法没有考虑向量中潜在数值的大小,而是简单的处理为0和1,不过,做了这样的处理之后,杰卡德方法的计算效率肯定是比较高的,毕竟只需要做集合操作。(参考:http://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html)
  • 聊了一下试卷上的一个编程题(将字符串的指定字符移到字符串首部,我没实现好,说了一下思路,用python写了几句代码)
  • 说一个你的缺点
  • 论文,讨论了一下级别什么的
  • 你对万德的印象
  • 除了算法,你还愿意做什么岗位,我说数据分析、数据挖掘、机器学习类的都可以
  • 给你offer的话,愿意来上海吗?会不会太远啥的

然后说回头找个技术类人员再面我,让我保持电话畅通

乐信(分期乐)_秋招_校招_20170926

岗位:算法工程师

刚结束,趁热打铁,直接来写面经了

本来下午要美的二面,想睡个懒觉,而且自己也感觉状态不太好,不想面的,不过,幸亏还是参加了,有收获。所以,灌个鸡汤:什么事不要轻言放弃,不放弃总有一丝希望或一份收获

秋招遇上的第一次视频面试,牛客网的视频面是一点进去链接,直接就是面试房间,感觉提前进去有点尴尬,我等到10点整才进去,扫码签到,好像有人比我快一点,所以面试官可能在面其他人,等了十几分钟的样子,面试官发来视频邀请,正式开始面。视频面的感觉好像跟网友聊天,哈哈,今天的面试官也蛮好的,嘴角时不时的带点小微笑,没有刻意刁难,也有给我普及知识点,赞

直奔主题,大概问了以下问题:

  • 本科专业、研究生的方向
  • 实习内容,还具体问到说:怎么在Amazon上选出虚假评论,我把12个指标大概扯了三四个说了下
  • LR,我就直接解释流程
  • 怎么做特征选择,我只记得亮姐以前开会提到过的:逐步加或逐步减
  • 问知不知道WOE、IV值,真没听说过,事后学习了一下,好像是金融方面常用的:IV值,信息量,做自变量筛选的;WOE是证据权重,是对自变量的一直编码方式;具体可学习:http://blog.csdn.net/kevin7658/article/details/50780391。虽然不会自变量和因变量的筛选,但我自己又扩展到自变量之间的相关性衡量,说了下显著性统计怎么做,然后被问:如果发现自变量之间相关度很高怎么办?尴尬,自己挑起的问题,竟然不会,因为我只在实习的时候做过一些实验组与对照组的显著性统计,来排除偶然因素造成差异的可能性啥的
  • SVM,我也是直接解释流程,问我线性不可分咋办,我说的是核函数或者惩罚因子(C值)
  • 评价模型的指标,我说的是precision、recall、AUC、ROC等,然后让解释ROC怎么画(感谢刘师兄的博客),曲线的走向怎样说明效果好,我说肯定越偏向左上越好咯,然后面试官竟然给我挖了个坑,说:嗯,那意思就是曲线下面积越大越好嘛…我愣了1秒,反应过来,说:是啊!面积就是我刚提到的AUC啊~结果他狡猾一笑,哈,想套路我
  • 还问了个k-s曲线,没听过,回来学习一下,发现又是LR的内容,估计乐信公司内部用到很多LR知识(K-S曲线,和ROC异曲同工。以Logistic模型为例,首先把Logistic模型输出的概率从大到小排序,然后取10%的值(也就是概率值)作为阀值,同理把10%*k(k=1,2,3,…,9)处的值作为阀值,计算出不同的FPR和TPR值,以10%*k(k=1,2,3,…,9)为横坐标,分别以TPR和FPR的值为纵坐标,就可以画出两个曲线,这就是K-S曲线,参考:http://www.sohu.com/a/132667664_278472)
  • 接着问实习内容,怎么计算文本相似性,我说直接用jieba算,又问:怎么把文本信息转换为数值信息,要采用机器学习的方法做。我脑袋第一个蹦出ascii码和汉明距离,结果一说出来就感觉有被鄙视,后来记起来好像excel可以做。但没见过其他办法,要好好了解一下,参考:http://blog.csdn.net/cheng9981/article/details/61924149
  • 最后问我有啥问题,我问了下面试周期有多长,他说要看HR的意思,我又是乱扯了其他的,竟然,又被问了个正负样本怎么处理,幸亏这个问题已经烂熟于心,详情见顺丰面经

教训:

面试官最后问你有啥问题的时候,千万不要乱扯,因为一不小心又会被问到专业问题上去,上次顺丰是这样,今天又是这样

所以,一定老老实实问,安安稳稳结束面试

广汽研究院_秋招_校招_20170925

岗位:信息与数字化

中午吃完饭,做完美的二面前的测评,提前一小时到了广汽招聘的现场,又是清一色正装,我进去简直是个异类。签到、还拍了个照片,不知道干啥用的,可能回去公司讨论的时候,怕忘了谁是谁。坐下没几分钟就被叫过去面试了,2个面试官,我和一个男生一起面,坐我对面的那个面试官特别儒雅,声音好像主持人,沉稳大气,全程听觉视觉享受

他们貌似都不太懂数据挖掘类知识,全程跟我们拉家常,感觉像聊天一样,没问具体算法啥的,说了下:成绩、论文(旁边面试官貌似用手机在网上搜了一下我的论文)、实习、家庭成员、校招进展、职业规划、自己的缺点/劣势,问你懂不懂云计算等等

然后让我们提问,我就问了个昨天在美的群面就想问的事:

  • 不懂数据挖掘岗位知识的面试官,在考核同学的时候,选人和刷人的标准是什么?
  • 贵公司是制造业,那招IT类同学进去后,主要做哪方面工作?贵公司在向数字化企业转型方面的规划?

面试官回答:

  • 他们只是搜集同学们尽量多的信息,拿回去公司,与相关部门人员共同讨论后觉得各个岗位的人员安排等,所以面试结果也要等他们回公司讨论后,大概十月份才能出结果
  • 节约人力物力时间、公司数据量庞大,在存储、处理计算等方面,都需要用到数据挖掘、云计算方面知识啥的

两人面试全程30~40min,一直在聊天,特别亲切的感觉,很是享受~又get一个不一样的面试体验!·

美的_秋招_校招_20170924

岗位:数据挖掘

对我而言,特别的公司,所以另外专门写了一片随笔,链接:http://www.cnblogs.com/xiaoyun94/p/7589399.html

顺丰科技_秋招_校招_20170922

岗位:数据分析与运营

(一面)

20号下午笔试完,21号晚上六点半收到面试通知,22号一大早就来武汉面试了,进门签到,十点半左右开始等,闲着没事,一直跟旁边的刚产品一面完的小帅哥聊着,使劲吐槽他们专业工资低,羡慕计算机的,内心有点小庆幸和小窃喜,等到十一点十几分的样子,开始正式面试,进门好多个小桌子,挨得也比较紧,都是一对一面着,有点小吵

(1)自我介绍,我说了下姓名,学校,项目,论文和实习

(2)剩下的面试时间基本都是在聊项目,很多东西他都没具体问,都是我自己主动说的,大概包括:项目时长,时间分配,数据采集,特征计算,算法选择,效果提升等。

详细说说:

中间面试官会穿插着问特别多小细节,幸亏项目是自己亲生的,我自己也主动补充了很多,具体记不清,大概问了:

正负样本不均衡怎么处理(我说的是三大类:增加正样本(正样本复制等)、减少负样本(拆分成N份做交叉验证)、修改代价函数(如“对正样本误判为负样本的”惩罚加大)这三类,答完他问我还有吗,我想半天没答到他预期的点上,他又帮我补充了一下,说可以利用正样本生成新的正样本,比如样本均值等)

核函数怎么选择(当时没全部记起来,回来看书补充一下:

设特征量为A,样本数为B 建议
1 A>>B 线性核
2 A<<B

RBF或者LIBLINEAR(设置-s 2)

参考:http://www.cnblogs.com/baiting/p/5246877.html

3 A大,且A==B, 线性核,且LIBLINEAR比LIBSVM快
4 A<B 添加特征,回到第三种情况
5 A小,B正常 RBF

我当时只说了可以根据特征数量与样本数量的比值选,他听完没补充,但说了一点,说其他核函数选择很重要什么的,不记得了,好像是说参数问题,说svm不像其他Adaboost什么的,效果不好你可以甩锅说是算法问题,而SVM 不行,这个没太听懂,可惜了)

项目定位:我的科研项目自己定位是二分类问题,他问其实除了是二分类问题,这还可以是个什么问题?还可以怎么解决或应用到哪?我没听懂,他给我举了个观众与电影的例子,预测观众可能对哪些他们没打分的电影感兴趣,感觉他这个想法蛮好的,将项目扩展一下到其他应用领域,值得思考。我讲解项目数据的三个网络的时候,他还用电影那个例子给了我个思考点,比如电影和电影间的信息其实也可以利用到电影和观众的关系处理间,也不错,思维给力

AUC:期间我自己主动谈到实习内容,但他好像不咋感兴趣,仍旧接着问我项目,问我的auc具体提高到了多少,我把我百分之九十几报出来后,他问了个我曾经和导师讨论过的问题,为什么auc这么高?记得邓老师当时好像是说AUC太高可能和其他网络的密度大有关系

大致就这些,和暑假在顺丰科技内推面的机器学习岗不同,没问算法原理,没问数据结构,操作系统什么的,一直在聊那个科研项目,因为自己比较熟悉,所以基本上我自己话也蛮多,又因为面试官实在太nice!各种给我补充和建议,还扩展了很多知识和内容,感觉收获满满,纯粹当做一个和前辈的学习讨论

其他:后来,他问我有啥问题,我说您觉得我能进下一面吗?或者我有没有哪方面的知识需要再强化一下的?然后,他说我们都过分关注这个结果如何,其实,公司与人才之间是一个匹配的过程,面试通不通过只能说明合不合适。至于我的能力补充方面的话,问我会不会sql查询,我就提到了昨天笔试好多sql,不知道写对了没,他说昨天的笔试题都是他们一个个人工打分的。然后,让我说说“找出班上最高的男生女生信息”的查询思路,其实蛮简单,可惜当时脑子锈掉,答得支支吾吾,说了top1,group by,感觉面试官不太满意,也没说我啥,只告诉我他是咋查的,然后就结束了,让我出去先等会。(好像"先等会"的意思是有下一轮,"回去等通知"的意思是挂了)

运气好,碰到的面试官真的太nice,说话措辞很讲究,给我纠正错误或扩展知识的时候,说的话都让人听着很舒服,类似“具体不记得没关系,你讲讲思路就好”“我不是指你的错了,我只是觉得怎样怎样会更好”“其实你这里可以再发散一下”…

(二面)

出去等了几分钟,正在网上搜HR面经,就来叫我了,HR面就在我那个技术面的隔壁桌,刚坐下还和上个面试官不小心对视上了,本来想笑一下又没来得及笑,额,有点小尴尬。

HR面开始也是自我介绍,问科研项目是几个人做的,职业规划如何,为什么选这个岗位,还投了什么公司(这个没回答好),你和其他人比差距在哪里,你有啥问的。

中间我自己也补充了很多,反正就各种暗戳戳地表明顺丰很牛B,很想留深圳啥的,最后说下周出结果,让我回去等通知。

顺丰科技_秋招_内推_20170830

岗位:机器学习与人工智能

8月16号内推,投了两个岗位,机器学习与人工智能+数据运营与分析,29号接到电话约30号电话面试,约的时间是09:00~09:30,到点后迟迟没来电话,十点多发邮件问了下,下午两点正式开始面,大概问了些如下内容:

1、学校:本科专业学什么,本科专业什么时候开通的(他说没听说过),硕士上什么课,学什么

2、论文实验:数据来源,特征如何计算出来的,libsvm算法实现的细节(CG值如何确定、L1、L2正则化等)

3、机器学习算法:就问了一个k-means,我说了下算法流程,K值选取,聚类中心确定,度量值,空簇,噪声处理等

4、python:dataframe的列类型是什么(series)

5、数据结构、操作系统:有哪些数据结构(二叉树、链表、数组等),判断单链表是否成环,死锁的四个条件,TCP-IP的三次握手

他还解释了下为啥要问我数据结构,大概是检验一下你的知识体系,基本都是本科学过的东西,大部分都实在是记不得了

最后,我问了下面试官工作地点,表达了我想去深圳的意愿,然后岗位选择,他说具体岗位都是入职后再决定的,其实面哪个岗位不是很重要,整个过程约半小时

自我感觉就是有点紧张,中间卡壳了好几次,无论如何,打响秋招面试第一枪,加油复习吧

三、阿里_春招_内推_20170328

补充一个春招的时候阿里内推面经

岗位:算法工程师-机器学习

23号左右,同学师兄内推,27号下午打电话说要面试,我改到28号上午。

1.自我介绍,有没有项目或比赛经验,有没有自己实现的算法,有的话主要问你实现过的,不会问具体计算公式,都是问含义、思路、背景和意义等,主要看你是不是真的理解这种算法,知道每个过程背后的含义。

2.K means(算法都是自己先讲过程,再讨论问题)如果聚类中心一直变化,如何停止迭代;初始中心如何确定;

3.KNN和朴素贝叶斯。脑子锈掉,半天没憋出来,本来期望面试官问我问题我来答,结果都被他直接跳过去了(尴尬),所以,算法最好私下嘴巴也练练,最好像老师给学生讲课一样,能说出来,不要变成哑巴知识

4.决策树,信息增益是什么,有啥作用,一般如果问的一两个问题都答不上来,这个算法就PASS了,估计就是评估为:不及格。

5.SVM,什么是支持向量,超平面如何确定的,核函数作用,核函数与超平面关系,啥都能聊几句才能多问你点,不然一下就问完了,我面试时间估计只有别人的一般,怪自己学得不扎实,实践又少,又不会说╮(╯▽╰)╭

6.Hadoop,MapReduce过程,作用

7.估计是看我啥都不太懂,让我自己补充,说一下自己了解的点,然而我也一个都想不起来,所以,就这样结束了,over。

简直惨不忍睹,不过还是写出来,没关系,慢慢来,一次会比一次好

感觉面试官应该是面了太多人,不太想说话,所以问问题都很简洁(比如:你讲讲KNN吧),主要靠你说,自己要多发挥,知道的都聊聊,我是感觉电话面不说话的话,很尴尬,所以想不起来的话,我就直接说太紧张了,一下子记不起,能不能让我想想之类的,面试官也很nice,一直让我不要紧张,慢慢来

忠告:一切都还是要学扎实!要了解知识背后的意义,多练习一下把知识说出来