機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。
算法理論基礎不僅包含基本概念、數學基礎,也包含了機器學習、深度學習相關。今天給大家推薦一個不錯的算法理論基礎面試題彙總資源,已開源~
首先放上這份開源面試題彙總的位址:
https://github.com/sladesha/Reflection_Summary其作者是 SladeSal 和 tcandzq,來自 2020 屆校招面試各類算法問題及個人了解的彙總。目前已經收獲 900+ 的贊了~
資源目錄:
- 基礎概念
- 數學
- 資料預處理
- 機器學習
- 深度學習
- 自然語言處理
- 推薦
- 風控
- 評價名額
下面來看一下詳細内容,一睹為快!
1. 基礎概念
基礎概念部分包含了 5 個主題,分别是:方差和偏差、生成與判别模型、先驗機率和後驗機率、頻率機率、AutoML。每個主題都包含若幹常見、高頻出現的面試題。
例如“如何解釋偏差、方差,模型訓練為什麼要引入偏差和方差?”
問題的解釋都來自面試題的精煉總結,不羅嗦,簡單易懂。
2. 數學
數學部分包含了 12 個主題,分别是:資料品質、最大公約數問題、牛頓法、拟牛頓法、機率密度分布、平面曲線的切線和法線、導數、微分中值定理、泰勒公式、歐拉公式、矩陣、機率論。
例如,看下關于泰勒公式的講解:
泰勒公式一句話描述:就是用多項式函數去逼近光滑函數。常見的泰勒公式有:
3. 資料預處理
資料預處理部分包含了 5 個主題,分别是資料平衡、異常點處理、缺失值處理、特征選擇、特征提取。資料預處理是機器學習算法的重要組成部分。
例如“為什麼需要對資料進行變換?”,“歸一化和标準化之間的關系?”
這部分作者總結得很詳細,後面還有展開!關于連續特征的常用方法,作者引入一張圖進行總結歸納:
4. 機器學習
機器學習部分包含了 9 個主題,分别是:聚類、線性回歸、邏輯回歸、決策樹、貝葉斯、随機森林、內建學習、FM/FFM、SVM。這部分内容詳實,核心面試題也總結得很好。
例如 SVM 面試題非常豐富,涵蓋得比較全面。衆所周知,支援向量機(Support Vector Machine, SVM)是一類按監督學習方式對資料進行二進制分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。
關于KKT限制條件,KKT條件有哪些、引入拉格朗日的優化方法後的損失函數解釋、核函數的作用是啥、核函數的種類和應用場景作者都有詳細解釋。
5. 深度學習
深度學習部分包含了 8 個主題,分别是:dropout、batch_normalization、bp過程、embedding、softmax、梯度消失/爆炸、殘差網絡、Attention。
例如“殘差網絡為什麼能解決梯度消失的問題?”
6. 自然語言處理
自然語言處理部分包含了 8 個主題,分别是:GloVe、WordsVec、CRF、LDA、LSTM、GRU、Bert、文本相似度計算。
例如“word2vec和glove差別?”
7. 推薦
推薦部分包含 8 個主題,分别是:DIN、DeepFM、YoutubeNet、Wide&Deep、MLR、Neural Network全家桶、XDeepFM、Recall。
8. 風控
風控部分包含了 2 個主題,分别是:孤立森林和評分卡。
9. 評價名額
評價名額包含了 5 個主題,分别是:二分類、多分類、回歸名額、聚類名額、排序名額。
總的來說,這是一份不錯的算法理論基礎面試資源,作者對常見的大廠面試題做了較好的歸納和總結。幫助大家對這些知識點進行梳理和了解,以便能夠更好地應對機器學習筆試包括面試。
目前該項目應該還在補充完善。
最後,再次放上該資源的 GitHub 開源位址: