天天看點

資料分析

資料分析

  1. 提供了資料集合, 應該将他們分成兩類, 一個是測試類, 一個是訓練類
  2. 深度學習中最難的就是特征提取
  3. 并不是資料中的所有特征都有用的, 沒有需要的使用DataFrame中的drop()去掉
  4. one-hot: 将string值轉為int值,友善運算 --> pd.get_dummies(raw['raw_name'], prefix='my_prefix') 傳回的是一個類似于真值表的表, 結果是0或者1
  5. 一個目标函數有3個參數, 那麼梯度下降指定的對每一個系數單獨求偏導, 互相不幹擾
  6. 梯度下降的學習率就是取自變量時間隔, 一般從0.01開始, 批處理的數量是32, 64, 128, 一般64足夠了
  7. 邏輯回歸算法是最經典的算法, 套路就是先使用簡單的邏輯回歸, 是在不行了就是用其他複雜的算法
  8. sigmoid函數, g(z) = 1/(1 + e^(-z)), 它很重要, 因為它的自變量的取值範圍在無窮, 而他的y的取值範圍為0-1, 這就是機率的取值範圍
  9. 線性回歸的證明代一般高斯分布的公式, 邏輯回歸一般代sigmoid函數的公式, 證明時遇到乘法使用log
上一篇: LLVM編寫插件
下一篇: Math

繼續閱讀