機器學習實踐（一）—sklearn之概述

2023-03-25 15:35:19

1956年，人工智能元年。

人類能夠創造出人類還未知的東西。

這未知的東西人類能夠保證它不誤入歧途嗎。

一、機器學習和人工智能，深度學習的關系

機器學習是人工智能的一個實作途徑
深度學習是機器學習的一個方法發展而來

二、機器學習，深度學習的應用場景

挖掘、預測領域：
- 應用場景：店鋪銷量預測、量化投資、廣告推薦、企業客戶分類、SQL語句安全檢測分類…
圖像領域：
- 應用場景：街道交通标志檢測、人臉識别等等
自然語言處理領域：
- 應用場景：語音識别，文本分類、情感分析、自動聊天、文本檢測等等

三、什麼是機器學習

定義

機器學習是從資料中自動分析獲得模型，并利用模型對未知資料進行預測。

解釋

我們可以從大量的日常經驗中歸納規律，當面臨新的問題的時候，就可以利用以往總結的規律去分析現實狀況，采取最佳政策。

例子

從資料（大量的貓和狗的圖檔）中自動分析獲得模型（辨識貓和狗的規律），進而使機器擁有識别貓和狗的能力。
從資料（房屋的各種資訊）中自動分析獲得模型（判斷房屋價格的規律），進而使機器擁有預測房屋價格的能力。

四、資料集構成

結構：特征值+目标值

注：

對于每一行資料我們可以稱之為樣本。

有些資料集可以沒有目标值：

五、機器學習算法分類

算法分類

監督學習(supervised learning)
- 定義：輸入資料是由輸入特征值和目标值所組成。函數的輸出可以是一個連續的值(回歸），或是輸出是有限個離散值（分類）。
- 回歸：線性回歸、嶺回歸
- 分類：k-近鄰算法、貝葉斯分類、決策樹與随機森林、邏輯回歸、神經網絡
無監督學習(unsupervised learning)
- 定義：輸入資料是由輸入特征值所組成。
- 聚類：k-means

示例：

特征值：貓/狗的圖檔；目标值：貓/狗-類别
- 分類問題
特征值：房屋的各個屬性資訊；目标值：房屋價格-連續型資料
- 回歸問題
特征值：人物的各個屬性資訊；目标值：無
- 無監督學習

六、機器學習開發流程

擷取資料
- sql、mysql
資料預處理
- 缺失值處理，資料類型轉換，資料清洗
特征工程
- 特征提取，特征預處理，特征降維
機器學習
- 訓練模型
模型評估
- 準确率，召回率，auc，ks，業務名額
- 如不合格，傳回（4
實施落地
- 開發産品，api

七、學習架構和資料介紹

算法是核心，資料與計算是基礎
算法工程師
- 線代、高數、機率統計
- 李航<統計學習方法>
- 周志華<機器學習>
- PRML
算法落地工程師
- 大部分複雜模型的算法設計都是算法工程師在做，而應用者
  - 分析很多的資料
  - 分析具體的業務
  - 應用常見的算法
  - 特征工程、調參數、優化
  - 學會分析問題，使用機器學習算法的目的，想要算法完成何種任務
  - 掌握算法基本思想，學會對問題用相應的算法解決
  - 學會利用庫或者架構解決問題
- 架構
  - SKlearn
  - tensorflow
  - pytorch

機器學習機器學習實踐 sklearn

上一篇: 特斯拉挖走計算機視覺專家Andrej Karpathy，OpenAI僅靠情懷難留人嗎？

下一篇: D-News|工信部稱從三方面推移動智能終端産業發展微軟建構大型标準化聊天機器人平台◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

繼續閱讀