開發者學堂課程【 SaaS 模式雲資料倉庫系列課程 —— 2021數倉必修課:MaxCompute 持續定義 SaaS 模式雲資料倉庫— 雲資料倉庫+ AI 】學習筆記,與課程緊密聯系,讓使用者快速學習知識。
課程位址:
https://developer.aliyun.com/learning/course/55/detail/1030MaxCompute 持續定義 SaaS 模式雲資料倉庫— 雲資料倉庫+AI
内容介紹:
一、人工智能的 3次黃金時期
二、資料倉庫内置機器學習優勢
三、MaxCompute 産品技術特性
四、SQL 查詢語言的發展及現狀
五、MaxCompute Mars
一、人工智能的3次黃金時期
l 人工智能的3次黃金時期
Ø 整體優勢
1.無需移動資料(資料量大),降低基礎設施成本、人工成本、減少資料安全風險(HIPPA法案)
2. 資料通路速度快(讓算法找資料)
3.可擴充性強
4.純 SQL ML/Python 更易用
Ø 各角色均受益
1.商務人士:新想法可以得到快速試驗,ROI 提升
2. 資料科學家/資料分析師:大部分工作通過 SQL/Python 實作,易用提效;模型開發/生産環境無縫對接。
3.DBA :資料管理簡單、安全性更高
三、MaxCompute 産品技術特性
Ø 內建 AI 能力
·提供 SQLML 可以直接使用标準 SQL 訓練機器學習模型,并對資料進行預測分析
·Mars:使用Python科學計算、機器學習三方庫
·可使用使用者熟悉的 Spark-ML 開展智能分析
·與PAI無縫內建,提供強大的機器學習處理能力
四、SQL 查詢語言的發展及現狀
Ø SQL 發展
定義:結構化查詢語言,用于和 RDBMS 互動。
Ø 發展曆程
1970年代初,IBM 提出規範語言 SEQUE L, 後改名 SQL
1979年 ORACLE 提出商用 SQL
1986年,關系資料庫管理系統被ISO采納為國際标準
2011年: ISO/IEC 9075:2011 SQL:2011
Ø 項目名字 Mars: 最早是 Matrix and Array; 登陸火星
Ø 為什麼要做 Mars:
1) 為大規模科學計算設計的:大資料引擎程式設計接口對科學計算不太友好,架構設計不是為科學計算模型考慮的
2) -傳統科學計算基于單機,大規模科學計算需要用到超算
3) Tips科學計算:計算機梳理資料:Excel->資料庫(MySQL)->Hadoop,Spark,MaxCompute資料量有了很大變化,計算模型沒有變化,二維表,投影、切片、聚合、篩選和排序,基于關系代數,集合論;科學計算基礎結構不是二維表:例如圖檔2次元,每個像素點不是一個數字(RGB+a透明通道)
4) 傳統 SQL 模型處理能力不足:線性代數,專制行列式的相乘,現有資料庫效率低
-現狀 R,Numpy 單機基于單機; Python 生态的Dask大資料到科學計算的橋梁
Ø 案例:客戶 A MaxCompute 現有資料,需要針對這些百億資料TB級别的資料相乘;現 有 MapReduce 性能;用 Mars 就可以高效的解決;目前是唯一一個大規模科學計算引擎