天天看點

MaxCompute 持續定義 SaaS 模式雲資料倉庫— 雲資料倉庫+ AI | 學習筆記

開發者學堂課程【 SaaS  模式雲資料倉庫系列課程 —— 2021數倉必修課:MaxCompute 持續定義 SaaS 模式雲資料倉庫— 雲資料倉庫+ AI 】學習筆記,與課程緊密聯系,讓使用者快速學習知識。

課程位址:

https://developer.aliyun.com/learning/course/55/detail/1030

MaxCompute 持續定義 SaaS 模式雲資料倉庫— 雲資料倉庫+AI

内容介紹:

一、人工智能的 3次黃金時期

二、資料倉庫内置機器學習優勢

三、MaxCompute 産品技術特性

四、SQL 查詢語言的發展及現狀

五、MaxCompute Mars

 一、人工智能的3次黃金時期

l 人工智能的3次黃金時期

MaxCompute 持續定義 SaaS 模式雲資料倉庫— 雲資料倉庫+ AI | 學習筆記

Ø 整體優勢

1.無需移動資料(資料量大),降低基礎設施成本、人工成本、減少資料安全風險(HIPPA法案)

2. 資料通路速度快(讓算法找資料)

3.可擴充性強

4.純 SQL ML/Python 更易用

Ø 各角色均受益

1.商務人士:新想法可以得到快速試驗,ROI 提升

2. 資料科學家/資料分析師:大部分工作通過 SQL/Python 實作,易用提效;模型開發/生産環境無縫對接。

3.DBA :資料管理簡單、安全性更高

三、MaxCompute 産品技術特性

Ø 內建 AI 能力

·提供 SQLML 可以直接使用标準 SQL 訓練機器學習模型,并對資料進行預測分析

·Mars:使用Python科學計算、機器學習三方庫

·可使用使用者熟悉的 Spark-ML 開展智能分析

·與PAI無縫內建,提供強大的機器學習處理能力

四、SQL 查詢語言的發展及現狀

Ø SQL 發展

定義:結構化查詢語言,用于和 RDBMS 互動。

Ø 發展曆程

1970年代初,IBM 提出規範語言 SEQUE L, 後改名 SQL

1979年 ORACLE 提出商用 SQL

1986年,關系資料庫管理系統被ISO采納為國際标準

2011年: ISO/IEC 9075:2011  SQL:2011

MaxCompute 持續定義 SaaS 模式雲資料倉庫— 雲資料倉庫+ AI | 學習筆記

Ø 項目名字 Mars: 最早是 Matrix and Array; 登陸火星

Ø 為什麼要做 Mars:

1) 為大規模科學計算設計的:大資料引擎程式設計接口對科學計算不太友好,架構設計不是為科學計算模型考慮的

2) -傳統科學計算基于單機,大規模科學計算需要用到超算

3) Tips科學計算:計算機梳理資料:Excel->資料庫(MySQL)->Hadoop,Spark,MaxCompute資料量有了很大變化,計算模型沒有變化,二維表,投影、切片、聚合、篩選和排序,基于關系代數,集合論;科學計算基礎結構不是二維表:例如圖檔2次元,每個像素點不是一個數字(RGB+a透明通道)

4) 傳統 SQL 模型處理能力不足:線性代數,專制行列式的相乘,現有資料庫效率低

-現狀 R,Numpy 單機基于單機; Python 生态的Dask大資料到科學計算的橋梁

Ø 案例:客戶 A MaxCompute 現有資料,需要針對這些百億資料TB級别的資料相乘;現 有 MapReduce 性能;用 Mars 就可以高效的解決;目前是唯一一個大規模科學計算引擎