FlinkSQL快速入門

實時數倉來勢兇猛，FlinkSQL已成必殺技。五千字長文帶大家快速入門FlinkSQL，占據技術棧優勢，升職加薪加特！

FlinkSQL快速入門

二、FlinkSQL出現的背景

Flink SQL 是 Flink 實時計算為簡化計算模型，降低使用者使用實時計算門檻而設計的一套符合标準 SQL 語義的開發語言。

自 2015 年開始，阿裡巴巴開始調研開源流計算引擎，最終決定基于 Flink 打造新一代計算引擎，針對 Flink 存在的不足進行優化和改進，并且在 2019 年初将最終代碼開源，也就是我們熟知的 Blink。Blink 在原來的 Flink 基礎上最顯著的一個貢獻就是 Flink SQL 的實作。

Flink SQL 是面向使用者的 API 層，在我們傳統的流式計算領域，比如 Storm、Spark Streaming 都會提供一些 Function 或者 Datastream API，使用者通過 Java 或 Scala 寫業務邏輯，這種方式雖然靈活，但有一些不足，比如具備一定門檻且調優較難，随着版本的不斷更新，API 也出現了很多不相容的地方。

FlinkSQL快速入門

在這個背景下，毫無疑問，SQL 就成了我們最佳選擇，之是以選擇将 SQL 作為核心 API，是因為其具有幾個非常重要的特點：

SQL 屬于設定式語言，使用者隻要表達清楚需求即可，不需要了解具體做法；
SQL 可優化，内置多種查詢優化器，這些查詢優化器可為 SQL 翻譯出最優執行計劃；
SQL 易于了解，不同行業和領域的人都懂，學習成本較低；
SQL 非常穩定，在資料庫 30 多年的曆史中，SQL 本身變化較少；
流與批的統一，Flink 底層 Runtime 本身就是一個流與批統一的引擎，而 SQL 可以做到 API 層的流與批統一。

三、整體介紹

3.1 什麼是 Table API 和 Flink SQL?

Flink本身是批流統一的處理架構，是以Table API和SQL，就是批流統一的上層處理API。目前功能尚未完善，處于活躍的開發階段。

Table API是一套内嵌在Java和Scala語言中的查詢API，它允許我們以非常直覺的方式，組合來自一些關系運算符的查詢（比如select、filter和join）。而對于Flink SQL，就是直接可以在代碼中寫SQL，來實作一些查詢（Query）操作。Flink的SQL支援，基于實作了SQL标準的Apache Calcite（Apache開源SQL解析工具）。

無論輸入是批輸入還是流式輸入，在這兩套API中，指定的查詢都具有相同的語義，得到相同的結果。

3.2 需要引入的依賴

Table API 和 SQL 需要引入的依賴有兩個：

planner

和

bridge

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_2.11</artifactId>
    <version>1.10.0</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-api-scala-bridge_2.11</artifactId>
    <version>1.10.0</version>
</dependency>

其中：

flink-table-planner：planner計劃器，是table API最主要的部分，提供了運作時環境和生成程式執行計劃的planner；

flink-table-api-scala-bridge：bridge橋接器，主要負責table API和 DataStream/DataSet API的連接配接支援，按照語言分java和scala；

這裡的兩個依賴，是IDE環境下運作需要添加的；如果是生産環境，lib目錄下預設已經有了planner，就隻需要有bridge就可以了。

當然，如果想使用使用者自定義函數，或是跟 kafka 做連接配接，需要有一個SQL client，這個包含在

flink-table-common

裡。

3.3 兩種planner（old & blink）的差別

1、批流統一：Blink将批處理作業，視為流式處理的特殊情況。是以，blink不支援表和DataSet之間的轉換，批處理作業将不轉換為DataSet應用程式，而是跟流處理一樣，轉換為DataStream程式來處理。

2、因為批流統一，Blink planner也不支援BatchTableSource，而使用有界的StreamTableSource代替。

3、Blink planner隻支援全新的目錄，不支援已棄用的ExternalCatalog。

4、舊 planner 和 Blink planner 的FilterableTableSource實作不相容。舊的planner會把PlannerExpressions下推到filterableTableSource中，而blink planner則會把Expressions下推。

5、基于字元串的鍵值配置選項僅适用于Blink planner。

6、PlannerConfig在兩個planner中的實作不同。

7、Blink planner會将多個sink優化在一個DAG中（僅在TableEnvironment上受支援，而在StreamTableEnvironment上不受支援）。而舊 planner 的優化總是将每一個sink放在一個新的DAG中，其中所有DAG彼此獨立。

8、舊的planner不支援目錄統計，而Blink planner支援。

四、API 調用

4.1 基本程式結構

Table API 和 SQL 的程式結構，與流式處理的程式結構類似；也可以近似地認為有這麼幾步：首先建立執行環境，然後定義source、transform和sink。

具體操作流程如下：

val tableEnv = ...     // 建立表的執行環境

// 建立一張表，用于讀取資料
tableEnv.connect(...).createTemporaryTable("inputTable")
// 注冊一張表，用于把計算結果輸出
tableEnv.connect(...).createTemporaryTable("outputTable")

// 通過 Table API 查詢算子，得到一張結果表
val result = tableEnv.from("inputTable").select(...)
// 通過 SQL查詢語句，得到一張結果表
val sqlResult  = tableEnv.sqlQuery("SELECT ... FROM inputTable ...")

// 将結果表寫入輸出表中
result.insertInto("outputTable")

4.2 建立表環境

建立表環境最簡單的方式，就是基于流處理執行環境，調create方法直接建立：

val tableEnv = StreamTableEnvironment.create(env)

表環境（TableEnvironment）是flink中內建 Table API & SQL 的核心概念。它負責:

注冊catalog
在内部 catalog 中系統資料庫
執行 SQL 查詢
注冊使用者自定義函數
将 DataStream 或 DataSet 轉換為表
儲存對 ExecutionEnvironment 或 StreamExecutionEnvironment 的引用

在建立TableEnv的時候，可以多傳入一個EnvironmentSettings 或者 TableConfig 參數，可以用來配置 TableEnvironment 的一些特性。

比如，配置老版本的流式查詢（Flink-Streaming-Query）：

val settings = EnvironmentSettings.newInstance()
  .useOldPlanner()      // 使用老版本planner
  .inStreamingMode()    // 流處理模式
  .build()
val tableEnv = StreamTableEnvironment.create(env, settings)

基于老版本的批處理環境（Flink-Batch-Query）：

val batchEnv = ExecutionEnvironment.getExecutionEnvironment
val batchTableEnv = BatchTableEnvironment.create(batchEnv)

基于 blink 版本的流處理環境（Blink-Streaming-Query）：

val bsSettings = EnvironmentSettings.newInstance()
.useBlinkPlanner()
.inStreamingMode().build()
val bsTableEnv = StreamTableEnvironment.create(env, bsSettings)

基于blink版本的批處理環境（Blink-Batch-Query）：

val bbSettings = EnvironmentSettings.newInstance()
.useBlinkPlanner()
.inBatchMode().build()
val bbTableEnv = TableEnvironment.create(bbSettings)

4.3 在Catalog中系統資料庫

4.3.1 表(Table)的概念

TableEnvironment 可以注冊目錄 Catalog ，并可以基于Catalog系統資料庫。它會維護一個 Catalog-Table 表之間的map。

表（Table）是由一個“辨別符”來指定的，由3部分組成：Catalog名、資料庫（database）名和對象名（表名）。如果沒有指定目錄或資料庫，就使用目前的預設值。

表可以是正常的（Table，表），或者虛拟的（View，視圖）。正常表（Table）一般可以用來描述外部資料，比如檔案、資料庫表或消息隊列的資料，也可以直接從 DataStream轉換而來。視圖可以從現有的表中建立，通常是 table API 或者SQL查詢的一個結果。

4.3.2 連接配接到檔案系統（Csv格式）

連接配接外部系統在Catalog中系統資料庫，直接調用 tableEnv.connect() 就可以，裡面參數要傳入一個 ConnectorDescriptor ，也就是connector描述器。對于檔案系統的 connector 而言，flink内部已經提供了，就叫做FileSystem()。

代碼如下：

tableEnv
.connect( new FileSystem().path("sensor.txt"))  // 定義表資料來源，外部連接配接
  .withFormat(new OldCsv())    // 定義從外部系統讀取資料之後的格式化方法
  .withSchema( new Schema()
    .field("id", DataTypes.STRING())
    .field("timestamp", DataTypes.BIGINT())
    .field("temperature", DataTypes.DOUBLE())
  )    // 定義表結構
  .createTemporaryTable("inputTable")    // 建立臨時表

這是舊版本的csv格式描述器。由于它是非标的，跟外部系統對接并不通用，是以将被棄用，以後會被一個符合RFC-4180标準的新format描述器取代。新的描述器就叫Csv()，但flink沒有直接提供，需要引入依賴flink-csv：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-csv</artifactId>
    <version>1.10.0</version>
</dependency>

代碼非常類似，隻需要把 withFormat 裡的 OldCsv 改成Csv就可以了。

4.3.3 連接配接到Kafka

kafka的連接配接器 flink-kafka-connector 中，1.10 版本的已經提供了 Table API 的支援。我們可以在 connect方法中直接傳入一個叫做Kafka的類，這就是kafka連接配接器的描述器ConnectorDescriptor。

tableEnv.connect(
  new Kafka()
    .version("0.11") // 定義kafka的版本
    .topic("sensor") // 定義主題
    .property("zookeeper.connect", "localhost:2181") 
    .property("bootstrap.servers", "localhost:9092")
)
  .withFormat(new Csv())
  .withSchema(new Schema()
  .field("id", DataTypes.STRING())
  .field("timestamp", DataTypes.BIGINT())
  .field("temperature", DataTypes.DOUBLE())
)
  .createTemporaryTable("kafkaInputTable")

當然也可以連接配接到 ElasticSearch、MySql、HBase、Hive等外部系統，實作方式基本上是類似的。感興趣的小夥伴可以自行去研究，這裡就不詳細贅述了。

4.4 表的查詢

通過上面的學習，我們已經利用外部系統的連接配接器connector，我們可以讀寫資料，并在環境的Catalog中系統資料庫。接下來就可以對表做查詢轉換了。

Flink給我們提供了兩種查詢方式：Table API和 SQL。

4.4.1 Table API的調用

Table API是內建在Scala和Java語言内的查詢API。與SQL不同，Table API的查詢不會用字元串表示，而是在宿主語言中一步一步調用完成的。

Table API基于代表一張“表”的Table類，并提供一整套操作處理的方法API。這些方法會傳回一個新的Table對象，這個對象就表示對輸入表應用轉換操作的結果。有些關系型轉換操作，可以由多個方法調用組成，構成鍊式調用結構。例如

table.select(…).filter(…)

，其中 select（…）表示選擇表中指定的字段，filter(…)表示篩選條件。

代碼中的實作如下：

val sensorTable: Table = tableEnv.from("inputTable")

val resultTable: Table = senorTable
.select("id, temperature")
.filter("id ='sensor_1'")

4.4.2 SQL查詢

Flink的SQL內建，基于的是ApacheCalcite，它實作了SQL标準。在Flink中，用正常字元串來定義SQL查詢語句。SQL 查詢的結果，是一個新的 Table。

代碼實作如下：

val resultSqlTable: Table = tableEnv.sqlQuery("select id, temperature from inputTable where id ='sensor_1'")

或者：

val resultSqlTable: Table = tableEnv.sqlQuery(
  """
    |select id, temperature
    |from inputTable
    |where id = 'sensor_1'
  """.stripMargin)

當然，也可以加上聚合操作，比如我們統計每個sensor溫度資料出現的個數，做個count統計：

val aggResultTable = sensorTable
.groupBy('id)
.select('id, 'id.count as 'count)

SQL的實作：

val aggResultSqlTable = tableEnv.sqlQuery("select id, count(id) as cnt from inputTable group by id")

這裡Table API裡指定的字段，前面加了一個單引号’，這是Table API中定義的Expression類型的寫法，可以很友善地表示一個表中的字段。

字段可以直接全部用雙引号引起來，也可以用半邊單引号+字段名的方式。以後的代碼中，一般都用後一種形式。

4.5 将DataStream 轉換成表

Flink允許我們把Table和DataStream做轉換：我們可以基于一個DataStream，先流式地讀取資料源，然後map成樣例類，再把它轉成Table。Table的列字段（column fields），就是樣例類裡的字段，這樣就不用再麻煩地定義schema了。

4.5.1 代碼表達

代碼中實作非常簡單，直接用 tableEnv.fromDataStream() 就可以了。預設轉換後的 Table schema 和 DataStream 中的字段定義一一對應，也可以單獨指定出來。

這就允許我們更換字段的順序、重命名，或者隻選取某些字段出來，相當于做了一次map操作（或者Table API的 select操作）。

代碼具體如下：

val inputStream: DataStream[String] = env.readTextFile("sensor.txt")
val dataStream: DataStream[SensorReading] = inputStream
  .map(data => {
    val dataArray = data.split(",")
    SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
  })

val sensorTable: Table = tableEnv.fromDataStreama(datStream)

val sensorTable2 = tableEnv.fromDataStream(dataStream, 'id, 'timestamp as 'ts)

4.5.2 資料類型與 Table schema的對應

在上節的例子中，DataStream 中的資料類型，與表的 Schema 之間的對應關系，是按照樣例類中的字段名來對應的（name-based mapping），是以還可以用as做重命名。

另外一種對應方式是，直接按照字段的位置來對應（position-based mapping），對應的過程中，就可以直接指定新的字段名了。

基于名稱的對應：

val sensorTable = tableEnv.fromDataStream(dataStream, 'timestamp as 'ts, 'id as 'myId, 'temperature)

基于位置的對應：

val sensorTable = tableEnv.fromDataStream(dataStream, 'myId, 'ts)

Flink的 DataStream 和 DataSet API 支援多種類型。

組合類型，比如元組（内置Scala和Java元組）、POJO、Scala case類和Flink的Row類型等，允許具有多個字段的嵌套資料結構，這些字段可以在Table的表達式中通路。其他類型，則被視為原子類型。

元組類型和原子類型，一般用位置對應會好一些；如果非要用名稱對應，也是可以的：元組類型，預設的名稱是 “_1”, “_2”；而原子類型，預設名稱是 ”f0”。

4.6 建立臨時視圖（Temporary View）

建立臨時視圖的第一種方式，就是直接從DataStream轉換而來。同樣，可以直接對應字段轉換；也可以在轉換的時候，指定相應的字段。

代碼如下：

tableEnv.createTemporaryView("sensorView", dataStream)
tableEnv.createTemporaryView("sensorView", dataStream, 'id, 'temperature, 'timestamp as 'ts)

另外，當然還可以基于Table建立視圖：

tableEnv.createTemporaryView("sensorView", sensorTable)

View和Table的Schema完全相同。事實上，在Table API中，可以認為View 和 Table 是等價的。

4.7 輸出表

表的輸出，是通過将資料寫入 TableSink 來實作的。TableSink 是一個通用接口，可以支援不同的檔案格式、存儲資料庫和消息隊列。

具體實作，輸出表最直接的方法，就是通過 Table.insertInto() 方法将一個 Table 寫入注冊過的 TableSink 中。

4.7.1 輸出到檔案

代碼如下：

// 注冊輸出表
tableEnv.connect(
  new FileSystem().path("…\\resources\\out.txt")
) // 定義到檔案系統的連接配接
  .withFormat(new Csv()) // 定義格式化方法，Csv格式
  .withSchema(new Schema()
  .field("id", DataTypes.STRING())
  .field("temp", DataTypes.DOUBLE())
) // 定義表結構
  .createTemporaryTable("outputTable") // 建立臨時表

resultSqlTable.insertInto("outputTable")

4.7.2 更新模式（Update Mode）

在流處理過程中，表的處理并不像傳統定義的那樣簡單。

對于流式查詢（Streaming Queries），需要聲明如何在（動态）表和外部連接配接器之間執行轉換。與外部系統交換的消息類型，由更新模式（update mode）指定。

Flink Table API中的更新模式有以下三種：

追加模式（Append Mode）

在追加模式下，表（動态表）和外部連接配接器隻交換插入（Insert）消息。

撤回模式（Retract Mode）

在撤回模式下，表和外部連接配接器交換的是：添加（Add）和撤回（Retract）消息。

其中：

插入（Insert）會被編碼為添加消息；

删除（Delete）則編碼為撤回消息；

更新（Update）則會編碼為，已更新行（上一行）的撤回消息，和更新行（新行）的添加消息。

在此模式下，不能定義key，這一點跟upsert模式完全不同。

Upsert（更新插入）模式

在Upsert模式下，動态表和外部連接配接器交換Upsert和Delete消息。

這個模式需要一個唯一的key，通過這個key可以傳遞更新消息。為了正确應用消息，外部連接配接器需要知道這個唯一key的屬性。

插入（Insert）和更新（Update）都被編碼為Upsert消息；

删除（Delete）編碼為Delete資訊

這種模式和 Retract 模式的主要差別在于，Update操作是用單個消息編碼的，是以效率會更高。

4.7.3 輸出到Kafka

除了輸出到檔案，也可以輸出到Kafka。我們可以結合前面Kafka作為輸入資料，建構資料管道，kafka進，kafka出。

代碼如下：

// 輸出到 kafka
tableEnv.connect(
  new Kafka()
    .version("0.11")
    .topic("sinkTest")
    .property("zookeeper.connect", "localhost:2181")
    .property("bootstrap.servers", "localhost:9092")
)
  .withFormat( new Csv() )
  .withSchema( new Schema()
    .field("id", DataTypes.STRING())
    .field("temp", DataTypes.DOUBLE())
  )
  .createTemporaryTable("kafkaOutputTable")

resultTable.insertInto("kafkaOutputTable")

4.7.4 輸出到ElasticSearch

ElasticSearch的connector可以在upsert（update+insert，更新插入）模式下操作，這樣就可以使用Query定義的鍵（key）與外部系統交換UPSERT/DELETE消息。

另外，對于“僅追加”（append-only）的查詢，connector還可以在 append 模式下操作，這樣就可以與外部系統隻交換 insert 消息。

es目前支援的資料格式，隻有Json，而 flink 本身并沒有對應的支援，是以還需要引入依賴：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-json</artifactId>
    <version>1.10.0</version>
</dependency>

代碼實作如下：

// 輸出到es
tableEnv.connect(
  new Elasticsearch()
    .version("6")
    .host("localhost", 9200, "http")
    .index("sensor")
    .documentType("temp")
)
  .inUpsertMode()           // 指定是 Upsert 模式
  .withFormat(new Json())
  .withSchema( new Schema()
    .field("id", DataTypes.STRING())
    .field("count", DataTypes.BIGINT())
  )
  .createTemporaryTable("esOutputTable")

aggResultTable.insertInto("esOutputTable")

4.7.5 輸出到MySql

Flink專門為Table API的jdbc連接配接提供了flink-jdbc連接配接器，我們需要先引入依賴：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-jdbc_2.11</artifactId>
    <version>1.10.0</version>
</dependency>

jdbc連接配接的代碼實作比較特殊，因為沒有對應的java/scala類實作

ConnectorDescriptor

，是以不能直接

tableEnv.connect()

。不過Flink SQL留下了執行DDL的接口：

tableEnv.sqlUpdate()

對于jdbc的建立表操作，天生就适合直接寫DDL來實作，是以我們的代碼可以這樣寫：

// 輸出到 Mysql
val sinkDDL: String =
  """
    |create table jdbcOutputTable (
    |  id varchar(20) not null,
    |  cnt bigint not null
    |) with (
    |  'connector.type' = 'jdbc',
    |  'connector.url' = 'jdbc:mysql://localhost:3306/test',
    |  'connector.table' = 'sensor_count',
    |  'connector.driver' = 'com.mysql.jdbc.Driver',
    |  'connector.username' = 'root',
    |  'connector.password' = '123456'
    |)
  """.stripMargin

tableEnv.sqlUpdate(sinkDDL)
aggResultSqlTable.insertInto("jdbcOutputTable")

4.7.6 将表轉換成DataStream

表可以轉換為DataStream或DataSet。這樣，自定義流處理或批處理程式就可以繼續在 Table API或SQL查詢的結果上運作了。

将表轉換為DataStream或DataSet時，需要指定生成的資料類型，即要将表的每一行轉換成的資料類型。通常，最友善的轉換類型就是Row。當然，因為結果的所有字段類型都是明确的，我們也經常會用元組類型來表示。

表作為流式查詢的結果，是動态更新的。是以，将這種動态查詢轉換成的資料流，同樣需要對表的更新操作進行編碼，進而有不同的轉換模式。

Table API 中表到 DataStream 有兩種模式：

追加模式（Append Mode）

用于表隻會被插入（Insert）操作更改的場景

撤回模式（Retract Mode）

用于任何場景。有些類似于更新模式中Retract模式，它隻有 Insert 和 Delete 兩類操作。

得到的資料會增加一個Boolean類型的辨別位（傳回的第一個字段），用它來表示到底是新增的資料（Insert），還是被删除的資料（老資料， Delete）。

代碼實作如下：

val resultStream: DataStream[Row] = tableEnv.toAppendStream[Row](resultTable)

val aggResultStream: DataStream[(Boolean, (String, Long))] = 
tableEnv.toRetractStream[(String, Long)](aggResultTable)

resultStream.print("result")
aggResultStream.print("aggResult")

是以，沒有經過groupby之類聚合操作，可以直接用 toAppendStream 來轉換；而如果經過了聚合，有更新操作，一般就必須用 toRetractDstream。

4.7.7 Query的解釋和執行

Table API提供了一種機制來解釋（Explain）計算表的邏輯和優化查詢計劃。這是通過TableEnvironment.explain（table）方法或TableEnvironment.explain（）方法完成的。

explain方法會傳回一個字元串，描述三個計劃：

未優化的邏輯查詢計劃
優化後的邏輯查詢計劃
實際執行計劃

我們可以在代碼中檢視執行計劃：

val explaination: String = tableEnv.explain(resultTable)
println(explaination)

Query的解釋和執行過程，老planner和 blink planner 大體是一緻的，又有所不同。整體來講，Query都會表示成一個邏輯查詢計劃，然後分兩步解釋：

優化查詢計劃
解釋成 DataStream 或者 DataSet程式

而 Blink 版本是批流統一的，是以所有的Query，隻會被解釋成DataStream程式；另外在批處理環境 TableEnvironment 下，Blink版本要到 tableEnv.execute() 執行調用才開始解釋。

FlinkSQL快速入門

二、FlinkSQL出現的背景

三、整體介紹

3.1 什麼是 Table API 和 Flink SQL?

3.2 需要引入的依賴

3.3 兩種planner（old & blink）的差別

四、API 調用

4.1 基本程式結構

4.2 建立表環境

4.3 在Catalog中系統資料庫

4.4 表的查詢

4.5 将DataStream 轉換成表

4.6 建立臨時視圖（Temporary View）

4.7 輸出表

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark