GitHub 位址
https://github.com/apache/flink歡迎大家關注 Flink~
12 月 4-5 日,北京國家會議中心,Flink Forward Asia 2021 重磅開啟,全球 40+ 多行業一線廠商,80+ 幹貨議題,帶來專屬于開發者的技術盛宴。
其中,生産實踐專場集結阿裡巴巴、騰訊、快手、小米、美團的技術專家探讨超大規模 Flink 叢集運維與大規模作業穩定性優化實踐等議題;機器學習專場也是由來自阿裡巴巴、京東、360 等技術專家呈現 Flink 機器學習的最新進展、具體應用實踐與最新技術落地案例。
點選連結了解完整大會議程:
https://Flink-forward.org.cn/生産實踐
阿裡超大規模 Flink 叢集運維體系介紹
王華|阿裡雲實時計算進階運維專家
在實時計算領域阿裡是最早一批全面擁抱 Flink 的公司,而且随着内部計算實時化大浪潮以及計算引擎 ALL IN Flink 的技術布局,使得阿裡擁有了近幾萬台超大規模 Flink 叢集,且承載了全集團和阿裡雲上極其重要、複雜豐富的實時計算業務場景。而運維這樣一個實時敏感、規模龐大的實時計算系統,其運維複雜度和技術深度已經和傳統大資料運維完全不能相提并論。
本次議題會揭秘阿裡 Flink 運維體系,包括已經較成熟的基礎運維部分,比如叢集穩定性 SLA、資源管理模型、作業全自動化運維管理等,也有正在不斷探索的智能運維進階部分,比如 Flink 作業智能診斷 & Advisor、基于雲原生叢集 AutoPolit 自愈服務等。
Flink 引擎在快手的深度優化與生産實踐
劉建剛|快手實時計算團隊技術專家
自 2018 年至今,Flink 在快手進行了多輪疊代和更新,在功能、性能、穩定性、易用性等方面得到了極大提升,服務于快手的電商、實時大屏、視訊推薦和直播等各類實時計算場景,得到了奧運、春晚等活動的洗禮。
本議題着眼于 Flink 引擎在快手生産實踐中的經驗,首先介紹 Flink 在各類複雜場景下容錯能力的提升,然後分享下 Flink 引擎的控制能力增強和優化實踐,最後再談一談我們在批處理方面的體驗、評測和優化。
大規模作業的穩定性優化實踐
邱從賢|騰訊資料平台進階開發工程師,Apache Flink Committer
Apache Flink 作為一個帶狀态的分布式計算架構,穩定性是很重要的一點,本次分享将從穩定性的定義,穩定性的分類,穩定性的挑戰和相應的解決方案進行介紹。
小米基于 Flink 的穩定性優化與實踐
張蛟|小米大資料部進階軟體工程師,Apache Flink Contributor
演講主要包括以下幾方面的内容:
- 小米實時計算平台的發展現狀;
- 小米在基于 Flink 的實時計算中遇到的各類穩定性問題及解決方法方案實踐;
- 重點業務支援;
- 後續的發展規劃,實時計算架構和提供實時基礎資料。
美團 Flink 大作業部署與狀态穩定性優化實踐
馮斐|美團資料平台計算引擎組工程師
王非凡|美團資料平台計算引擎工程師,Apache Flink Contributor
在美團,業務團隊使用實時資料的場景越來越多,實時計算的規模越來越大,這對實時計算引擎提出了更高的要求。為了能更好地支援 Flink 在生産環境中大規模應用,我們針對任務部署流程與運作時任務狀态,進行了擴充性和穩定性優化。我們将從這幾個方面介紹具體的優化實踐:
- 美團 Flink 大規模應用落地面臨的挑戰;
- Flink 任務部署流程優化;
- Flink 任務狀态穩定性優化;
- 未來規劃。
機器學習
Alink 新功能與典型案例
楊旭|阿裡巴巴資深算法專家
Alink 是基于 Flink 的流批一體的機器學習平台,提供的一系列算法,可以幫助處理各種機器學習任務,比如統計分析、機器學習、實時預測、個性化推薦和異常檢測。除了提供 Java API 也提供了 PyAlink,可以輕松部署到單機及叢集環境,通過 Jupyter、Zepplin 等 notebook 使用。機器學習算法平台降低了使用者使用機器學習、深度學習的門檻,将各個算法作為元件,即使不了解其後面的理論知識,使用者也可以根據示例嘗試新方法。
Alink、Tensorflow on Flink 在京東的應用
張穎|京東搜尋推薦算法工程師
劉露|京東搜尋推薦算法工程師
- 結合 Alink 實作實時模型訓練的 failover 政策、基于 PS 的模型冷啟動政策和模型熱切換政策、模型訓練基于狀态後端的 pretrain 政策、模型基于 Flink 的分布式政策等;
- Tensorflow on Flink 在京東的應用。
基于 Flink AI Flow 的機器學習工作流最佳實踐
姜鑫|阿裡巴巴進階工程師
蔣曉峰|阿裡巴巴技術專家,Apache RocketMQ & Apache ShardingSphere & SOFAJRaft Committer,Apache Flink Contributor
典型的機器學習工作流通常包含多個步驟,如源資料 ETL(抽取、轉化、加載),資料預處理,名額提取,模型訓練與交叉驗證,新資料預測等。在建構機器學習平台時,管理機器學習項目的整個生命周期成為痛點,需要引入機器學習工作流引擎幫助使用者标準化管理機器學習項目的整個生命周期。
Flink AI Flow 是一個大資料和人工智能橋接的開源架構,将整個機器學習項目生命周期作為一個統一的工作流進行管理,包括特征工程、模型訓練、模型評估、模型服務、模型推理、監控等。 在整個工作流中,Apache Flink 作為通用計算引擎,利用基于事件的排程程式即增強版本的 Apache Airflow,支援包含流作業的工作流,能夠覆寫機器學習全流程(從資料準備到模型訓練到模型部署)。
本次演講将介紹 Flink AI Flow 的基礎原理以及機器學習工作流基于 Flink AI Flow 的最佳實踐。
Clink:A C/C++ online feature serving solution for Flink
陳震|360 智能工程部總監
得益于 Flink 的批流一體機制和 Alink 豐富的機器學習算子庫,基于 Flink 生态的特征處理、特征生成和特征工程架構已在 360 多個業務線落地,但從基于 Java 棧的 Flink 生态上線到搜廣推業務中常見的 C/C++ 技術棧開發的特征服務的過程中,存在着語言不一緻,代碼重複開發,算子實作細節差異,一緻性難以保證、調試困難等問題。在這個背景下,我們與阿裡 Flink/Alink 團隊合作開發了 Clink。
Clink 主要包括三部分:
- 使用 C/C++ 開發了高性能的特征工程算子庫 libclink ,可被 Flink/Alink 直接調用,解決程式設計語言和算子實作細節不一緻的問題;
- 一套基于配置檔案的特征工程 pipeline 引擎,該配置檔案可在 Flink/Alink 直接導入導出;
- Clink 的 pipeline 可被 Clink-Serving,一個基于 bRPC 的高性能服務直接加載,啟動為微服務架構的特征工程服務。
通過 Clink,可有效解決機器學習特征工程流程中存在的代碼重複開發和一緻性等問題。目前 Clink 已在 360 部分業務正式上線,基本上實作了 “Batch-Steaming-Online” 特征工程的一緻性保證,較好地提升了算法疊代的效率。此外,Clink 也于近期完成了初步開源,希望能幫助到有類似需求的公司和團隊。
伯努利:結構化的工業級流式機器學習系統@阿裡媽媽
姜碧野|阿裡媽媽算法平台與效能架構團隊進階算法專家
本次演講将基于團隊在 DLP-KDD2021 Workshop 上發表的論文:《What Do We Need for Industrial Machine Learning Systems? Bernoulli, A Streaming System with Structured Designs》 主要講述在搜尋推薦廣告這種網際網路場景下,面對不斷流入的曝光點選資料,如何基于 Blink/Flink 流式處理引擎,配合特征計算和後端的分布式訓練引擎,實時完成樣本生成和模型訓練更新。并探讨如何利用結構化特性,建立高效的流式機器學習疊代體系。
演講主要分為幾個部分:結構化的流式樣本處理、子產品化訓練和資源複用、流式機器學習疊代體系。本系統已經在阿裡巴巴廣告業務實際落地并全量部署,通過流式疊代(相比于批處理的天級疊代)極大地提高了算法工程師的實驗疊代效率。
以上為 Flink Forward Asia 2021 生産實踐以及機器學習專場内容節選,了解更多大會詳情可點選下方連結:
Flink Forward Asia 2021 贊助與合作
首屆 Flink Forward Asia Hackathon 正式啟動,10W 獎金等你來!
歡迎進入賽事官網了解詳情:
https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon更多 Flink 相關技術問題,可掃碼加入社群釘釘交流群
第一時間擷取最新技術文章和社群動态,請關注公衆号~
活動推薦
阿裡雲基于 Apache Flink 建構的企業級産品-實時計算Flink版現開啟活動:
99 元試用
實時計算Flink版(包年包月、10CU)即有機會獲得 Flink 獨家定制衛衣;另包 3 個月及以上還有 85 折優惠!
了解活動詳情:
https://www.aliyun.com/product/bigdata/sc