ABAP 740從2013年釋出至今已經過去很長的時間了,下面這張圖來自SAP社群部落格:
ABAP News for Release 7.40 – What is ABAP 7.40?
圖中的ABAP 8.0, 即現在的SAP Cloud for Customer和Business By Design背景使用的ABAP版本NGAP - Next Generation ABAP Platform,裡面存在不少隻在8.0版本可用的關鍵字和語言特性。
因為C4C和BYD的ABAP背景,客戶和partners們是無法通路的,是以咱們回到ABAP 740這個版本。從該版本開始,ABAP支援了很多新的關鍵字和文法特性,“看起來有點不像傳統的ABAP程式設計語言了”。
本文咱們就來看一個具體的例子:ABAP 740裡的一個新關鍵字REDUCE. 這個關鍵字的作用和在大規模資料集并行計算領域裡廣泛使用的"Map-Reduce"程式設計模型中的Reduce操作類似,可以按照字面意思了解為“歸約”。
下圖是Map Reduce架構的工作步驟,統計一個海量輸入資料集(比如大于1TB)中的單詞出現次數。作為ABAP開發人員,我們沒必要了解Map Reduce架構的每個執行步驟,隻需緊盯架構的輸入,以及執行結果就行了。
回到Jerry接受的實際工作任務。德國同僚讓Jerry在某個CRM測試系統上做個統計,列出在資料庫表CRM_JSTO裡,OBTYP(Object Type)和STSMA(Status Schema)這兩列擁有相同值的内表行的個數。大家可以把"OBTYP和STSMA兩列具有相同值的内表行"類比成上圖中重複出現的單詞。
下圖是CRM_JSTO的部分行:
下圖是Jerry完成的任務: 測試系統上内表一共有55多萬行,其中有90279行,隻維護了OBTYP為TGP,而沒有維護STSMA. 排名第二的是COH和CRMLEAD的組合,出現了78722次。
稍稍做過一些ABAP開發的朋友們,一定會立即寫出下面的代碼:
利用SELECT COUNT直接在資料庫層完成統計工作。這也是SAP推薦的做法,所謂Code pusudown準則,即能放到HANA資料庫層面進行的操作,就盡量放進去,以充分利用HANA強大的計算能力。在資料庫能夠完成計算邏輯的前提下,盡量避免把計算邏輯放到Netweaver ABAP應用層去做。
不過,我們也需要注意到這種方式的局限性。Jerry之前曾經引用過SAP CTO的名言:
There is no future with ABAP alone
There is no future in SAP without ABAP
未來的ABAP會走向開放,互聯的道路。回到這個需求本身,假設待檢索的輸入資料不是從ABAP資料庫表中來,而是來自HTTP請求,或者第三方系統發過來的IDOC,此時我們無法再使用OPEN SQL本身的SELECT COUNT操作,而隻能在ABAP應用層解決這個問題。
所謂技多不壓身,Jerry這裡介紹兩種用ABAP完成這個需求的方式。
第一種方式比較傳統,實作在方法get_result_traditional_way裡:
ABAP的LOOP AT GROUP BY這個關鍵字組合簡直就像是為這個需求量身定做一般:給GROUP BY指定obtyp和stsma這兩列,然後LOOP AT會自動将輸入内表的行記錄根據這兩列的值進行分組,每組行記錄的個數通過關鍵字GROUP SIZE自動計算出來,每組各自的obtyp和stsma的值,以及組内行記錄的條目數,存儲在REFERENCE INTO指定的變量group_ref裡。ABAP顧問需要做的事情,隻是簡單地把這些結果存儲到輸出内表即可。
第二種辦法,就是本文标題所述,使用ABAP 740新的REDUCE關鍵字:
上面的代碼乍一看可能覺得有點晦澀,但仔細閱讀後發現這種方式本質上也采用了和方法一LOOP AT GROUP BY同樣的分組政策——根據obtyp和stsma分組,這些子組通過變量辨別,然後通過第10行的REDUCE關鍵字,通過累加的方式,手動計算這個組的條目數——把一個大的輸入集根據GROUP BY指定的條件歸約成一個個規模更小的子集,然後分别針對子集進行計算——這就是REDUCE關鍵字通過字面含義傳遞給ABAP開發人員的處理思想。
總結和比較一下這三種實作方式:當待統計的資料源為ABAP資料庫表時,一定優先選用OPEN SQL的方式,使計算邏輯在資料庫層完成,以獲得最佳的性能。
當資料源并非ABAP資料庫表,而分組統計的需求為簡單的計數操作(COUNT)時, 優先用LOOP AT … GROUP BY … GROUP SIZE,使得計數操作通過GROUP SIZE在ABAP kernel完成,以獲得較好的性能。
當資料源并非ABAP資料庫表,而分組統計的需求為自定義的邏輯時,用本文介紹的第三種REDUCE解法,将自定義統計邏輯寫在第11行的NEXT關鍵字後。
這三種解法的性能依次遞減,不過适用的場合和靈活程度依次遞增。
LOOP AT … GROUP BY … GROUP SIZE,在Jerry的伺服器上處理55萬條記錄,用了0.3秒,而REDUCE則需花費0.8秒。
本文提到的所有ABAP代碼均可從我的SAP部落格獲得:
A real case to use REDUCE to finish a task in daily work