資料蔣堂 | 有序分組

我們知道，SQL延用了數學上的無序集合概念，是以SQL的分組并不關注過待分組集合中成員的次序。我們在前面讨論過的等值分組和非等值分組，也都沒有關注過這個問題，分組規則都是建立在本身的成員取值本身上。但如果我們要拓展SQL，以有序集合為考慮對象時，那就必須考慮成員次序對分組的影響了，而且，現實業務中有大量的有序分組應用場景。

一個簡單的例子：将一個班的學生平均分成三份（假定人數能被3整除）。按我們在前面所說的分組定義，這也可以看成是一種分組，但這個運算在SQL中卻很難寫出來，因為分組依據和成員取值沒有關系。

如果使用我們在前面講有序周遊文法時的#符号，這個問題就很容易解決了。

用SQL實作這個運算就麻煩很多，需要先用子查詢造出一個序号，然後再執行類似的分組規則。

上面這個例子中其實還沒有真正關注成員的次序，隻是說明了序号的作用，當待分組集合的成員是其它次序時也可以得到可用的結果。

我們再看更多例子。

處理文本日志時，有些日志的基本機關不是1行，而可能是3行，即每個事件總是寫出3行文本，這并不是多罕見的情況。對付這種日志時，就需要把文本每3行拆成一個分組子集，然後針對每個分組再進行詳細的分析處理。這時要正确的分組運算就必須依賴于待分組集合中成員（文本日志的行）的次序了。

入學考試之後，把學生按成績排序蛇行分拆成兩個班，即名次1,4,5,8,...在一個班，而2,3,6,7,...在另一個班，這樣能保證兩個班的平均名次是相同的。這個分組也可以用序号做出來：

這裡用的分組值不再是常見的普通數值，而是一個布爾量，相當于按“真“值和“假”值分成兩個組，真值對應第一個班，假值對應另一個班。本質上講，這還是個等值分組，隻是用到的分組值可以是任意泛型。

顯然，這個分組的正确性也嚴重依賴于待分組集合的成員次序。

順便說一句，這又是一個隻關注分組子集而不關心聚合值的例子。

按序号分組在很多情況下就是用序号來計算出分組依據，然後就變成普通的等值分組了。那麼有沒有不能簡單地轉換成等值分組的情況呢？

有一組嬰兒出生記錄，是按出生次序排序的，我們現在關心連續出生的同性别嬰兒數量超過5的有多少批？

簡單想，這就是先GROUP，計算每組COUNT值，然後數出有幾個大于5的。後兩步很簡單，問題是怎麼GROUP？

直接按嬰兒性别分組當然是不對的，必須考慮次序，依次掃描記錄，當嬰兒性别發生變化時則産生一個新組。這種分組顯然沒法直接用等值分組做出來了。

我們可以提供一個有序分組方法來實作這種分組：當考察值發生變化時就産生一個新的分組。

用SQL就麻煩很多，需要先造成中間标志和變量來生成組的序号，大概是這樣

這樣的SQL，看懂都不是很容易的。而且必須借助birthday這種字段來形成次序，而前述的有序分組寫法在原資料有序時根本用不着這個資訊。

這種場景同樣可能出現在文本分析中。每個使用者的事件日志可能有多行，而且行數不确定，但寫日志時會在每個行開始處寫上使用者号。這樣我們可以按這個使用者号進行有序分組，它變化時就說明是另一個使用者的事件了。

即使是普通的等值分組，如果事先知道原集合對分組字段有序，也可以使用這種方案來實施，這将獲得更高的性能，比資料庫常用的HASH分組方案要快得多，而且特别适合大資料周遊的情況。

再看一個著名的問題：一支股票最長連續上漲了多少天？

這個問題當然可以直接周遊去解決，不過我們現在用分組的思路來處理，至少在SQL體系下隻能這麼做（嚴格些說，這是目前找到的最簡單可行的辦法）。

将股票收盤價按日期排序，然後将連續上漲的日期分到同一組，這樣隻要考慮哪一組成員數最多即可。更明确地說，就是當某天上漲了，就把這一天和前一天分到一個組中，某天下跌了，則産生一個新組。

用SQL實作這個思路，同樣需要用中間标志和變量來生成組序号：

如果有專門的有序分組方法以及以前說過的有序周遊文法，這個運算就很簡單了：

與SQL不同，雖然實作思路完全一樣，但寫出來是分步的，而不是一個多層嵌套語句，并且書寫和了解都要容易得多。

同樣地，這種場景也會在文本分析中有用。不确定行數的日志中，有時會在事件開始時寫一個标志串，當掃描到這個标志串的時候就産生一個新的分組，有序分析的條件可設定為目前掃描行和指定文字相同，這樣就能保證同一事件的日志資訊在同一個組中。

後兩種有序分組的情況，理論上當然也可以轉換成等值分組來處理（用SQL就要這麼做，這也能從另一個側面說明SQL運算體系的完備性），但确實是相當麻煩的，是以我們一般不把它再當成等值分組來處理了。

到目前為止的分組讨論，都是假定待分組集合已經準備好，其成員可以被随機通路到。但假設資料量巨大而不能全部讀入時，如果繼續做這種假定，會導緻頻繁的外存交換而性能極差，這時需要再設計以流方式邊讀入邊分組并且邊聚合的運算體系。事實上日志分析中更常見的是這種情況，這些問題我們将再撰文研究，但基本方法思路仍然離不開上面這些内容。

清華大學計算機碩士，著有《非線性報表模型原理》等，1989年，中國首個國際奧林匹克數學競賽團體冠軍成員，個人金牌；2000年，創立潤乾公司；2004年，首次在潤乾報表中提出非線性報表模型，完美解決了中國式複雜報表制表難題，目前該模型已經成為報表行業的标準；2014年，經過7年開發，潤乾軟體釋出不依賴關系代數模型的計算引擎——集算器，有效地提高了複雜結構化大資料計算的開發和運算效率；2015年，潤乾軟體被福布斯中文網站評為“2015福布斯中國非上市潛力企業100強”；2016年，榮獲中國電子資訊産業發展研究院評選的“2016年中國軟體和資訊服務業十大領軍人物”；2017年, 自主創新研發新一代的資料倉庫、雲資料庫等産品即将面世。

《資料蔣堂》的作者蔣步星，從事資訊系統建設和資料處理長達20多年的時間。他豐富的工程經驗與深厚的理論功底互相融合、創新思想與傳統觀念的互相碰撞，虛拟與現實的互相交織，産生出了一篇篇的瀝血之作。此連載的内容涉及從資料呈現、采集到加工計算再到存儲以及挖掘等各個方面。大可觀資料世界之遠景、小可看技術疑難之細節。針對資料領域一些技術難點，站在研發人員的角度從淺入深，進行全方位、360度無死角深度剖析；對于一些業内觀點，站在技術人員角度闡述自己的思考和了解。蔣步星還會對大資料的發展，站在業内專家角度給予預測和推斷。靜下心來認真研讀你會發現，《資料蔣堂》的文章，有的會讓使用者避免重複前人走過的彎路，有的會讓攻城獅面對紮心的難題茅塞頓開，有的會為初入行業的讀者提供一把開啟資料世界的鑰匙，有的甚至會讓業内專家大跌眼鏡，産生思想交鋒。

原文釋出時間為：2017-10-14

本文作者：蔣步星

本文來自雲栖社群合作夥伴“資料派THU”，了解相關資訊可以關注“資料派THU”微信公衆号

資料蔣堂 | 有序分組

繼續閱讀

Sql優化一：sql語句優化

SQL優化SQL語句優化的目的

Nacos 2.0 更新前後性能對比壓測

JAVA高效程式設計指南

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark