1. Group By 語句簡介:
Group By語句從英文的字面意義上了解就是“根據(by)一定的規則進行分組(Group)”。它的作用是通過一定的規則将一個資料集劃分成若幹個小的區域,然後針對若幹個小區域進行資料處理。
P.S. 這裡真是體會到了一個好的命名的力量,Group By從字面是直接去了解是非常好了解的。恩,以後在命名的環節一定要加把勁:)。話題扯遠了。
2. Group By 的使用:
上面已經給出了對Group By語句的了解。基于這個了解和SQL Server 2000的聯機幫助,下面對Group By語句的各種典型使用進行依次列舉說明。
2.1 Group By [Expressions]:
這個恐怕是Group By語句最常見的用法了,Group By + [分組字段](可以有多個)。在執行了這個操作以後,資料集将根據分組字段的值将一個資料集劃分成各個不同的小組。比如有如下資料集,其中水果名稱(FruitName)和出産國家(ProductPlace)為聯合主鍵:
FruitName ProductPlace Price
Apple China $1.1
Apple Japan $2.1
Apple USA $2.5
Orange China $0.8
Banana China $3.1
Peach USA $3.0
如果我們想知道每個國家有多少種水果,那麼我們可以通過如下SQL語句來完成:
SELECT COUNT(*) AS 水果種類, ProductPlace AS 出産國
FROM T_TEST_FRUITINFO
GROUP BY ProductPlace
這個SQL語句就是使用了Group By + 分組字段的方式,那麼這句SQL語句就可以解釋成“我按照出産國家(ProductPlace)将資料集進行分組,然後分别按照各個組來統計各自的記錄數量。”很好了解對吧。這裡值得注意的是結果集中有兩個傳回字段,一個是ProductPlace(出産國), 一個是水果種類。如果我們這裡水果種類不是用Count(*),而是類似如下寫法的話:
SELECT FruitName, ProductPlace FROM T_TEST_FRUITINFO GROUP BY ProductPlace
那麼SQL在執行此語句的時候會報如下的類似錯誤:
選擇清單中的列 ’T_TEST_FRUITINFO.FruitName’ 無效,因為該列沒有包含在聚合函數或 GROUP BY 子句中。
這就是我們需要注意的一點,如果在傳回集字段中,這些字段要麼就要包含在Group By語句的後面,作為分組的依據;要麼就要被包含在聚合函數中。我們可以将Group By操作想象成如下的一個過程,首先系統根據SELECT 語句得到一個結果集,如最開始的那個水果、出産國家、單價的一個詳細表。然後根據分組字段,将具有相同分組字段的記錄歸并成了一條記錄。這個時候剩下的那些不存在于Group By語句後面作為分組依據的字段就有可能出現多個值,但是目前一種分組情況隻有一條記錄,一個資料格是無法放入多個數值的,是以這裡就需要通過一定的處理将這些多值的列轉化成單值,然後将其放在對應的資料格中,那麼完成這個步驟的就是聚合函數。這就是為什麼這些函數叫聚合函數(aggregate functions)了。
2.2 Group By All [expressions] :
Group By All + 分組字段, 這個和前面提到的Group By [Expressions]的形式多了一個關鍵字ALL。這個關鍵字隻有在使用了where語句的,且where條件篩選掉了一些組的情況才可以看出效果。在SQL Server 2000的聯機幫助中,對于Group By All是這樣進行描述的:
如果使用 ALL 關鍵字,那麼查詢結果将包括由 GROUP BY 子句産生的所有組,即使某些組沒有符合搜尋條件的行。沒有 ALL 關鍵字,包含 GROUP BY 子句的 SELECT 語句将不顯示沒有符合條件的行的組。
其中有這麼一句話“如果使用ALL關鍵字,那麼查詢結果将包含由Group By子句産生的所有組…沒有ALL關鍵字,那麼不顯示不符合條件的行組。”這句話聽起來好像挺耳熟的,對了,好像和LEFT JOIN 和 RIGHT JOIN 有點像。其實這裡是類比LEFT JOIN來進行了解的。還是基于如下這樣一個資料集:
FruitName ProductPlace Price
Apple China $1.1
Apple Japan $2.1
Apple USA $2.5
Orange China $0.8
Banana China $3.1
Peach USA $3.0
首先我們不使用帶ALL關鍵字的Group By語句:
SELECT COUNT(*) AS 水果種類, ProductPlace AS 出産國
FROM T_TEST_FRUITINFO
WHERE (ProductPlace <> ’Japan’)
GROUP BY ProductPlace
那麼在最後結果中由于Japan不符合where語句,是以分組結果中将不會出現Japan。
現在我們加入ALL關鍵字:
SELECT COUNT(*) AS 水果種類, ProductPlace AS 出産國
FROM T_TEST_FRUITINFO
WHERE (ProductPlace <> ’Japan’)
GROUP BY ALL ProductPlace
重新運作後,我們可以看到Japan的分組,但是對應的“水果種類”不會進行真正的統計,聚合函數會根據傳回值的類型用預設值0或者NULL來代替聚合函數的傳回值。
2.3 GROUP BY [Expressions] WITH CUBE | ROLLUP:
首先需要說明的是Group By All 語句是不能和CUBE 和 ROLLUP 關鍵字一起使用的。
首先先說說CUBE關鍵字,以下是SQL Server 2000聯機幫助中的說明:
指定在結果集内不僅包含由 GROUP BY 提供的正常行,還包含彙總行。在結果集内傳回每個可能的組和子組組合的 GROUP BY 彙總行。GROUP BY 彙總行在結果中顯示為 NULL,但可用來表示所有值。使用 GROUPING 函數确定結果集内的空值是否是 GROUP BY 彙總值。
結果集内的彙總行數取決于 GROUP BY 子句内包含的列數。GROUP BY 子句中的每個操作數(列)綁定在分組 NULL 下,并且分組适用于所有其它操作數(列)。由于 CUBE 傳回每個可能的組和子組組合,是以不論指定分組列時所使用的是什麼順序,行數都相同。
我們通常的Group By語句是按照其後所跟的所有字段進行分組,而如果加入了CUBE關鍵字以後,那麼系統将根據所有字段進行分組的基礎上,還會通過對所有這些分組字段所有可能存在的組合形成的分組條件進行分組計算。由于上面舉的例子過于簡單,這裡就再适合了,現在我們的資料集将換一個場景,一個表中包含人員的基本資訊:員工所在的部門編号(C_EMPLINFO_DEPTID)、員工性别(C_EMPLINFO_SEX)、員工姓名(C_EMPLINFO_NAME)等。那麼我現在想知道每個部門各個性别的人數,那麼我們可以通過如下語句得到:
SELECT C_EMPLINFO_DEPTID, C_EMPLINFO_SEX, COUNT(*) AS C_EMPLINFO_TOTALSTAFFNUM
FROM T_PERSONNEL_EMPLINFO
GROUP BY C_EMPLINFO_DEPTID, C_EMPLINFO_SEX
但是如果我現在希望知道:
1. 所有部門有多少人(這裡相當于就不進行分組了,因為這裡已經對員工的部門和性别沒有做任何限制了,但是這的确也是一種分組條件的組合方式);
2. 每種性别有多人(這裡實際上是僅僅根據性别(C_EMPLINFO_SEX)進行分組);
3. 每個部門有多少人(這裡僅僅是根據部門(C_EMPLINFO_DEPTID)進行分組);那麼我們就可以使用ROLLUP語句了。
SELECT C_EMPLINFO_DEPTID, C_EMPLINFO_SEX, COUNT(*) AS C_EMPLINFO_TOTALSTAFFNUM
FROM T_PERSONNEL_EMPLINFO
GROUP BY C_EMPLINFO_DEPTID, C_EMPLINFO_SEX WITH CUBE
那麼這裡你可以看到結果集中多出了很多行,而且結果集中的某一個字段或者多個字段、甚至全部的字段都為NULL,請仔細看一下你就會發現實際上這些記錄就是完成了上面我所列舉的所有統計資料的展現。使用過SQL Server 2005或者RDLC的朋友們一定對于矩陣的小計和分組功能有印象吧,是不是都可以通過這個得到答案。我想RDLC中對于分組和小計的計算就是通過Group By的CUBE和ROLLUP關鍵字來實作的。(個人意見,未證明)
CUBE關鍵字還有一個極為相似的兄弟ROLLUP, 同樣我們先從這英文入手,ROLL UP是“向上卷”的意思,如果說CUBE的組合是絕對自由的,那麼ROLLUP的組合就需要有點限制了。我們先來看看SQL Server 2000的聯機中對ROLLUP關鍵字的定義:
指定在結果集内不僅包含由 GROUP BY 提供的正常行,還包含彙總行。按層次結構順序,從組内的最低級别到最進階别彙總組。組的層次結構取決于指定分組列時所使用的順序。更改分組列的順序會影響在結果集内生成的行數。
那麼這個順序是什麼呢?對了就是Group By 後面字段的順序,排在靠近Group By的分組字段的級别高,然後是依次遞減。如:Group By Column1, Column2, Column3。那麼分組級别從高到低的順序是:Column1 > Column2 > Column3。還是看我們前面的例子,SQL語句中我們僅僅将CUBE關鍵字替換成ROLLUP關鍵字,如:
SELECT C_EMPLINFO_DEPTID, C_EMPLINFO_SEX, COUNT(*) AS C_EMPLINFO_TOTALSTAFFNUM
FROM T_PERSONNEL_EMPLINFO
GROUP BY C_EMPLINFO_DEPTID, C_EMPLINFO_SEX WITH ROLLUP
和CUBE相比,傳回的資料行數減少了不少。:),仔細看一下,除了正常的Group By語句後,資料中還包含了:
1. 部門員工數;(向上卷了一次,這次先去掉了員工性别的分組限制)
2. 所有部門員工數;(向上又卷了依次,這次去掉了員工所在部門的分組限制)。
在現實的應用中,對于報表的一些統計功能是很有幫助的。
這裡還有一個問題需要補充說明一下,如果我們使用ROLLUP或者CUBE關鍵字,那麼将産生一些小計的行,這些行中被剔除在分組因素之外的字段将會被設定為NULL,那麼還存在一種情況,比如在作為分組依據的清單中存在可空的行,那麼NULL也會被作為一個分組表示出來,是以這裡我們就不能僅僅通過NULL來判斷是不是小計記錄了。下面的例子展示了這裡說得到的情況。還是我們前面提到的水果例子,現在我們在每種商品後面增加一個“折扣列”(Discount),用于顯示對應商品的折扣,這個數值是可空的,也就是可以通過NULL來表示沒有對應的折扣資訊。資料集如下所示:
FruitName ProductPlace Price Discount
Apple China $1.1 0.8
Apple Japan $2.1 0.9
Apple USA $2.5 1.0
Orange China $0.8 NULL
Banana China $3.1 NULL
Peach USA $3.0 NULL
現在我們要統計“各種折扣對應有多少種商品,并總計商品的總數。”,那麼我們可以通過如下的SQL語句來完成:
SELECT COUNT(*) AS ProductCount, Discount
FROM T_TEST_FRUITINFO
GROUP BY Discount WITH ROLLUP
好了,運作一下,你會發現資料都正常出來了,按照如上的資料集,結果如下所示:
ProductCount Discount
3 NULL
1 0.8
1 0.9
1 1.0
6 NULL
好了,各種折扣的商品數量都出來了,但是在顯示“沒有折扣商品”和“商品小計”的時候判斷上确存在問題,因為存在兩條Discount為Null的記錄。是哪一條呢?通過分析資料我們知道第一條資料(3, Null)應該對應沒有折扣商品的數量,而(6,Null)應該對應所有商品的數量。需要判斷這兩個具有不同意義的Null就需要引入一個聚合函數Grouping。現在我們把語句修改一下,在傳回值中使用Grouping函數增加一列傳回值,SQL語句如下:
SELECT COUNT(*) AS ProductCount, Discount, GROUPING(Discount) AS Expr1
FROM T_TEST_FRUITINFO
GROUP BY Discount WITH ROLLUP
這個時候,我們再看看運作的結果:
ProductCount Discount Expr1
3 NULL 0
1 0.8 0
1 0.9 0
1 1.0 0
6 NULL 1
對于根據指定字段Grouping中包含的字段進行小計的記錄,這裡會标記為1,我們就可以通過這個标記值将小計記錄從判斷那些由于ROLLUP或者CUBE關鍵字産生的行。Grouping(column_name)可以帶一個參數,Grouping就會去判斷對應的字段值的NULL是否是由ROLLUP或者CUBE産生的特殊NULL值,如果是那麼就在由Grouping聚合函數産生的新列中将值設定為1。注意Grouping隻會檢查Column_name對應的NULL來決定是否将值設定為1,而不是完全由此列是否是由ROLLUP或者CUBE關鍵字自動添加來決定的。
2.2 Group By 和 Having, Where ,Order by語句的執行順序:
最後要說明一下的Group By, Having, Where, Order by幾個語句的執行順序。一個SQL語句往往會産生多個臨時視圖,那麼這些關鍵字的執行順序就非常重要了,因為你必須了解這個關鍵字是在對應視圖形成前的字段進行操作還是對形成的臨時視圖進行操作,這個問題在使用了别名的視圖尤其重要。以上列舉的關鍵字是按照如下順序進行執行的:Where, Group By, Having, Order by。首先where将最原始記錄中不滿足條件的記錄删除(是以應該在where語句中盡量的将不符合條件的記錄篩選掉,這樣可以減少分組的次數),然後通過Group By關鍵字後面指定的分組條件将篩選得到的視圖進行分組,接着系統根據Having關鍵字後面指定的篩選條件,将分組視圖後不滿足條件的記錄篩選掉,然後按照Order By語句對視圖進行排序,這樣最終的結果就産生了。在這四個關鍵字中,隻有在Order By語句中才可以使用最終視圖的列名,如:
SELECT FruitName, ProductPlace, Price, ID AS IDE, Discount
FROM T_TEST_FRUITINFO
WHERE (ProductPlace = N’china’)
ORDER BY IDE
這裡隻有在ORDER BY語句中才可以使用IDE,其他條件語句中如果需要引用列名則隻能使用ID,而不能使用IDE。
頂