前面的文章裡面,我們看了很多關于距離、聚類的基本原理,從這一章開始,我們講一些具體的工具和算法。
前面我們用莫蘭指數、P值、Z得分啥的,可以得出一份資料是屬于離散、随機還是聚集,如果多份資料得出都是聚集的話,其中哪一份資料的聚集程度最高呢?這就需要一個具體的數值來進行量化。
當然Z得分能在一定程度上展現聚集度,不過他并非單純的在考慮空間上的聚集。是以就有了我們今天要講的一個算法(在ArcGIS裡面,叫做“Average NearestNeighbor”,在“空間統計工具箱”的“分析模式工具集裡面”):平均最近鄰。
平均最近鄰可以得出一份資料的具體聚集程度的指數,通過這個指數,可以對比不同資料中,哪個資料的聚集程度最大。
如下有兩份資料,都展現出的聚類分布,但是哪一份的聚類程度更高呢?特别是在不考慮屬性的情況下(很流氓的采用純粹的空間聚類模式)。
那麼使用這個方法,就能夠計算出每份資料具體的聚類程度了,計算結果如下:
下面進行對比:
從平均觀察距離和平均預期距離來看,兩者差距不大,其中資料一的平均觀察距離要大于資料二,而預期距離,資料一要小于資料二。
預期距離與整個資料的最大分布有關,也就是分布面積相關,那麼最後算出來的近鄰指數如下:
兩份資料的近鄰指數都小于1,所表現的模式為聚類;反之,如果指數大于 1,則所表現的模式趨向于離散或競争。
指數越小,聚類程度越大,是以資料二的聚類程度要高于資料一。
這個種計算的原理是怎麼樣的呢?繼續往下看。
平均最近鄰工具,首先要假設一個在研究區域以内,随機分布的平均距離(記為De)。接下去測量每個 要素的質心,與他最近的那個要素的質心之間的距離;然後把這些測量之後的距離,計算他們的平均值(Do)。最後用Do/De,就得出了平均最近鄰指數。
如果De > Do,計算的指數小于1,那麼就表示這份資料的模式趨向于聚集。
如果De < Do,計算的指數大于1,那麼就表示這份資料的模式趨向于離散。
而這個指數,越接近1,就表示随機的幾率越大。
計算的方法如下:
首先假設在研究區域内,有n個點,研究區域的面積為A,那麼假設他們的平均預期距離的公式就是:
例如,我們有3個點(這裡的點,一般取使用相同數量的要素覆寫相同的總面積),研究區域的面積為60,那麼
De =0.5/sqrt(3/60) = 2.23606797749979
然後計算實際資料的平均觀察距離,公式如下:
其中di 是每個要素,與他最近的要素之間的距離,如下圖:
Do = (4 +6 + 7) / 3 = 5.6667
接下去計算他們的平均最近鄰指數
ANN = 5.667/ 2.2361=2.5343
這個計算出來的值,遠遠大于1,超過了2倍多,那表現出來的就是處于離散模式了。
當然,還需要去計算z得分,在這種情況,z得分的計算公式如下:
其中,SE的公式如下:
如上面那份資料,計算出來的Z得分就是:
z =(5.6667-2.2361)/ (0.26136/(sqrt(3*3/60))=0.67482861824318
根據我們以前說的P值和Z得分,z得分在1.65— -1.65之間,是在統計上呈現随機分布的趨勢。
好吧,給定的資料計算确實是很随機的,計算結果也證明我們給出的是一份随機資料。但是通過以上的計算,隻是想說明平均最近鄰的計算過程而已。
從我們上面的計算可以看出,平均最近鄰,對研究區域面積非常的敏感,稍微一有變化,計算結果就會有重大的影響(特别是P值和Z得分會劇烈變化)。是以我們最好在計算之前先指定一個固定的面積值。
如果不指定面積值,系統會預設采用你研究資料的最小外接矩形來決定你的研究面積,這樣計算出來的結果的可靠性,就會帶來更多的不确定性。如下所示:
不指定固定面積的話,就會出現上面那種情況,區域發生了變化,計算出來的結果,也可能發生變化。
是以,平均最近鄰工具最适用于對固定研究區域中不同的要素進行比較。比如在同一城市範圍内,不同類型的企業之間的分布情況的研究;或者同一類型的企業,在固定區域以内,随着不同年份的變化情況的研究。