天天看點

白話空間統計之六:平均最近鄰

前面的文章裡面,我們看了很多關于距離、聚類的基本原理,從這一章開始,我們講一些具體的工具和算法。

前面我們用莫蘭指數、P值、Z得分啥的,可以得出一份資料是屬于離散、随機還是聚集,如果多份資料得出都是聚集的話,其中哪一份資料的聚集程度最高呢?這就需要一個具體的數值來進行量化。

當然Z得分能在一定程度上展現聚集度,不過他并非單純的在考慮空間上的聚集。是以就有了我們今天要講的一個算法(在ArcGIS裡面,叫做“Average NearestNeighbor”,在“空間統計工具箱”的“分析模式工具集裡面”):平均最近鄰。

平均最近鄰可以得出一份資料的具體聚集程度的指數,通過這個指數,可以對比不同資料中,哪個資料的聚集程度最大。

如下有兩份資料,都展現出的聚類分布,但是哪一份的聚類程度更高呢?特别是在不考慮屬性的情況下(很流氓的采用純粹的空間聚類模式)。

白話空間統計之六:平均最近鄰

那麼使用這個方法,就能夠計算出每份資料具體的聚類程度了,計算結果如下:

白話空間統計之六:平均最近鄰
白話空間統計之六:平均最近鄰

下面進行對比:

白話空間統計之六:平均最近鄰

從平均觀察距離和平均預期距離來看,兩者差距不大,其中資料一的平均觀察距離要大于資料二,而預期距離,資料一要小于資料二。

預期距離與整個資料的最大分布有關,也就是分布面積相關,那麼最後算出來的近鄰指數如下:

白話空間統計之六:平均最近鄰

兩份資料的近鄰指數都小于1,所表現的模式為聚類;反之,如果指數大于 1,則所表現的模式趨向于離散或競争。

指數越小,聚類程度越大,是以資料二的聚類程度要高于資料一。

這個種計算的原理是怎麼樣的呢?繼續往下看。

平均最近鄰工具,首先要假設一個在研究區域以内,随機分布的平均距離(記為De)。接下去測量每個 要素的質心,與他最近的那個要素的質心之間的距離;然後把這些測量之後的距離,計算他們的平均值(Do)。最後用Do/De,就得出了平均最近鄰指數。

如果De > Do,計算的指數小于1,那麼就表示這份資料的模式趨向于聚集。

如果De < Do,計算的指數大于1,那麼就表示這份資料的模式趨向于離散。

而這個指數,越接近1,就表示随機的幾率越大。

計算的方法如下:

首先假設在研究區域内,有n個點,研究區域的面積為A,那麼假設他們的平均預期距離的公式就是:

白話空間統計之六:平均最近鄰

例如,我們有3個點(這裡的點,一般取使用相同數量的要素覆寫相同的總面積),研究區域的面積為60,那麼

De =0.5/sqrt(3/60) = 2.23606797749979

然後計算實際資料的平均觀察距離,公式如下:

白話空間統計之六:平均最近鄰

其中di 是每個要素,與他最近的要素之間的距離,如下圖:

白話空間統計之六:平均最近鄰

Do = (4 +6 + 7) / 3 = 5.6667

接下去計算他們的平均最近鄰指數

ANN = 5.667/ 2.2361=2.5343

這個計算出來的值,遠遠大于1,超過了2倍多,那表現出來的就是處于離散模式了。

當然,還需要去計算z得分,在這種情況,z得分的計算公式如下:

白話空間統計之六:平均最近鄰

其中,SE的公式如下:

白話空間統計之六:平均最近鄰

如上面那份資料,計算出來的Z得分就是:

z =(5.6667-2.2361)/ (0.26136/(sqrt(3*3/60))=0.67482861824318 

根據我們以前說的P值和Z得分,z得分在1.65— -1.65之間,是在統計上呈現随機分布的趨勢。

好吧,給定的資料計算确實是很随機的,計算結果也證明我們給出的是一份随機資料。但是通過以上的計算,隻是想說明平均最近鄰的計算過程而已。

從我們上面的計算可以看出,平均最近鄰,對研究區域面積非常的敏感,稍微一有變化,計算結果就會有重大的影響(特别是P值和Z得分會劇烈變化)。是以我們最好在計算之前先指定一個固定的面積值。

如果不指定面積值,系統會預設采用你研究資料的最小外接矩形來決定你的研究面積,這樣計算出來的結果的可靠性,就會帶來更多的不确定性。如下所示:

白話空間統計之六:平均最近鄰

不指定固定面積的話,就會出現上面那種情況,區域發生了變化,計算出來的結果,也可能發生變化。

是以,平均最近鄰工具最适用于對固定研究區域中不同的要素進行比較。比如在同一城市範圍内,不同類型的企業之間的分布情況的研究;或者同一類型的企業,在固定區域以内,随着不同年份的變化情況的研究。

繼續閱讀