白話空間統計之六：平均最近鄰

前面的文章裡面，我們看了很多關于距離、聚類的基本原理，從這一章開始，我們講一些具體的工具和算法。

前面我們用莫蘭指數、P值、Z得分啥的，可以得出一份資料是屬于離散、随機還是聚集，如果多份資料得出都是聚集的話，其中哪一份資料的聚集程度最高呢？這就需要一個具體的數值來進行量化。

當然Z得分能在一定程度上展現聚集度，不過他并非單純的在考慮空間上的聚集。是以就有了我們今天要講的一個算法（在ArcGIS裡面，叫做“Average NearestNeighbor”，在“空間統計工具箱”的“分析模式工具集裡面”）：平均最近鄰。

平均最近鄰可以得出一份資料的具體聚集程度的指數，通過這個指數，可以對比不同資料中，哪個資料的聚集程度最大。

如下有兩份資料，都展現出的聚類分布，但是哪一份的聚類程度更高呢？特别是在不考慮屬性的情況下（很流氓的采用純粹的空間聚類模式）。

那麼使用這個方法，就能夠計算出每份資料具體的聚類程度了，計算結果如下：

下面進行對比：

從平均觀察距離和平均預期距離來看，兩者差距不大，其中資料一的平均觀察距離要大于資料二，而預期距離，資料一要小于資料二。

預期距離與整個資料的最大分布有關，也就是分布面積相關，那麼最後算出來的近鄰指數如下：

兩份資料的近鄰指數都小于1，所表現的模式為聚類；反之，如果指數大于 1，則所表現的模式趨向于離散或競争。

指數越小，聚類程度越大，是以資料二的聚類程度要高于資料一。

這個種計算的原理是怎麼樣的呢？繼續往下看。

平均最近鄰工具，首先要假設一個在研究區域以内，随機分布的平均距離（記為De）。接下去測量每個要素的質心，與他最近的那個要素的質心之間的距離；然後把這些測量之後的距離，計算他們的平均值（Do）。最後用Do/De，就得出了平均最近鄰指數。

如果De > Do，計算的指數小于1，那麼就表示這份資料的模式趨向于聚集。

如果De < Do，計算的指數大于1，那麼就表示這份資料的模式趨向于離散。

而這個指數，越接近1，就表示随機的幾率越大。

計算的方法如下：

首先假設在研究區域内，有n個點，研究區域的面積為A，那麼假設他們的平均預期距離的公式就是：

例如，我們有3個點（這裡的點，一般取使用相同數量的要素覆寫相同的總面積），研究區域的面積為60，那麼

De =0.5/sqrt(3/60) = 2.23606797749979

然後計算實際資料的平均觀察距離，公式如下：

其中di 是每個要素，與他最近的要素之間的距離，如下圖：

Do = (4 +6 + 7) / 3 = 5.6667

接下去計算他們的平均最近鄰指數

ANN = 5.667/ 2.2361=2.5343

這個計算出來的值，遠遠大于1，超過了2倍多，那表現出來的就是處于離散模式了。

當然，還需要去計算z得分，在這種情況，z得分的計算公式如下：

其中，SE的公式如下：

如上面那份資料，計算出來的Z得分就是：

z =（5.6667-2.2361）/ （0.26136/(sqrt(3*3/60))=0.67482861824318

根據我們以前說的P值和Z得分，z得分在1.65— -1.65之間，是在統計上呈現随機分布的趨勢。

好吧，給定的資料計算确實是很随機的，計算結果也證明我們給出的是一份随機資料。但是通過以上的計算，隻是想說明平均最近鄰的計算過程而已。

從我們上面的計算可以看出，平均最近鄰，對研究區域面積非常的敏感，稍微一有變化，計算結果就會有重大的影響（特别是P值和Z得分會劇烈變化）。是以我們最好在計算之前先指定一個固定的面積值。

如果不指定面積值，系統會預設采用你研究資料的最小外接矩形來決定你的研究面積，這樣計算出來的結果的可靠性，就會帶來更多的不确定性。如下所示：

不指定固定面積的話，就會出現上面那種情況，區域發生了變化，計算出來的結果，也可能發生變化。

是以，平均最近鄰工具最适用于對固定研究區域中不同的要素進行比較。比如在同一城市範圍内，不同類型的企業之間的分布情況的研究；或者同一類型的企業，在固定區域以内，随着不同年份的變化情況的研究。

白話空間統計之六：平均最近鄰

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

C#+ArcEngine代碼檢測ArcEngine Runtime是否安裝以及是否授權

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希