前面的文章里面,我们看了很多关于距离、聚类的基本原理,从这一章开始,我们讲一些具体的工具和算法。
前面我们用莫兰指数、P值、Z得分啥的,可以得出一份数据是属于离散、随机还是聚集,如果多份数据得出都是聚集的话,其中哪一份数据的聚集程度最高呢?这就需要一个具体的数值来进行量化。
当然Z得分能在一定程度上体现聚集度,不过他并非单纯的在考虑空间上的聚集。所以就有了我们今天要讲的一个算法(在ArcGIS里面,叫做“Average NearestNeighbor”,在“空间统计工具箱”的“分析模式工具集里面”):平均最近邻。
平均最近邻可以得出一份数据的具体聚集程度的指数,通过这个指数,可以对比不同数据中,哪个数据的聚集程度最大。
如下有两份数据,都体现出的聚类分布,但是哪一份的聚类程度更高呢?特别是在不考虑属性的情况下(很流氓的采用纯粹的空间聚类模式)。
那么使用这个方法,就能够计算出每份数据具体的聚类程度了,计算结果如下:
下面进行对比:
从平均观察距离和平均预期距离来看,两者差距不大,其中数据一的平均观察距离要大于数据二,而预期距离,数据一要小于数据二。
预期距离与整个数据的最大分布有关,也就是分布面积相关,那么最后算出来的近邻指数如下:
两份数据的近邻指数都小于1,所表现的模式为聚类;反之,如果指数大于 1,则所表现的模式趋向于离散或竞争。
指数越小,聚类程度越大,所以数据二的聚类程度要高于数据一。
这个种计算的原理是怎么样的呢?继续往下看。
平均最近邻工具,首先要假设一个在研究区域以内,随机分布的平均距离(记为De)。接下去测量每个 要素的质心,与他最近的那个要素的质心之间的距离;然后把这些测量之后的距离,计算他们的平均值(Do)。最后用Do/De,就得出了平均最近邻指数。
如果De > Do,计算的指数小于1,那么就表示这份数据的模式趋向于聚集。
如果De < Do,计算的指数大于1,那么就表示这份数据的模式趋向于离散。
而这个指数,越接近1,就表示随机的几率越大。
计算的方法如下:
首先假设在研究区域内,有n个点,研究区域的面积为A,那么假设他们的平均预期距离的公式就是:
例如,我们有3个点(这里的点,一般取使用相同数量的要素覆盖相同的总面积),研究区域的面积为60,那么
De =0.5/sqrt(3/60) = 2.23606797749979
然后计算实际数据的平均观察距离,公式如下:
其中di 是每个要素,与他最近的要素之间的距离,如下图:
Do = (4 +6 + 7) / 3 = 5.6667
接下去计算他们的平均最近邻指数
ANN = 5.667/ 2.2361=2.5343
这个计算出来的值,远远大于1,超过了2倍多,那表现出来的就是处于离散模式了。
当然,还需要去计算z得分,在这种情况,z得分的计算公式如下:
其中,SE的公式如下:
如上面那份数据,计算出来的Z得分就是:
z =(5.6667-2.2361)/ (0.26136/(sqrt(3*3/60))=0.67482861824318
根据我们以前说的P值和Z得分,z得分在1.65— -1.65之间,是在统计上呈现随机分布的趋势。
好吧,给定的数据计算确实是很随机的,计算结果也证明我们给出的是一份随机数据。但是通过以上的计算,只是想说明平均最近邻的计算过程而已。
从我们上面的计算可以看出,平均最近邻,对研究区域面积非常的敏感,稍微一有变化,计算结果就会有重大的影响(特别是P值和Z得分会剧烈变化)。所以我们最好在计算之前先指定一个固定的面积值。
如果不指定面积值,系统会默认采用你研究数据的最小外接矩形来决定你的研究面积,这样计算出来的结果的可靠性,就会带来更多的不确定性。如下所示:
不指定固定面积的话,就会出现上面那种情况,区域发生了变化,计算出来的结果,也可能发生变化。
所以,平均最近邻工具最适用于对固定研究区域中不同的要素进行比较。比如在同一城市范围内,不同类型的企业之间的分布情况的研究;或者同一类型的企业,在固定区域以内,随着不同年份的变化情况的研究。