✅ 操作成功!

空间分布特征

发布时间:2023-06-06 作者:admin 来源:文学

空间分布特征

空间分布特征

小脸型适合什么样的发型图片-柱式轮廓标

2023年2月21日发(作者:母亲的故事)

实习序号和题目空间分布模式与空间相关分析

实习人专业及编号

实习目的:

熟悉和掌握SpatialStatisticsTools里的基本工具,对所给数据进行空间分析。

实习内容:

1.参考文献《多尺度人口增长的空间统计分析》,练习多距离L(d)、全局

Moran’I与G*统计量分析,显著性检验的置信区间定义为90%;

2.对adabg00数据进行全局与局部的moranI与G统计量分析;

3.对deer数据进行基于距离的最近邻分析与L(d)分析;

实习数据:

1.省区.shp:中国各省分布图

2.各省第5次和第6次人口普查:各省人口普查数据

:鹿场点分布图

:爱达荷州阿达各街区2000年人口普查数据

基本原理:

空间分布的模式一般来说,有三种,分别是离散、随机、和聚合。离散的

概念就是指观测的每个数据之间的差异程度,离散程度越大,差异性就越大。

聚合与离散正好相反,表示在一定区域内的相关程度,就是聚合程度越大,相

关性就越大。随机是纯粹的无模式,既不能从随机数据中获取结论,也发现不

了规律和模式。

1.零假设(nullhypothesis):指进行统计检验时预先建立的假设。在空间

统计中,零假设指的就是空间位置在一定区域里面呈现完全随机(均匀)分

布。在检验结果之前,先对这些结果假设一个数值区间,这个区间一般是符合

某种概率分布的情况,如果真实结果偏离了设定的区间,就表示发生了小概率

事件。这样原来的假设就不成立了。

如果计算结果落在-2到2之间,就表示假设是可以接受,但是不在这个范围

内,就说明发生小概率事件了。有两种可能:1,假设有错误;2,出现了异常

值。

2.z得分(Zscores)表示标准差的倍数

标准差:总体各单位标准值与其平均数离差平方的算术平均数的平方根”也就

是“标准差能反映一个数据集的离散程度”。比如z得分是+2.5,得到的结果是

标准差的正2.5倍,表示数据已经高度聚集。反之,如果是-2.5,那么就表示标

准差的负2.5倍,就是高度离散的数据。

置信度:数据落在期望区间的可能性

在统计学中,一个概率样本的置信区间(Confidenceinterval)是对这个样本

的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率

落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程

度。这个概率被称为置信水平。置信水平是指总体参数值落在样本统计值某一

区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间

误差范围。置信区间越大,置信水平越高。

3.在空间统计分析中,通过相关分析可以检测两种现象(统计量)的变化是否

存在相关性,若所分析的统计量为不同观察对象的同一属性变量,则称之为自

相关。而空间自相关反映的是一个区域单元上的某种地理现象或某一属性值与

邻近区域单元上同一现象或属性值的相关程度,是一种检测与量化从多个标定

点中取样值变异的空间依赖性的空间统计方法。当变量在空间上表现出一定的

规律性,即不是随机分布则存在着空间自相关,空间自相关理论认为彼此之间

距离越近的事物越相像。也就是说,空间自相关是针对同一个属性变量而言

的。

4.空间自相关方法按功能大致分为两类:全域型自相关和区域型自相关。全域

型自相关的功能在于描述某现象的整体分布状况,判断此现象在空间是否有聚

集特性存在,但其并不能确切得指出聚集在哪些地区,若将全域型不同空间间

隔的空间自相关统计量依序排列,可进一步得到空间自相关系数图,用于分析

该现象在空间上是否有阶层性分布。区域型自相关能够推算出聚集地的范围。

5.最近邻分析

是根据每个要素与其最近邻要素之间的平均距离计算其最近邻指数。最近邻

指数是平均观测距离和平均期望距离之比。如果小于1,则要素呈现空间聚集

式;如果大于1,则要素呈现空间离散模式或竞争模式。最近邻分析并没有考

虑到属性特征,只是根据空间位置。

’sI法

高的自相关性代表了空间现象聚集性的存在,空间自相关分析的主要功能在于

同时可以处理数据的区位和属性。全域型Moran’sI计算方式是基于统计学

相关系数的协方差关系推算出来的。I值一定介于-1到1之间,大于0为正

相关,且值越大表示空间分布的相关性越大,即空间上聚集分布的现象越明

显,反之,值越小代表空间分布相关性小,而当值趋于0时,代表此时空间分

布呈现随机分布的情形。若I值大于0,说明相邻地区拥有相似的数据属

性,属性值高或低的地区都有聚集现象;若I小于0,说明相邻地区属性差异

大,数据空间分布呈现高地间隔分布的状态;若I趋近于0,则相邻空间单元

间相关低,某空间现象的高值或低值呈无规律的随机分布状态。若I值显著大

于I的期望值(I值为正值且显著),说明两点存在相似关系,若I值显著小

于I的期望值(I值为负值且显著),说明两点存在不相似关系。区域空间自

相关值累加之和即全域空间自相关Moran’sI值。

其对应的公式为:

7.多距离空间聚类分析(Ripley'sK函数)

Ripley'sK方法是一种点数据模式的分析方法,利用Ripley'sK函数对点数

据集进行不同距离的聚类程度分析。Ripley'sK函数就是用来表明要素的质心

的空间聚集或空间扩散的程度,以及在邻域大小发生变化时是如何变化的。原

理:设定一个起算距离,还可以指定最终距离或者增量步长。计算的距离增加

的时候,包含的相邻的要素自然就会原来越多,那么就可以针对不同的距离,

去计算包含的数据的密度。当全部算完之后,把每个距离的密度进行一下算数

平均,并且用这个平均密度,作为用于比较的标准密度值。然后用每个距离里

面,包含的数据量的密度,来与标准密度值进行比较。大于标准密度,那么我

们就认为这个距离上,数据处于聚类分布,而小于标准值的,我们就认为他处

于离散分布。为了避免平均数带来的一些简单粗暴的计算,在研究空间分布的

时候,更多是利用零假设的方式,来设定随机数进行分布,作为预期值。特定

距离的K观测值大于K预期值,则与该距离(分析尺度)的随机分布相比,

该分布的聚类程度更高。如果K观测值小于K预期值,则与该距离的随机分

布相比,该分布的离散程度更高

多距离空间聚类分析工具返回的值以及含义如下:

应用到的基本工具

lbox—SpatialStatisticsTools—AveragePatterns(分析模式)—

AverageNearestNeighbor(平均最近邻)

lbox—SpatialStatisticsTools—AveragePatterns—High/

LowClustering(Getis-OrdGeneralG)

lbox—SpatialStatisticsTools—AveragePatterns,Spatial

Autocorrelation(MoranI)

lbox—SpatialStatisticsTools—AveragePatterns—Multi-

DistanceSpatialClusterAnalysis(RipleysKFunction)

lbox—SpatialStatisticsTools—MappingClusters—Cluster

andOutlierAnalysis(AnselinLocalMoransI)

lbox—SpatialStatisticsTools—MappingClusters—Hot

SpotAnalysis(Getis-OrdGi*)

操作流程图(尽量为图解模型)

操作步骤(方法)

一、参考文献《多尺度人口增长的空间统计分析》,练习多距离L(d)、全局

Moran’I与G*统计量分析,显著性检验的置信区间定义为90%

定义工作空间,对province数据添加投影,选择兰勃特投影

处理数据,将统计数据汇总连接到省区的shp文件;

空间分析

deer数据

adabg00数据

Province数据

L(d)统计

全局Moran’I

G*统计量分析

全局Moran’I

G统计量分析

局部moranI

L(d)分析

最近邻分析

右键点击“province”,采用Symbology/Quantities/Graduatedcolors来符号化

“人口增长率”字段;观察分布格局;

分布格局为:西部部分地区的人口增长率要明显高于东部,如青海,西藏,新

疆。北方地区主要是京津地区增长率较高,南方的上海和广东地区人口增长率

高。由此可知,人口增长率最高的地方主要是发达的地区和贫困地区。发达地

区由于人口迁入导致,而贫困地区是由于出生率高于死亡率导致。

提取质心点,求取点对之间的距离;

k(d)函数

先利用province计算点距离,最短为30734米,最长为2216312米

则步长为十,Beginning_Distance(起算距离)选择30000米,

Distance_Increment(递增步长)选择220000米

红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系

当观察值处于期望值之下的时候是离散分布。

GlobalMoran’I

分析:通过Morans’I指数判断可以判断人口增长率是否存在集聚。

Moran’sIndex:0.202915大于0,是观测的Moran’s指数,表示要素呈

现空间正相关。

ExpectedIndex-0.030303小于0,是期望的Moran’s指数,表示按期望应

该是空间负相关。

Variance:0.011789,方差很小接近于0表示统计值之间差异并不大。

z-score:2.147959,绝对值小于2.58对应显著性水平,表示正相关不是非常

显著。

p-value:0.031717小于0.1,表示随机分布的可能性小于10%,相关的可能

性大于90%。

二、对adabg00数据进行全局与局部的moranI与G统计量分析;

拉丁人口分布:

进行G统计量分析

利用Getis-OrdGeneralG统计量度量高值或低值的聚集程度。打开

ArcToolbox—SpatialStatisticsTools—AveragePatterns—High/Low

Clustering(Getis-OrdGeneralG)

输入图层选择,统计的字段是Latino字段。勾选Generate

Report选项。空间关系选择InverseDistance(反距离),选项还有反距离平

方等。计算距离方法选择欧式距离。是否进行标准化选择默认NONE。点击OK。

结果显示:

分析:阿达县的拉丁裔人口分布具有空间集聚特征,且是高密度人口和高密度

人口聚集。

ExpectedGeneralG:0.000172,表示期望的G统计量。

Variance:0.000000,方差很小接近于0表示统计值之间差异很小。

z-score:3.770902,绝对值大于2.58对应显著性水平,表示聚集非常显著。

p-value:0.000163小于0.1,表示随机分布的可能性小于10%,聚集分布的

可能性大于90%,即聚集显著。

全局moranI

利用全局Moran'sI统计量根据要素位置和属性值测量空间自相关性。

打开ArcToolbox,SpatialStatisticsTools,AveragePatterns(分析式),

SpatialAutocorrelation(MoranI)

输入图层选择,统计的字段是Latino字段。勾选Generate

Report选项。空间关系选择InverseDistance(反距离),计算距离方法选

择欧式距离。是否进行标准化选择默认NONE。点击OK。

分析:阿达县的拉丁裔人口分布具有空间集聚特征,但通过Morans’I指数

无法判断是高密度人口和高密度人口聚集还是低密度人口和低密度人口聚集。

Moran’sIndex:0.053588大于0,是观测的Moran’s指数,表示要素呈

现空间正相关。

ExpectedIndex-0.006849小于0,是期望的Moran’s指数,表示按期望应

该是空间负相关。

Variance:0.000096,方差很小接近于0表示统计值之间差异并不大。

z-score:6.164895,绝对值大于2.58对应显著性水平,表示正相关非常显

著。

p-value:0.000000小于0.01,表示随机分布的可能性小于1%,相关的可能

性大于99%。

局部的moranI

ClusterandOutlierAnalysis(AnselinLocalMoran'sI)

该工具是局部MoranI算法的实现,可以反映要素与周边要素的相似程度

打开ArcToolbox,SpatialStatisticsTools,MappingClusters,Clusterand

OutlierAnalysis(AnselinLocalMoransI)。

输入图层选择,统计的字段是Latino字段。空间关系选择

InverseDistance(反距离),计算距离方法选择欧式距离。是否进行标准化

选择默认NONE。点击OK。

打开生成的新图层。该新图层有147条记录,8个字段,若LocalMoran'sI

index为正,说明该点与邻域内点相似,若为负,说明该点与邻域内点相异。

COType_IDW有4种结果:HH,HL,LL,LH(HH代表高高值聚集,LL代表

低低值聚集,HL代表高值被低值包围,LH代表低值被高值包围)。

检测该县拉丁裔人口是否存在局部“热点”

该工具是局部G指数的实现,可以反映高值或低值在空间上的聚集区域。也

就是我们常说的热点分析,可用来生成热点图。

输入图层选择,统计的字段是Latino。空间关系选择

FIXED_DISTANCE_BAND,计算距离方法选择欧式距离。是否进行标准化选

择默认NONE。点击OK。

打开生成的新图层。该新图层有147条记录,6个字段,在属性表中添加Z

分数和P值两个字段。

如果Z值越大且P值越小,说明为热点区域(即高高值的聚集区域);

如果Z值很小(为负)且P值很小,说明为冷点区域(即低低值的聚集

区域)。

标准差越小聚集度越高(是热点或冷点的可能性就越大)。

阿达县的拉丁裔人口分布存在局部的“热点”。

三、对deer数据进行基于距离的最近邻分析与L(d)分析;统计检验的置信区间

设定为90%。

(1)AverageNearestNeighborSummary(最近邻统计)信息

z-score:-10.955129,绝对值大于2.58对应显著性水平,在这里表示聚集非常

显著。

p-value:0小于0.01,表示随机分布的可能性小于1%,非随机分布的可能性

大于99%,在这里表示聚集非常显著。

ObservedMeanDistance:25.313385Meters,表示观测平均距离值。

ExpectedMeanDistance:41.983181Meters,表示期望平均距离值。

NearestNeighborRatio(最近邻指数):0.602491,表示观测平均距离值与期望平

均距离的比值。

结果与分析

一、“人口增长率”分布格局为:西部部分地区的人口增长率要明显高于东

部,如青海,西藏,新疆。北方地区主要是京津地区增长率较高,南方的上海

和广东地区人口增长率高。由此可知,人口增长率最高的地方主要是发达的地

区和贫困地区。发达地区由于人口迁入导致,而贫困地区是由于出生率高于死

亡率导致。

k(d)函数

红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系

当观察值处于期望值之下的时候是离散分布。

GlobalMoran’I

分析:通过Morans’I指数判断可以判断人口增长率是否存在集聚。

Moran’sIndex:0.202915大于0,是观测的Moran’s指数,表示要素呈

现空间正相关。

ExpectedIndex-0.030303小于0,是期望的Moran’s指数,表示按期望应

该是空间负相关。

Variance:0.011789,方差很小接近于0表示统计值之间差异并不大。

z-score:2.147959,绝对值小于2.58对应显著性水平,表示正相关不是非常

显著。

p-value:0.031717小于0.1,表示随机分布的可能性小于10%,相关的可能

性大于90%。

二、对adabg00数据进行全局与局部的moranI与G统计量分析,需要判断阿

达县的拉丁裔人口分布是否具有空间集聚以及存在局部的“热点”;

进行G统计量分析:

阿达县的拉丁裔人口分布具有空间集聚特征,且是高密度人口和高密度人口聚

集。ExpectedGeneralG:0.000172,表示期望的G统计量。

Variance:0.000000,方差很小接近于0表示统计值之间差异很小。

z-score:3.770902,绝对值大于2.58对应显著性水平,表示聚集非常显著。

p-value:0.000163小于0.01,表示随机分布的可能性小于1%,聚集分布的

可能性大于99%,即聚集非常显著。

全局moranI

利用全局Moran'sI统计量根据要素位置和属性值测量空间自相关性。

分析:阿达县的拉丁裔人口分布具有空间集聚特征,但通过Morans’I指数

无法判断是高密度人口和高密度人口聚集还是低密度人口和低密度人口聚集。

Moran’sIndex:0.053588大于0,是观测的Moran’s指数,表示要素呈

现空间正相关。

ExpectedIndex-0.006849小于0,是期望的Moran’s指数,表示按期望应

该是空间负相关。

Variance:0.000096,方差很小接近于0表示统计值之间差异并不大。

z-score:6.164895,绝对值大于2.58对应显著性水平,表示正相关非常显

著。

p-value:0.000000小于0.01,表示随机分布的可能性小于1%,相关的可能

性大于99%。

局部的moranI

ClusterandOutlierAnalysis(AnselinLocalMoran'sI)

打开生成的新图层。该新图层有147条记录,8个字段,若LocalMoran'sI

index为正,说明该点与邻域内点相似,若为负,说明该点与邻域内点相异。

COType_IDW有4种结果:HH,HL,LL,LH(HH代表高高值聚集,LL代表

低低值聚集,HL代表高值被低值包围,LH代表低值被高值包围)。

检测该县拉丁裔人口是否存在局部“热点”

该工具是局部G指数的实现,可以反映高值或低值在空间上的聚集区域。也

就是我们常说的热点分析,可用来生成热点图。

打开生成的新图层。该新图层有147条记录,6个字段,在属性表中添加Z

分数和P值两个字段。如果Z值越大且P值越小,说明为热点区域(即高

高值的聚集区域);如果Z值很小(为负)且P值很小,说明为冷点区域

(即低低值的聚集区域)。标准差越小聚集度越高(是热点或冷点的可能性就

越大)。阿达县的拉丁裔人口分布存在局部的“热点”。

三、对deer数据进行基于距离的最近邻分析与L(d)分析;统计检验的置信区间

设定为90%。

(1)AverageNearestNeighborSummary(最近邻统计)信息

z-score:-10.955129,绝对值大于2.58对应显著性水平,在这里表示聚集非常

显著。

p-value:0小于0.01,表示随机分布的可能性小于1%,非随机分布的可能性

大于99%,在这里表示聚集非常显著。

ObservedMeanDistance:25.313385Meters,表示观测平均距离值。

ExpectedMeanDistance:41.983181Meters,表示期望平均距离值。

NearestNeighborRatio(最近邻指数):0.602491,表示观测平均距离值与期望平

均距离的比值。

存在问题与解决办法

1.利用k(d)函数计算province点距离的时候,权重字段选择人口增长率的时

候,会出现操作失败,当不选择权重字段的时候可以实现。当不选择权重字段

的时候,是没有权重还是说有默认的权重,如果是用默认的权重,那么默认的

权重是什么呢?

解决办法:通过将province导出后生成新的一个文件重新进行操作,可以实现。

关于是否有默认的权重,不是很清楚,需要咨询老师。

2.

红线是观察值,蓝线是期望值,当观

察值在期望值上面的时候,是有集聚

关系当观察值处于期望值之下的时候

是离散分布。通过右侧这个表还可以

发现什么信息,灰色的两条线是什

么?该如何准确表达右图的信息?

3.希望老师能给讲解一个样本:例如如下的表的信息如何读取,能得到那些规

律?

需要注意问题的总结与归纳

对得到的数据要有效的利用,通过查阅资料明白其中的有效数据,例如通

过Morans’I指数判断可以判断人口增长率是否存在集聚。Moran’sIndex

是观测的Moran’s指数,如果大于0,表示要素呈现空间正相关。

ExpectedIndex是期望的Moran’s指数,如果小于0,表示按期望应该是空

间负相关。

全域型自相关的功能在于描述某现象的整体分布状况,判断此现象在空间

是否有聚集特性存在,但其并不能确切得指出聚集在哪些地区,若将全域型不

同空间间隔的空间自相关统计量依序排列,可进一步得到空间自相关系数图,

用于分析该现象在空间上是否有阶层性分布。区域型自相关能够推算出聚集地

的范围。对阿达县的拉丁裔人口分布进行全局域自相关的操作,发现具有空间

集聚以及存在局部的“热点”,通过区域型自相关找到了热点区域。

最近邻指数是平均观测距离和平均期望距离之比。如果小于1,则要素呈

现空间聚集式;如果大于1,则要素呈现空间离散模式或竞争模式。对deer数

据进行基于距离的最近邻分析可知存在空间聚集。

全域型Moran’sI计算方式是基于统计学相关系数的协方差关系推算出

来的。I值一定介于-1到1之间,大于0为正相关,且值越大表示空间分布

的相关性越大,即空间上聚集分布的现象越明显,反之,值越小代表空间分布

相关性小,而当值趋于0时,代表此时空间分布呈现随机分布的情形。若I

值大于0,说明相邻地区拥有相似的数据属性,属性值高或低的地区都有聚集

现象;若I小于0,说明相邻地区属性差异大,数据空间分布呈现高地间隔分

布的状态;若I趋近于0,则相邻空间单元间相关低,某空间现象的高值或低

值呈无规律的随机分布状态。若I值显著大于I的期望值(I值为正值且显

著),说明两点存在相似关系,若I值显著小于I的期望值(I值为负值且显

著),说明两点存在不相似关系。对阿达县的拉丁裔人口分布进行全局域自相关

的操作,发现具有空间集聚以及存在局部的“热点”。

利用Ripley'sK函数对全国人口增长率数据进行不同距离的聚类程度分

析。Ripley'sK函数就是用来表明要素的质心的空间聚集或空间扩散的程度,

以及在邻域大小发生变化时是如何变化的。特定距离的K观测值大于K预期

值,则与该距离(分析尺度)的随机分布相比,该分布的聚类程度更高。如果

K观测值小于K预期值,则与该距离的随机分布相比,该分布的离散程度更

高。以下为得到的全国人口增长率的K(d)函数结果:

个人体会

其他软件的解决办法(软件名称,解决思路及相应工具):使用者可以适当加

👁️ 阅读量:0