
拉依达准则
soa软件-小动物回家ppt
2023年2月21日发(作者:幼儿园吊饰)EXCEL于异常数据剔除中的应用
smlai
数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。
数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。所谓异
常数据就是数据集中与其它数据明显不一致的数据。异常数据的产生原因有很多,可能是数
据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入
及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。
异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方
差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体
的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的
失误,带来不可挽回的损失。因此,异常数据的识别和剔除具有重要意义。异常数据识别有
物理识别法和统计识别法。物理识别法是根据人们对客观事物已有的认识,识别由于外界干
扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。
统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于
随机误差范围,将其视为异常数据剔除的一种方法。当物理识别异常数据不易做到时,一般
采用统计识别法。
对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3σ准则)
法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗
马诺夫斯基(t检验)准则法。拉依达准则法简单,无需查表,用起来方便,测量次数较多
或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。肖维勒准则是经典方
法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷
大时,该准则失效。狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中
异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很
接近时效果更差,易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和
狄克松准则给出了严格的结果,但同样存在狄克逊准则法的缺陷,朱宏等人采用数据的中位
数取代平均数,改进得到了更为稳健的处理方法,有效地消除了同侧异常数据的屏蔽效应。
国际上常推荐采用格拉布斯(Grubbs)准则法,对此采用改进型格拉布斯准则法。
改进型格拉布斯(Grubbs)准则法具体应用如下:
第1页共5页
1、求出拟似异常值。设重复测定数据为(,,…,),其数据个数为n、最大
值为、最小值为、中位数、标准差为,则拟似最大异常值和拟似最小异
常值为:
1
x
2
x
n
x
max
x
min
x
e
Ms
max
G
min
G
s
Mx
Ge
−
=max
max
s
xM
Gemin
min
−
=
2、查出格拉布斯临界值。设显著性水平为
),(n
G
α
α(常设α为0.05或0.01(相当于置
信度为95%或99%)时,则通过表1查出数据个数为n时的格拉布斯临界值。
),(αn
G
表1格拉布斯(Grubbs)临界值表
),(αn
G
nα=0.01α=0.025α=0.05nα=0.01α=0.025α=0.05
31.151.151.15172.782.622.47
41.491.481.46182.822.652.50
51.751.711.67192.852.682.53
61.941.891.82202.882.712.56
72.102.021.94212.912.732.58
82.222.132.03222.942.762.60
92.322.212.11232.962.782.62
102.412.292.18242.992.802.64
112.482.362.23253.012.822.66
122.552.412.29303.102.912.75
132.612.462.33353.182.982.81
142.662.512.37403.243.042.87
152.712.552.41503.343.132.97
162.752.592.441003.603.383.21
3、异常数据的识别与剔除。比较和与,如果>或>
,则对应的或为异常数据,应给与剔除。
max
G
min
G
),(αn
G
max
G
),(αn
G
min
G
),(αn
G
max
x
min
x
4、重复识别与剔除常数数据。对剔除异常数据后的数据重复1~3步骤,直至余下数据
的最大值或最小值小于格拉布斯临界值为止。
【例】某啤酒厂,研究开发一种新型的淡色啤酒。经多次重复性测定,该新型淡色啤酒
第2页共5页
的浊度数据如表2中的A列。判断该重复测定的数据是否存在异常数据并给予剔除。
表2异常数据EXCEL分析工作表
ABC
1
浊度(EBC)参数描述参数值
20.532
最大值:
max
x{键入公式:=MAX(A2:A14)}
30.543
最小值:
min
x{键入公式:=MIN(A2:A14)}
40.577
中位数:
e
M{键入公式:=MEDIAN(A2:A14)}
50.546
标准差:s{键入公式:=STDEV(A2:A13)}
60.656
拟似最大异常值:
max
G{键入公式:=(C2-C4)/C5)}
70.691
拟似最小异常值:
min
G{键入公式:=(C4-C3)/C5)}
80.546
格拉布斯临界值:
)05.0,(n
G{查格拉布斯临界值表获得}
),(αn
G
90.527
100.565
110.556
120.582
130.551
140.556
EXCEL应用步骤如下:
步骤1:打开EXCEL,按表2格式输入数据并建立工作表,其中数据个数为13。n
步骤2:通过EXCEL提供的MAX函数、MIN函数、MEDIAN函数、STDEV函数,
求出数据的最大值、最小值、中位数、标准差。具体求法如下:
1、取单元格C2,键入公式:=MAX(A2:A14),确认即求得最大值为0.691;
max
x
2、取单元格C3,键入公式:=MIN(A2:A14),确认即求得最小值为0.527;
min
x
3、取单元格C4,键入公式:=MEDIAN(A2:A14),确认即求得中位数为0.556;
e
M
4、取单元格C5,键入公式:=STDEV(A2:A13),确认即求得标准差为0.048;s
步骤3:求出拟似最大异常值和最小异常值。具体求求解如下:
max
G
min
G
1、取单元格C6,根据公式
s
Mx
Ge
−
=max
max
,键入公式:=(C2-C4)/C5,确认即求得
第3页共5页
拟似最大异常值为2.787;
max
G
2、取单元格C7,根据公式
s
xM
Gemin
min
−
=,键入公式:=(C4-C3)/C5,确认即求得
拟似最小异常值为0.598。
min
G
步骤4:查出格拉布斯临界值。设显著性水平为
),(n
G
α
α为0.05(显著性水平取值越大,
数据识别区间越窄,识别要求越严),因为数据的个数n为13,则通过表1查出,格拉布斯
临界值为2.33。初步分析结果列于表5。
)05.0,13(
G
表3异常数据EXCEL初步分析结果
ABC
1
浊度(EBC)参数描述参数值
20.532
最大值:
max
x0.691
30.543
最小值:
min
x0.527
40.577
中位数:
e
M0.556
50.546
标准差:s0.048
60.656
拟似最大异常值:
max
G2.787
70.691
拟似最小异常值:
min
G0.598
80.546
格拉布斯临界值:
)05.0,(n
G
2.33
90.527
100.565
110.556
120.582
130.551
140.556
步骤5:异常数据的识别与剔除。因为为2.787大于临界值的2.33,而
为0.598小于临界值的2.33,则当取显著性水平
max
G
)05.0,13(
G
min
G
)05.0,13(
Gα为0.05(置信度为95%)时,
对应的最大值0.691数据(位于表2中的A列第7行),从统计学观点来看应视为异常数据,
应给予剔除。
max
G
步骤6:重复识别与剔除常数数据。剔除0.691后,对剩余数据经上述步骤重新识别,
第4页共5页
发现剩余数据的最大值0.656,其为3.022,还大于值2.29(这时数据个数n为
12),应视为异常数据,应给予剔除。剔除0.656后,再剩余数据的最大值0.582,其为
1.821,小于值的2.23(这时数据个数为11),数据中已不存在异常数据,结束异
常数据的识别与剔除。
max
G
)05.0,12(
G
max
G
)05.0,11(
G
n
异常数据通常只有少数,如果多了也就不成为异常数据。是否为异常数据,在实际应用
中要结合经验来判断。“概率统计理论只是为更细致的分析和更充分利用现有数据提供工具,
并为人们准确地判断创造更好的条件,而决不是否定经验判断。”如果数据并不是任何错误
所致,而是固有的数据变异性的结果的蕴知性数据,则应高度重视,谨慎对待,不可简单剔
除,否则可能丢失一些重要的隐藏信息。
参考文献:
[1]何少华.试验设计与数据处理[M].2002:126
[2]乐立利.观测数据的异常值统计检验方法研究[D].中南大学硕士论文,2008.
第5页共5页