✅ 操作成功!

拉依达准则

发布时间:2023-06-07 作者:admin 来源:文学

拉依达准则

拉依达准则

soa软件-小动物回家ppt

2023年2月21日发(作者:幼儿园吊饰)

EXCEL于异常数据剔除中的应用

smlai

数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。

数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。所谓异

常数据就是数据集中与其它数据明显不一致的数据。异常数据的产生原因有很多,可能是数

据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入

及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。

异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方

差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体

的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的

失误,带来不可挽回的损失。因此,异常数据的识别和剔除具有重要意义。异常数据识别有

物理识别法和统计识别法。物理识别法是根据人们对客观事物已有的认识,识别由于外界干

扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。

统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于

随机误差范围,将其视为异常数据剔除的一种方法。当物理识别异常数据不易做到时,一般

采用统计识别法。

对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3σ准则)

法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗

马诺夫斯基(t检验)准则法。拉依达准则法简单,无需查表,用起来方便,测量次数较多

或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。肖维勒准则是经典方

法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷

大时,该准则失效。狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中

异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很

接近时效果更差,易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和

狄克松准则给出了严格的结果,但同样存在狄克逊准则法的缺陷,朱宏等人采用数据的中位

数取代平均数,改进得到了更为稳健的处理方法,有效地消除了同侧异常数据的屏蔽效应。

国际上常推荐采用格拉布斯(Grubbs)准则法,对此采用改进型格拉布斯准则法。

改进型格拉布斯(Grubbs)准则法具体应用如下:

第1页共5页

1、求出拟似异常值。设重复测定数据为(,,…,),其数据个数为n、最大

值为、最小值为、中位数、标准差为,则拟似最大异常值和拟似最小异

常值为:

1

x

2

x

n

x

max

x

min

x

e

Ms

max

G

min

G

s

Mx

Ge

=max

max

s

xM

Gemin

min

=

2、查出格拉布斯临界值。设显著性水平为

),(n

G

α

α(常设α为0.05或0.01(相当于置

信度为95%或99%)时,则通过表1查出数据个数为n时的格拉布斯临界值。

),(αn

G

表1格拉布斯(Grubbs)临界值表

),(αn

G

nα=0.01α=0.025α=0.05nα=0.01α=0.025α=0.05

31.151.151.15172.782.622.47

41.491.481.46182.822.652.50

51.751.711.67192.852.682.53

61.941.891.82202.882.712.56

72.102.021.94212.912.732.58

82.222.132.03222.942.762.60

92.322.212.11232.962.782.62

102.412.292.18242.992.802.64

112.482.362.23253.012.822.66

122.552.412.29303.102.912.75

132.612.462.33353.182.982.81

142.662.512.37403.243.042.87

152.712.552.41503.343.132.97

162.752.592.441003.603.383.21

3、异常数据的识别与剔除。比较和与,如果>或>

,则对应的或为异常数据,应给与剔除。

max

G

min

G

),(αn

G

max

G

),(αn

G

min

G

),(αn

G

max

x

min

x

4、重复识别与剔除常数数据。对剔除异常数据后的数据重复1~3步骤,直至余下数据

的最大值或最小值小于格拉布斯临界值为止。

【例】某啤酒厂,研究开发一种新型的淡色啤酒。经多次重复性测定,该新型淡色啤酒

第2页共5页

的浊度数据如表2中的A列。判断该重复测定的数据是否存在异常数据并给予剔除。

表2异常数据EXCEL分析工作表

ABC

1

浊度(EBC)参数描述参数值

20.532

最大值:

max

x{键入公式:=MAX(A2:A14)}

30.543

最小值:

min

x{键入公式:=MIN(A2:A14)}

40.577

中位数:

e

M{键入公式:=MEDIAN(A2:A14)}

50.546

标准差:s{键入公式:=STDEV(A2:A13)}

60.656

拟似最大异常值:

max

G{键入公式:=(C2-C4)/C5)}

70.691

拟似最小异常值:

min

G{键入公式:=(C4-C3)/C5)}

80.546

格拉布斯临界值:

)05.0,(n

G{查格拉布斯临界值表获得}

),(αn

G

90.527

100.565

110.556

120.582

130.551

140.556

EXCEL应用步骤如下:

步骤1:打开EXCEL,按表2格式输入数据并建立工作表,其中数据个数为13。n

步骤2:通过EXCEL提供的MAX函数、MIN函数、MEDIAN函数、STDEV函数,

求出数据的最大值、最小值、中位数、标准差。具体求法如下:

1、取单元格C2,键入公式:=MAX(A2:A14),确认即求得最大值为0.691;

max

x

2、取单元格C3,键入公式:=MIN(A2:A14),确认即求得最小值为0.527;

min

x

3、取单元格C4,键入公式:=MEDIAN(A2:A14),确认即求得中位数为0.556;

e

M

4、取单元格C5,键入公式:=STDEV(A2:A13),确认即求得标准差为0.048;s

步骤3:求出拟似最大异常值和最小异常值。具体求求解如下:

max

G

min

G

1、取单元格C6,根据公式

s

Mx

Ge

=max

max

,键入公式:=(C2-C4)/C5,确认即求得

第3页共5页

拟似最大异常值为2.787;

max

G

2、取单元格C7,根据公式

s

xM

Gemin

min

=,键入公式:=(C4-C3)/C5,确认即求得

拟似最小异常值为0.598。

min

G

步骤4:查出格拉布斯临界值。设显著性水平为

),(n

G

α

α为0.05(显著性水平取值越大,

数据识别区间越窄,识别要求越严),因为数据的个数n为13,则通过表1查出,格拉布斯

临界值为2.33。初步分析结果列于表5。

)05.0,13(

G

表3异常数据EXCEL初步分析结果

ABC

1

浊度(EBC)参数描述参数值

20.532

最大值:

max

x0.691

30.543

最小值:

min

x0.527

40.577

中位数:

e

M0.556

50.546

标准差:s0.048

60.656

拟似最大异常值:

max

G2.787

70.691

拟似最小异常值:

min

G0.598

80.546

格拉布斯临界值:

)05.0,(n

G

2.33

90.527

100.565

110.556

120.582

130.551

140.556

步骤5:异常数据的识别与剔除。因为为2.787大于临界值的2.33,而

为0.598小于临界值的2.33,则当取显著性水平

max

G

)05.0,13(

G

min

G

)05.0,13(

Gα为0.05(置信度为95%)时,

对应的最大值0.691数据(位于表2中的A列第7行),从统计学观点来看应视为异常数据,

应给予剔除。

max

G

步骤6:重复识别与剔除常数数据。剔除0.691后,对剩余数据经上述步骤重新识别,

第4页共5页

发现剩余数据的最大值0.656,其为3.022,还大于值2.29(这时数据个数n为

12),应视为异常数据,应给予剔除。剔除0.656后,再剩余数据的最大值0.582,其为

1.821,小于值的2.23(这时数据个数为11),数据中已不存在异常数据,结束异

常数据的识别与剔除。

max

G

)05.0,12(

G

max

G

)05.0,11(

G

n

异常数据通常只有少数,如果多了也就不成为异常数据。是否为异常数据,在实际应用

中要结合经验来判断。“概率统计理论只是为更细致的分析和更充分利用现有数据提供工具,

并为人们准确地判断创造更好的条件,而决不是否定经验判断。”如果数据并不是任何错误

所致,而是固有的数据变异性的结果的蕴知性数据,则应高度重视,谨慎对待,不可简单剔

除,否则可能丢失一些重要的隐藏信息。

参考文献:

[1]何少华.试验设计与数据处理[M].2002:126

[2]乐立利.观测数据的异常值统计检验方法研究[D].中南大学硕士论文,2008.

第5页共5页

👁️ 阅读量:0