拉依达准则

发布时间：2023-06-07 作者：admin 来源：文学

拉依达准则

soa软件-小动物回家ppt

2023年2月21日发(作者：幼儿园吊饰)

EXCEL于异常数据剔除中的应用

smlai

数据是关于自然、社会现象和科学试验的定量或定性的记录，是科学研究最重要的基础。

数据作为研究依赖的基础资源，其质量好坏直接关系到以此为据的正确性和科学性。所谓异

常数据就是数据集中与其它数据明显不一致的数据。异常数据的产生原因有很多，可能是数

据产生机制内在特性决定的，也可能是抽样调查技术问题；数据采集设备不完善；数据录入

及传输错误；测量单位混乱；虚报、瞒报使统计数据失真；丢失数据等人力可控因素造成的。

异常数据的出现会极大程度地降低数据的质量，导致统计分析，如参数估计、假设检验、方

差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异，使得样本对总体

的推断、控制与预测等工作可能会不准确或者出现错误，进一步甚至可能造成宏观决策上的

失误，带来不可挽回的损失。因此，异常数据的识别和剔除具有重要意义。异常数据识别有

物理识别法和统计识别法。物理识别法是根据人们对客观事物已有的认识，识别由于外界干

扰、人为误差等原因造成实测数据偏离正常结果，在实验过程中识别，随时剔除的一种方法。

统计识别法是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于

随机误差范围，将其视为异常数据剔除的一种方法。当物理识别异常数据不易做到时，一般

采用统计识别法。

对于多次重复测定的数据，异常数据常用的统计识别与剔除法有拉依达准则（3σ准则)

法、格拉布斯（Grubbs）准则法、狄克逊(Dixon)准则法、肖维勒（Chauvenet）准则法、罗

马诺夫斯基（t检验）准则法。拉依达准则法简单，无需查表，用起来方便，测量次数较多

或要求不高时用，当测量次数小于或等于10时，拉依达准则法失效。肖维勒准则是经典方

法，改善了拉依达准则，过去应用较多，但它没有固定的概率意义，特别是测量数据n无穷

大时，该准则失效。狄克逊准则法对数据中只存在一个异常数据时，效果良好，但当数据中

异常数据的个数不止一个且出现在同侧时，该方法的检验效果不好，尤其同侧的异常数据很

接近时效果更差，易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和

狄克松准则给出了严格的结果，但同样存在狄克逊准则法的缺陷，朱宏等人采用数据的中位

数取代平均数，改进得到了更为稳健的处理方法，有效地消除了同侧异常数据的屏蔽效应。

国际上常推荐采用格拉布斯（Grubbs）准则法，对此采用改进型格拉布斯准则法。

改进型格拉布斯（Grubbs）准则法具体应用如下：

第1页共5页

1、求出拟似异常值。设重复测定数据为（，，…，），其数据个数为n、最大

值为、最小值为、中位数、标准差为，则拟似最大异常值和拟似最小异

常值为：

max

min

max

min

−

=max

max

Gemin

min

−

2、查出格拉布斯临界值。设显著性水平为

),(n

α（常设α为0.05或0.01（相当于置

信度为95%或99%）时，则通过表1查出数据个数为n时的格拉布斯临界值。

),(αn

表1格拉布斯（Grubbs）临界值表

),(αn

nα=0.01α=0.025α=0.05nα=0.01α=0.025α=0.05

31.151.151.15172.782.622.47

41.491.481.46182.822.652.50

51.751.711.67192.852.682.53

61.941.891.82202.882.712.56

72.102.021.94212.912.732.58

82.222.132.03222.942.762.60

92.322.212.11232.962.782.62

102.412.292.18242.992.802.64

112.482.362.23253.012.822.66

122.552.412.29303.102.912.75

132.612.462.33353.182.982.81

142.662.512.37403.243.042.87

152.712.552.41503.343.132.97

162.752.592.441003.603.383.21

3、异常数据的识别与剔除。比较和与，如果＞或＞

，则对应的或为异常数据，应给与剔除。

max

min

),(αn

max

),(αn

min

),(αn

max

min

4、重复识别与剔除常数数据。对剔除异常数据后的数据重复1～3步骤，直至余下数据

的最大值或最小值小于格拉布斯临界值为止。

【例】某啤酒厂，研究开发一种新型的淡色啤酒。经多次重复性测定，该新型淡色啤酒

第2页共5页

的浊度数据如表2中的A列。判断该重复测定的数据是否存在异常数据并给予剔除。

表2异常数据EXCEL分析工作表

ABC

浊度（EBC）参数描述参数值

20.532

最大值：

max

x｛键入公式：=MAX(A2:A14)｝

30.543

最小值：

min

x｛键入公式：=MIN(A2:A14)｝

40.577

中位数：

M｛键入公式：=MEDIAN(A2:A14)｝

50.546

标准差：s｛键入公式：=STDEV(A2:A13)｝

60.656

拟似最大异常值：

max

G｛键入公式：=(C2-C4)/C5）｝

70.691

拟似最小异常值：

min

G｛键入公式：=(C4-C3)/C5）｝

80.546

格拉布斯临界值：

)05.0,(n

G｛查格拉布斯临界值表获得｝

),(αn

90.527

100.565

110.556

120.582

130.551

140.556

EXCEL应用步骤如下：

步骤1：打开EXCEL，按表2格式输入数据并建立工作表，其中数据个数为13。n

步骤2：通过EXCEL提供的MAX函数、MIN函数、MEDIAN函数、STDEV函数，

求出数据的最大值、最小值、中位数、标准差。具体求法如下：

1、取单元格C2，键入公式：=MAX(A2:A14)，确认即求得最大值为0.691；

max

2、取单元格C3，键入公式：=MIN(A2:A14)，确认即求得最小值为0.527；

min

3、取单元格C4，键入公式：=MEDIAN(A2:A14)，确认即求得中位数为0.556；

4、取单元格C5，键入公式：=STDEV(A2:A13)，确认即求得标准差为0.048；s

步骤3：求出拟似最大异常值和最小异常值。具体求求解如下：

max

min

1、取单元格C6，根据公式

−

=max

max

，键入公式：=(C2-C4)/C5，确认即求得

第3页共5页

拟似最大异常值为2.787；

max

2、取单元格C7，根据公式

Gemin

min

−

=，键入公式：=(C4-C3)/C5，确认即求得

拟似最小异常值为0.598。

min

步骤4：查出格拉布斯临界值。设显著性水平为

),(n

α为0.05（显著性水平取值越大，

数据识别区间越窄，识别要求越严），因为数据的个数n为13，则通过表1查出，格拉布斯

临界值为2.33。初步分析结果列于表5。

)05.0,13(

表3异常数据EXCEL初步分析结果

ABC

浊度（EBC）参数描述参数值

20.532

最大值：

max

x0.691

30.543

最小值：

min

x0.527

40.577

中位数：

M0.556

50.546

标准差：s0.048

60.656

拟似最大异常值：

max

G2.787

70.691

拟似最小异常值：

min

G0.598

80.546

格拉布斯临界值：

)05.0,(n

2.33

90.527

100.565

110.556

120.582

130.551

140.556

步骤5：异常数据的识别与剔除。因为为2.787大于临界值的2.33，而

为0.598小于临界值的2.33，则当取显著性水平

max

)05.0,13(

min

)05.0,13(

Gα为0.05（置信度为95%）时，

对应的最大值0.691数据（位于表2中的A列第7行），从统计学观点来看应视为异常数据，

应给予剔除。

max

步骤6：重复识别与剔除常数数据。剔除0.691后，对剩余数据经上述步骤重新识别，

第4页共5页

发现剩余数据的最大值0.656，其为3.022，还大于值2.29（这时数据个数n为

12），应视为异常数据，应给予剔除。剔除0.656后，再剩余数据的最大值0.582，其为

1.821，小于值的2.23（这时数据个数为11），数据中已不存在异常数据，结束异

常数据的识别与剔除。

max

)05.0,12(

max

)05.0,11(

异常数据通常只有少数，如果多了也就不成为异常数据。是否为异常数据，在实际应用

中要结合经验来判断。“概率统计理论只是为更细致的分析和更充分利用现有数据提供工具，

并为人们准确地判断创造更好的条件，而决不是否定经验判断。”如果数据并不是任何错误

所致，而是固有的数据变异性的结果的蕴知性数据，则应高度重视，谨慎对待，不可简单剔

除，否则可能丢失一些重要的隐藏信息。

参考文献：

[1]何少华.试验设计与数据处理[M].2002:126

[2]乐立利.观测数据的异常值统计检验方法研究[D].中南大学硕士论文，2008.

第5页共5页

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章