第三节 可疑数据的取舍方法
第三节 可疑数据的取舍方法
在一组条件完全相同的重复试验中,个别的测量值可能会出现异常。如测量值过大或过 小,这些过大或过小的测量数据是不正常的,或称为可疑的。对于这些可疑数据应该用数理统计的方法判别其真伪,并决定取舍。常用的方法有拉依达法、肖维纳特(Chavenet )法。 格拉布斯(Grubbs )法等。
一、拉依达法
当试验次数较多时,可简单地用3倍标准偏差(3S )作为确定可疑数据取舍的标准。当某一测量数据(x i )与其测量结果的算术平均值(x -‘)之差大于3倍标准偏差时,用公式表示为:
︳x i -x -‘︳>3S
则该测量数据应舍弃。
这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S 法。
取3S 的理由是:根据随机变量的正态分布规律,在多次试验中,测量值落在 x -‘一3S 与x -‘ 十3S 之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。
另外,当测量值与平均值之差大于2倍标准偏差(即 ︳x i -x -‘︳> 2S )时,则该测量值应保留,但需存疑。如发现生产(施工)、试验过程屯有可疑的变异时,该测量值则应予舍弃。
拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n
二、肖维纳特法
进行n 次试验,其测量值服从正态分布,以概率1/(2n )设定一判别范围(一k n S ,k n S ),当偏差(测量值x i 与其算术平均值x -‘之差)超出该范围时,就意味着该测量值x i 是可疑的,应予舍弃。判别范围由下式确定:
肖维纳特法可疑数据舍弃的标准为:
︳x i 一 x -‘︳/S≥k n
三、格拉布斯法
格拉布斯法假定测量结果服从正态分布,根据顺序统计量来确定可疑数据的取舍。 进行n 次重复试验,试验结果为x 1、x 2、…、x i 、…、x n ,而且x i 服从正态分布。 为了检验 (i=1,2,…,n )中是否有可疑值,可将 按其值由小到大顺序重新排列, 根据顺序统计原则,给出标准化顺序统计量g :
当最小值x (1)可疑时,则: g=( x-‘一x (1) )/S
当最大值x (n)可疑时,则: g=( x(n) 一 x -‘ )/S
根据格拉布斯统计量的分布,在指定的显著性水平β(一般β=0.05)下,求得判别可疑值的临界值g 0( β,n ) , 格拉布斯法的判别标准为:
g ≥g 0( β,n )
利用格拉布斯法每次只能舍弃一个可疑值,若有两个以上的可疑数据,应该一个一个数据的舍弃,舍弃第一个数据后,试验次数由n 变为n 一1, 以此为基础再判别第二个可疑数据。