测量误差与数据处理基本知识
第一节 测量与误差
由物理实验的特征可以看出,实验离不开测量,测量是实验的基本任务。下面就讨论一下测量与误差的基本概念,以及误差的分类。 一、测量与误差的基本概念
1. 测量:是借助仪器,通过一定的方法,将待测量与选作计量标准的同类量进行比较,并得出其倍数的过程。倍数值称为待测量的测量值,选作的计量标准称为单位。记录下来的测量结果应该包含测量值的大小和单位,二者缺一不可。
2. 直接测量:是指待测物理量的大小可从选定好的测量仪器或仪表上直接读出来的测量。相应的待测物理量称为直接测量量。例如,用米尺测长度,用秒表测时间,用电表测电压、电流,用温度计测温度等。
3. 间接测量:是指待测量需要根据其他直接测量的物理量的值,通过一定的函数关系(一般为物理概念、定理、定律),才能计算出来的测量过程,相应的待测量称为间接测量量。 例如,如果先测量出圆柱体的底面直径D和高度h ,再利用V =则是间接测量。
4. 真值:被测物理量所具有的客观的、真实的数值。记为X 0。严格地讲,真值只是一个理想化定义,真值是不能获得的。
5. 测量值:通过测量所获得的被测物理量的值。记为X 。一般地,X 总是不会等于真值的,只能接近真值。
6. 平均值:在相同条件下,对某物理量进行的一组n 次测量的值X 1、X 2、X 3、…之和再除以测量
1
πD 2h 计算其体积。在这一测量中,对D 和h 是直接测量,对V 4
1n
次数n 所得的值。记为。 即 =∑X i 对这组测量来讲,被认为是最接近真值的,
n i =1
故又称为测量的最佳值或近真值。它与真值的关系为
lim X =X 0
n →∞
因此,在处理测量数据时常用物理量的平均值代替其真值X 0。
7.误差:测量值X i 与真值X 0之差。记为εi 。 即 εi =X i −X 0。 由于真值是不能获得的,因此,严格意义上的误差也是不能求得的。
8. 偏差(残差) :测量值X i 与相同条件下多次测量所得平均值的差值。记为νi 。即 νi =X i −X 。 由于可用近似代替X 0,故通常也用νi 代替εi 。即,一般情况下,我们所说的误差就是指偏差。 二、误差的分类
在物理实验中,由于测量对象、测量仪器、实验方法、测量环境、观测者等因素的作用,测量结果与真值之间总存在一定的差值。根据引起误差的主要因素的不同,一般可将误差分为系统误差、随机误差两大类。
1. 系统误差
定义:对同一物理量进行多次等精度测量时,测量结果总是偏大或偏小,或随测量条件改变按某一确定规律变化,这种误差称为系统误差。
特征:系统误差具有规律性。
来源:(1)仪器误差。由仪器本身的缺陷引起,如直尺刻度不均、天平不等臂、转动轴偏心等;(2)环境条件误差。实验条件不能达到理论公式所规定的要求,如温度、湿度、气压、电源等条件对实验条件的偏离;(3)理论误差。由实验所用理论的近似性或实验方法不完善引起。如:伏安法测电阻、单摆测重力加速度等(4)个人误差。由操作者本人的习惯或偏差引起,如有人读数总是偏大或偏小,有人计时总是偏快或偏慢等。
2. 随机误差
定义:对同一物理量进行多次等精度测量时,每次测量出现的误差的绝对值大小和符号以不可预测的方式发生变化,没有确定的变化规律,这种误差称为随机误差。
特征:单次测量的随机误差是无法预测的、无规律性。
来源:是由于某些偶然的或不确定的因素引起的,如温度、气压、电压等的波动。观测者读数不稳定等。
规律:对单次测量的随机误差虽然无法确定,对多次测量来讲,随机误差的分布却是服从一定的统计分布规律的——正态分布(高斯分布)。其概率密度函数的特征如图0-1所示。
图中:ε为随机误差;f (ε)为误差分布的概率密度函数,
它表示在误差为ε附近单位误差间隔内出现随机误差为ε的测量的几率。
图0-1 随机误差的正态分布
正态分布具有如下三大特点:
(1)单峰性。随机误差的绝对值小的测量比绝对值大的测量出现的几率大。
(2)对称性。随机误差绝对值相等的测量出现的几率相同。从而,在多次测量中用测量量的平均值X 可以消除随机误差,用平均值X 代替真值X 0是合适的。
(3)有界性。在一定的测量条件下,随机误差的绝对值是不超过一定限度的。
(4)抵偿性。当测量次数非常多时,正误差和负误差相互抵消,于是误差的代数和趋向于零。
还有一种误差,称为粗差。这是由于某些原因造成实验数据异常所产生的误差,可以通过实验理论、重新测量等方法作出判断,确认为粗差,将其删除。
-ε 0 +ε
第二节 误差的估算
1. 绝对误差
实际的测量值X 总是与真值有差距。我们把测量结果与被测量的真值X 0之间的差值叫绝对误差,用∆X 表示。绝对误差反映了测量结果的精确程度。
∆X =X −X 0
2. 相对误差
测量的绝对误差与被测量的真值之比叫相对误差。记为E r 。其估算方法为
E r =
∆X
×100% X
相对误差反映了测量结果的相对精确程度。 3. 测量列的标准偏差
我们实际的测量是有限次的测量,真值是不可知的,因此实际上估算标准误差一般采用下式(称为贝塞尔公式)进行估算:
σx =
∑(X
i =1
n
i
−) 2
n −1
式中σx 称为测量列的标准偏差。
需要注意的是:测量值的标准偏差并不表示测量值的误差的实际大小,因为测量值的偶然误差是随机的,所以测量值的标准偏差只表示:任一测量值的误差落在区域(-σx 、+σx )内的概率为 68.3%,这就是标准偏差的统计意义。
4.. 算术平均值的标准偏差
. 算术平均值也是一个随机变量,在完全相同的条件下,进行不同组的有限次重复测量的平均值不尽相同,也具有离散性,存在偏差。因此,引入算术平均值的标准偏差,用σ表示。
σ=
n
1
X i −X ∑n (n −1) i =1
()
2
σ也是一个统计性的特征量,其表示测量值的算术平均值的随机误差落在(- σ,+σ)区间的
概率为68.3% 。σ反映了算术平均值接近真值的程度。
由上式可知,n f 10以后σ变化缓慢,因此利用增加测量次数而减小随机误差的办法,已经没有多少实际意义,另一方面重复测量对减小系统误差并不起作用,所以在实际测量中,综合考虑各种
因素,测量次数一般取5~10次。
第三节 测量结果的评定
一、 传统的评定方法
定性评定测量结果的传统方法,通常是用精密度、准确度和精确度三个概念来说明。
1测量的精密度高,是指测量数据的离散性小,即随机误差小。但是测量数据是否集中于真值附近不明确。(系统误差的大小不明确)。
2.准确度:是指测量值与真值之间符合的程度。它反映了系统误差的大小,测量的准确度高,是指测量数据的算术平均值偏离真值较小,测量结果与真值接近的程度好。
3程度。测量的精确度高,是指测量数据比较集中在真值附近,即测量的结果既精密、又准确,系统误差和随机误差都比较小。 二、不确定度的评定方法1.不确定度的定义
定义:对某物理量进行测量,其测量值Y 与真值Y 0之差的绝对值以一定的概率分布在-U~U之间,表示为−Y 0≤U
实验时如果不要求对待测量进行“可定系统误差”修正,Y 0就取近真值,即
Y =±U
其中,U 值可通过一定方式进行估算,称U 为测量不确定度。
意义:U 表征真值以某种置信概率存在的范围,是对测量结果不确定性的度量。 说明:
(1) 测量不确定度U 反映了对被测量真值不能肯定的程度,用以表征测量结果的分散性和测量值可信赖程度。U 小,表明测量结果更接近真值,可信程度高。
(2)不确定度的含义表示测量量的真值落在[−U , +U ]区间的概率为68.3%。即置信概率为68.3%。如果取[−2U , +2U ]或[−3U , +3U ]其所表示的置信概率分别为95.5%或99.7% 。
(3)不确定度与误差是两个不同的概念。
误差:测量值与真值之差。由于真值是无法知道的,因此误差是一个理想概念,不可能准确求得
的量,因此不能用指出误差的方法去说明测量的可信赖程度。不确定度:表示误差可能存在的范围,其大小可由一定方法计算出或估算出。
不确定度大,不一定误差的绝对值也大。
不确定度的引入并不意味着误差需放弃使用。实际上,误差仍可用于定性的描述理论和概念的场合;不确定度则用于给出具体数值或进行定量运算、分析的场合。 2.不确定度的分量
在修正了可定系统误差之后,测量结果的不确定度可分为A 、B 两类分量,常称为A 类不确定度和
B 类不确定度。
(1)A 类——用统计方法评定的不确定分量,用U A 表示。
进行有限次测量时,测量误差不完全服从正态分布而是服从t 分布(也叫学生分布),总不确定度的A 类不确定分量为
U A =
t p n
σx =t p σ
其中,t p 的值可从专门的数据表中查得(见下表),在n f 5和P=68.3%的条件下,可取U A =σ
注:如果只进行一次测量,U A =0
(2) B 类——用其他方法评定的不确定度分量。用U B 表示。
在普通实验里,B 类不确定度一般简化为由仪器引起,即U B =在大学物理实验中,大多数情况下进行简化处理,K B 取1,即
∆仪
K B
U B =∆仪
式中,∆仪为仪器的最大允差,由生产厂家或由实验室结合具体测量方法和条件给出。 对量具仪表可取其最小刻度的一半。即
∆仪=最小刻度/2。
K B 是一个与仪器误差分布有关的因子。如果实验室给出所使用仪器的仪器误差服从均匀分布,取
K B =3
3. 合成不确定度U (总不确定度)
合成方法:不同类分量按“方和根”合成;同类独立分量按“方和”合成。
22
U =A +U B
一般地说,U A 和U B 本身可能包含着若干个独立分量。这时,要计算不确定度,首先要求出所有的A 类和B 类分量,然后再合成不确定度U 。
例:设测量结果的不确定度的A 分量和B 分量的表征值分别为 U A1、U A2、U A3、……; U B1、U B2、U B3、……; 且彼此独立,则
U A 2=∑U Ai 2。 U B 2=∑U Bj 2。 合成不确定度为 U=
∑U A i +∑U B j 。
2
2
2
2
即 U=A +U B 。 评价测量结果,有时也要写出相对不确定度
E =
U
×100% 一般情况下,计算不确定度时,不确定度的数值只保留1位有效数字,最多不超过两位。
三、测量结果的计算程序步骤(直测量) 1.对测量数据中的可定系统误差加以修正;
1n
2.计算测量列的算术平均值=∑X i ,作为测量结果的最佳值;
n i =1
3.用σ=
n
1
X i −∑n (n −1) i =1
()
2
作为A 类不确定度分量U A ;
4.估算不确定度的B 分量,U B =∆仪/3; 5.求合成不确定度U=A +U B
6.写出最终结果表示式: 待测量X=±U 。
2
2
相对不确定度为E =
U
×100% 例1:用毫米刻度的米尺,测量物体长度l (cm)十次,其测量值分别为
53.27,53.25,53.23,53.29,53.24,53.28,53.26,53.20,53.24,53.21 试计算合成不确定度,并写出测量结果。 [解]:
1. 计算l 的近似真值l
1101
=∑l i =(53. 27+53. 25+53. 23+⋅⋅⋅+53. 21) =53. 24(cm )
n 110
2. 计算A 类不确定度
U A l =
n
1
l i −∑n (n −1) i =1
()
2
=
(53. 27−53. 24) 2+(53. 25−53. 24) 2+⋅⋅⋅+(53. 21−53. 24) 2
=0.0095(c
10×(10−1)
m)
3. 计算B 类不确定度
U B =
4. 合成不确定度
∆仪K B
=
最小刻度/2
=
0. 05=0.029(cm)
U =A l +U B l =0. 00952+0. 0292=0. 031(cm )
5. 测量结果的标准式为l =l ±U
22
l =53.24±0.031(cm)
相对不确定度为E =
四、间接测量结果的表示 1. 间接测量量的平均值
U 0. 031×100%=×100%=0. 058% 53. 24
设间接测量量f 与彼此独立的直接测量量x 、y 、z 间的函数关系为 f =f (x , y , z )
直接测量结果用平均值和不确定度表示为
x =x ±U X y =y ±U Y z =z ±U Z
则间接测量量的平均值为:f =f x , y , z 。 2.间接测量量的不确定度
2
2
2
)
⎛∂f ⎞2⎛∂f ⎞2⎛∂f ⎞2
⎟⎜⎟⎜⎟ U =⎜⎜∂x ⎟U x +⎜∂y ⎟U y +⎜∂z ⎟U z ⎝⎠⎝⎠⎝⎠
相对形式为
⎛∂ln f U
=⎜ E =⎜∂x ⎝
其中
⎞2⎛∂ln f
⎟U x +⎜⎟⎜∂y ⎠⎝
2
⎞2⎛∂ln f
⎟U y +⎜⎟⎜∂z ⎠⎝
2
⎞2
⎟U z ⎟⎠
2
∂∂ln ∂f ∂ln f 、分别为、在x , y , z 点处的值。 ∂x ∂x ∂x ∂x
)
3.间接测量量结果的表示
待测量:f =f ±U ; 相对不确定度为:E =4、间接测量结果的计算程序步骤
(1)计算各直接测量量的平均值、、; (2)计算各直接测量量的合成不确定度U X 、U Y 、U Z ;
(3)将各直接测量量的平均值代入式f =f x , y , z 中,计算出间接测量量的平均值; (
4
)
计
2
U
×100% )
算间接测
2
量量的
2
合成不确定度的相对形式
⎛∂ln U
E ==⎜⎜∂x ⎝⎞2⎛∂ln ⎟U x +⎜⎟⎜∂y ⎠⎝⎞2⎛∂ln ⎟U y +⎜⎟⎜∂z ⎠⎝⎞2
⎟U z ; ⎟⎠
(5)不确定度U =E
(6)写出间接测量最终结果表示式及相对不确定度。
4π2l
例:用单摆测量重力加速度的实验公式为g =
T 2
,并测得
l =69. 0±0. 22(cm ), T =1. 688±0. 0072(s ) ,求测量结果的表示。
解:(1)各直接测量量的平均值 =69. 0(cm )
, =1. 688(s )
, U T =0. 0072(s )
(2)各直接测量量的合成不确定度U l =0. 22(cm )
(3)各直接测量量的平均值代入式f =f x , y , z 中,计算出间接测量量的平均值,
)
4π24×3. 142×69. 02
===9. 780(m /s ) 22
1. 688
(4)计算间接测量量的合成不确定度的相对形式。对g 取对数得ln g =ln 4π+ln l −ln T 求偏导
2
2
∂ln g 1∂ln g 2
=; =− ∂l ∂T l T
2
2
2
2
U ⎛∂ln g ⎞2⎛∂ln g ⎞2⎛1⎞2⎛2⎞2E ==⎜⎟U l +⎜⎟U T =⎜⎟U l +⎜−⎟U T
⎝∂l ⎠⎝∂T ⎠⎝l ⎠⎝T ⎠⎛1⎞⎛2⎞22=⎜⎟×0. 22+⎜⎟×0. 0072=0. 0092⎝69. 0⎠⎝1. 688⎠
2
2
(5)不确定度U =E =0. 088(m /s ) (6)测量结果g =±U =9. 78±0. 09
2
第四节 有效数字及其运算
一、有效数字的意义 1. 仪器的读数规则
在实验中,使用仪器读取待测量的数值时,所读取的数字的准确程度直接受仪器本身的精密度——最小刻度的限制。为了获得较好的测量结果,在读取数字时,我们通常的作法是:首先读出能够从仪器上直接读出的准确数字,对余下部分再进行估计读数。即将读数过程分为直读和估读。例如,如图2所示,用米尺测量一物体的长度时,物体的长度在7.4~7.5厘米之间。那么首先直读,可以直接读出的部分——准确数字应为7.4cm ;然后估读,估计余下部分约为0.5mm ,即0.05cm ;物体的长度即为7.45cm 。则,其中7.4cm 部分为可靠数字,0.05cm 部分为存疑数字。
2.有效数字的定义
图0-2 用米尺测量物体长度
我们把通过直读获得的准确数字叫做可靠数字;把通过估读得到的那部分数字叫做存疑数字。把测量结果中能够反映被测量大小的带有一位存疑数字的全部数字叫有效数字。如上例中测得物体的长度7.45cm 。数据记录时,我们记录的数据和实验结果的表述中的数据便是有效数字。 3. 说明
(1)实验中的数字与数学上的数字是不一样的。如 数学的 8.35=8.350=8.3500 , 而实验的 8.35≠8.350≠8.3500。
(2)有效数字的位数与被测量的大小和仪器的精密度有关。如前例中测得物体的长度为7.45cm ,若用千分尺来测,其有效数字的位数有五位。
(3)第一个非零数字前的零不是有效数字。
(4)第一个非零数字开始的所有数字(包括零) 都是有效数字。
(5)单位的变换不能改变有效数字的位数。因此,实验中要求尽量使用科学计数法表示数据。如100.2m 可记为0.1002km 。但若用cm 和mm 作单位时,数学上可记为10020cm 和100200mm ,但却改变了有效数字的位数。采用科学计数法就不会产生这个问题了。可得
1. 002×102m=1. 002×10−1km=1. 002×104cm=1. 002×105mm 。
(6)有效数字与不确定度的关系。
有效数字的末位是估读数字,存在不确定性。一般情况下不确定度的有效数字只取一位,其数位即是测量结果的存疑数字的位置;有时不确定度需要取两位数字,其最后一个数位才与测量结果的存疑数字的位置对应。
由于有效数字的最后一位是不确定度所在的位置,因此有效数字在一定程度上反映了测量值的不确定度(或误差限值)。测量值的有效数字位数越多,测量的相对不确定度越小;有效数字位数越少,相对不确定度就越大。可见,有效数字可以粗略反映测量结果的不确定度。 二、运算规则
一般来讲,有效数字的运算过程中,有很多规则。为了应用方便,我们本着实用的原则,加以选择后,将其归纳整理为如下两类。 1. 一般规则
(1)可靠数字之间运算的结果为可靠数字。
(2)可靠数字与存疑数字,存疑数字与存疑数字之间运算的结果为存疑数字。 (3)测量数据一般只保留一位存疑数字。
(4)运算结果的有效数字位数不由数学或物理常数来确定,数学与物理常数的有效数字位数可任意选取,一般选取的位数应比测量数据中位数最少者多取一位。例如:可取π=3.14或3.142或3.1416……;在公式E k =
12
mv 中计算结果不能由于“2”的存在而只取一位存疑数字,而要根据m 和v 来决定。 2
(5)运算结果将多余的存疑数字舍去时应按照“四舍六入五凑偶”的法则进行处理。即小于等于四则舍;大于等于六则入;等于五时,根据其前一位按奇入偶舍处理(等几率原则) 。例如,3.625化为3.62,4.235则化为4.24。
2.具体规则
(1)有效数字相加(减) 的结果的末位数字所在的位置应按各量中存疑数字所在数位最前的一个为准来决定。例如
取30.4+4.325=34.7,26.65-3.905=22.74。
(2)乘(除) 运算后的有效数字的位数与参与运算的数字中有效数字位数最少的相同。 由此规则(2)可推知:乘方、开方后的有效数字位数与被乘方和被开方之数的有效数字的位数相同。如:45.6有三位有效数字,乘方、开方后还取三位有效数字。
(3)指数、对数、三角函数运算结果的有效数字位数由其改变量对应的数位决定。例如:35. 58中存疑数字为0.08,那么Sin 35. 58=?我们将35. 58的末位数改变1后比较,找出Sin 35. 58发生改变的位置就能得知。因为,Sin 35. 58=0. 58183911,而Sin 35. 59=0. 58198105,则Sin 35. 58=0. 5818。
(4)有效数字位数要与不确定度位数综合考虑。
测量结果的完整表示应包括所测物理量的平均值、不确定度和单位,表示形式为:
y =±U y , E =
U y ×100%
U y 一般只取一位有效数字。当U y 的第一位数字为1、2、3时可取两位有校数字。
不确定度尾数的确定采用“只入不舍”的方法。例如,U y =0.2341,则结果可写为U y =0.24 测量结果的有效数字位数应按其最后一位数字与U y 的有效数字位对齐为原则来确定。其尾数按“小于5舍,大于5进,等于5凑偶”的原则进行取舍。例如,若测量结果的计算数值=1.53548,不确定度的计算数值U y =0.054247,则结果为y =1. 54±0. 06
U y 用两位数的百分数表示。
第五节 数据处理的基本方法
常用的数据处理方法有:列表法、图示法、图解法、逐差法和最小二乘线性拟合法等,下面分别予以简单讨论。 一、列表法
列表法是将实验所获得的数据用表格的形式进行排列的数据处理方法。列表法的作用有两种:一是记录实验数据,二是能显示出物理量间的对应关系。一般来讲,在用列表法处理数据时,应遵从如下原则:
(1)栏目条理清楚,简单明了,便于显示有关物理量的关系。
(2)在栏目中,应给出有关物理量的符号,并标明单位(一般不重复写在每个数据的后面) 。 (3)填入表中的数字应是有效数字。 (4)必要时需要加以注释说明。
例如,用螺旋测微计测量钢球直径的实验数据列表处理如下:
从表中,可计算出平均值 =不确度的A 分量为
∑D
n
i
=5. 9967(mm ),可取D ≈5. 997mm ,
U A =
(D
i
−) 2
n n −1 ≈0. 00038(mm )
B 分量为(按均匀分布) U B =
2
2
∆ ≈0. 0023(mm )
则 U =A +U B ≈0. 0024(mm ) 取 U =0. 00(mm)
测量结果为D =5. 997±0. 003(mm)。
二、图示法
图示法就是用图象来表示物理规律的一种实验数据处理方法。要想制作一幅完整而正确的图线,必须遵循如下原则及步骤:
1.选择合适的坐标纸。作图一定要用坐标纸,常用的坐标纸有直角坐标纸; 2.确定坐标原点的位置:原点不一定都是从零开始,要根据实际数据情况选择。
3.画坐标轴:选择合适比例,最好是准确数字在图上能准确表示,可疑数字在图上也是估计的,写出轴代表的量、符号、单位,使得做出的图形整体分布合理,美观大方。
4. 描点。根据测量获得的数据,用一定的符号在坐标纸上描出坐标点。一张图纸上画几条实验曲线时,每条曲线应用不同的标记,以免混淆。常用的标记符号有☉、╂、△、□等。
5. 连线。要绘制一条与标出的实验点基本相符的图线,图线尽可能多的通过实验点,由于测量误差,某些实验点可能不在图线上,应尽量使其均匀地分布在图线的两侧。图线应是直线或光滑的曲线或折线
6. 注解和说明。应在图纸上标出图的名称,有关符号的意义和特定实验条件。 三、图解法
图解法是在图示法的基础上,利用已经作好的图线,定量地求出待测量或某些参数或经验公式的方法。 由于直线不仅绘制方便,而且所确定的函数关系也简单等特点,因此,对非线性关系的情况,应在初步分析、把握其关系特征的基础上,通过变量变换的方法将原来的非线性关系化为新变量的线性关系。即,将“曲线化直”。然后再使用图解法。下面仅就直线情况简单介绍一下图解法的一般步骤:
1. 选点。通常在图线上选取两个点,所选点一般不用实验点,并用与实验点不同的符号标记,此两点应尽量在直线的两端。如记为A (x 1, y 1)和B (x 2, y 2),并用“+”表示实验点,用“☉”表示选点。
2. 求斜率。根据直线方程y =kx +b ,将两点坐标代入,可解出图线的斜率为 k =
y 2−y 1
。
x 2−x 1
3. 求与y 轴的截距。可解出 b =
x 2y 1−x 1y 2
。
x 2−x 1x 2y 1−x 1y 2
。
y 1−y 2
4. 与x 轴的截距。记为 X 0=
例如,用图示法和图解法处理热敏电阻的电阻R T 随温度T 变化的测量结果。 (1)曲线化直:根据理论,热敏电阻的电阻—温度关系为 R T =ae
。
为了方便地使用图解法,应将其转化为线性关系,取对数有 ln R T =ln a +令y =ln R T ,a ′=ln a ,x =
b 。 T
1
,有 y =a ′+bx 。 T
这样,便将电阻R T 与温度T 的非线性关系化为了y 与x 的线性关系。
(2)转化实验数据:将电阻R T 取对数,将温度T 取倒数,然后用直角坐标纸作图,将所描数据点用直线连接起来。
(3)使用图解法求解:先求出a ′和b ;再求a ;最后得出R T ~T 函数关系。
四、逐差法
由于随机误差具有抵偿性,对于多次测量的结果,常用平均值来估计最佳值,以消除随机误差的影响。但是,当自变量与因变量成线性关系时,对于自变量等间距变化的多次测量,如果用求差平均的方法计算因变量的平均增量,就会使中间测量数据两两抵消,失去利用多次测量求平均的意义。例如,在拉伸法测杨氏模量的实验中,当荷重均匀增加时,标尺位置读数依次为x 0, x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8, x 9,如果求相邻位置改变的平均值有
∆x =
1
[(x 9−x 8)+(x 8−x 7)+(x 7−x 6)+(x 6−x 5)+K +(x 1−x 0)] =1[x 9−x 0] 99
即中间的测量数据对∆x 的计算值不起作用。为了避免这种情况下中间数据的损失,可以用逐差法处理数据。
逐差法是物理实验中常用的一种数据处理方法,特别是当自变量与因变量成线性关系,而且自变量为等间距变化时,更有其独特的特点。
逐差法是将测量得到的数据按自变量的大小顺序排列后平分为前后两组,先求出两组中对应项的差值(即求逐差) ,然后取其平均值。例如,对上述杨氏模量实验中的10个数据的逐差法处理为: 1. 将数据分为两组
Ⅰ组:x 0, x 1, x 2, x 3, x 4; Ⅱ组:x 5, x 6, x 7, x 8, x 9; 2. 求逐差:x 5−x 0,x 6−x 1,x 7−x 2,x 8−x 3,x 9−x 4 3. 求差平均:∆x =
1
[(x 5−x 0)+K +(x 9−x 4)] 5
Ⅰ组
Ⅱ组
逐差(x i +5−x i )
在实际处理时可用列表的形式较为直观,如:
x 0
x 1 x 2
x 5 x 6 x 7 x 8 x 9
x 5−x 0 x 6−x 1 x 7−x 2 x 8−x 3 x 9−x 4
n
倍(n 为x i 的数据个数) 。 2
x 3
x 4
但要注意的是:使用逐差法时之∆x ,相当于一般平均法中∆x 的
五、最小二乘法
通过实验获得测量数据后,可确定假定函数关系中的各项系数,这一过程就是求取有关物理量之间关系的经验公式。从几何上看,就是要选择一条曲线,使之与所获得的实验数据更好地吻合。因此,求取经验公式的过程也即是曲线拟合的过程。
那么,怎样才能获得正确地与实验数据配合的最佳曲线呢?常用的方法有两类:一是图估计法,二是最小二乘拟合法。
图估计法是凭眼力估测直线的位置,使直线两侧的数据均匀分布,其优点是简单、直观、作图快;缺点是图线不唯一,准确性较差,有一定的主观随意性。如,图解法,逐差法和平均法都属于这一类,是曲线拟合的粗略方法。
最小二乘拟合法是以严格的统计理论为基础,是一种科学而可靠的曲线拟合方法。此外,还是方差分析、变量筛选、数字滤波、回归分析的数学基础。在此仅简单介绍其原理和对一元线性拟合的应用。
1. 最小二乘法的基本原理 设在实验中获得了自变量x i 与因变量y i 的若干组对应数据(x i , y i ),在使偏差平方和
2
()[y −f x ]∑i i
取最小值时,找出一个已知类型的函数y =f (x )(即确定关系式中的参数) 。这种求解f (x )的方法称为最小二乘法。
d
根据最小二乘法的基本原理,设某量的最佳估计值为x 0,则
dx 0
∑(x
i =1
n
i
−x 0)=0
2
1n
可求出 x 0=∑x i
n i =1
即 x 0=x
d 2
而且可证明 2
dx 0
n
∑(x
i =1
n
i
−x 0)=∑(2)=2n >0
2
i =1
n
说明
2
()x −x ∑i 0可以取得最小值。 i =1
可见,当x 0=x 时,各次测量偏差的平方和为最小,即平均值就是在相同条件下多次测量结果的最佳值。
根据统计理论,要得到上述结论,测量的误差分布应遵从正态分布(高斯分布) 。这也即是最小二乘法的统计基础。
2. 一元线性拟合
设一元线性关系为 y =a +bx , 实验获得的n 对数据为(x i , y i )(i =1,2,…,n )。由于误差的存在,当把测量数据代入所设函数关系式时,等式两端一般并不严格相等,而是存在一定的偏差。为了讨
论方便起见,设自变量x 的误差远小于因变量y 的误差,则这种偏差就归结为因变量y 的偏差,即
νi =y i −(a +bx i )
根据最小二乘法,获得相应的最佳拟合直线的条件为
∂n 2∂n 2
νi =0 νi =0 ∑∑∂a i =1∂b i =1
若记
I xx = I yy I xy
1
()x −x =x −∑∑n (∑x )
1
=∑(y −y )=∑y −(∑y )
n
1
=∑(x −)(y −)=∑(x y )−x •∑y ∑n
2
i
2
i
2
i
2
i
2i
2
i
i i i i
2
i i
代入方程组可以解出
a =y −b x b =
I xy I xx
由误差理论可以证明,最小二乘一元线性拟合的标准差为
S a =
x
n ∑x −∑x 2i 2i
i
2
•S y
S b =
n
n ∑x −∑x i 2i
2
•S y
S y =
2
y −a −bx i i
n −2
为了判断测量点与拟合直线符合的程度,需要计算相关系数 r =
I xy xx •yy
一般地,r ≤1。如果r →1,说明测量点紧密地接近拟合直线;如果r →0,说明测量点离拟合直线较分散,应考虑用非线性拟合。
从上面的讨论可知,回归直线一定要通过点x , y ,这个点叫做该组测量数据的重心。注意,此结论对于我们用图解法处理数据是很有帮助的。
一般来讲,使用最小二乘法拟合时,要计算上述六个参数:a , b , S a , S b , S y , r 。
)