数据特征的测度
数据特征的测度
统计数据经过整理和显示后,我们对数据分布的类型和特点就有了一个大致的了解,但这种了解只是表面上的,还缺少代表性的数量特征值准确地描述出统计数据的分布。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。对统计数据分布的特征,我们可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面,这里我们主要讨论集中趋势和离散程度的测度方法。
(一)集中趋势的测度
集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。集中趋势的测度值主要有众数、中位数、均值、几何平均数等几种。
1. 众数
众数是一组数据中出现次数最多的变量值,用M 0表示。例如,下面是抽样调查的10个家庭住房面积(单位:平方米)的数据:
55 75 75 90 90 90 90 105 120 150
这10个家庭住房面积的众数为90。即M 0=90(平方米) 众数是一个位置代表值,它的特点是不受数据中极端值的影响。 2. 中位数
中位数是一组数据按一定顺序排序后,处于中间位置上的数值,用M e 表示。显然,中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。
根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为:
中位数位置=
n +1
2
式中的n 为数据的个数,最后确定中位数的具体数值。
设一组数据为x 1,x 2,…,x n ,按从小到大排序后为x (1) ,x (2) ,…,x (n ) ,则中位数可表示为:
当n 为奇数时⎧x n +1
() ⎪2⎪
M e =⎨1⎛⎫
⎪ x n +x n ⎪当n 为偶数时
+1⎪2 ⎪22⎝⎭⎩
例如,在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:
元):
750 780 850 960 1080 1250 1500 1650 2000
中位数位置=(9+1)÷2=5,中位数为1080,即M e =1080(元)。 假定我们抽取了10个家庭,每个家庭的人均月收入数据为: 660 750 780 850 960 1080 1250 1500 1650 2000 这时,中位数位置=(10+1)÷2=5.5,中位数为1020,即:
M e =
960+1080
=1020(元)
2
中位数是一个位置代表值,其特点是不受极端值的影响,在研究收入分配时很有用。 3. 均值
均值也称为算术平均数,它是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值,根据所掌握数据的不同,均值有不同的计算形式和计算公式。
(1)简单均值。根据未经分组整理的原始数据计算均值。设一组数据为x 1,x 2,…,
x n ,则均值x (读作x-bar )的计算公式为:
x =
x 1+x 2+ +x n
=
n
∑x i
i =1
n
n
例如,根据下面的例子,计算10个家庭的平均住房面积。 55 75 75 90 90 90 90 105 120 150
x =
55+75+ +120+150
=94(平方米)
10
(2)加权均值。根据分组整理的数据计算均值。设原始数据被分成k 组,各组的组中值为x 1,x 2,…,x k ,各组变量值出现的频数分别为f 1,f 2,…,f K ,则均值的计算公式可以写为:
x f +x 2f 2+ +x k f k x =11=
f 1+f 2+ +f k
∑x i f i
i =1k
k
∑f i
i =1
例如,假定我们在某城市中随机抽取50个家庭,调查住房面积,经分组后结果如表。计算50个家庭的平均住房面积。
计算过程见表。
4-7 某城市50个家庭住房面积均值计算表
代入上面的公式得:
∑x i f i
x =
i =1k
k
=
∑f i
i =1
4940
=98. 8(平方米) 50
从加权均值可以看出,其数值的大小不仅受各组变量值(x i )大小的影响,而且受各组变量值出现的频数即权数(f i )大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。实际上,我们将加权均值变形为下面的形式,就能更清楚地看出这一点。
∑x i f i
x =
i =1k
k
∑f i
i =1
=∑x i ⋅
i =1
k
f i
∑f i
i =1
k
由上式可以清楚地看出,加权均值受各组变量(x i )值大小和各组权数f i
∑f i 大小
i =1
k
的影响。当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上面的公式计算均值。
均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,均值是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如我们对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用均值作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。均值的缺点是容易受极端值的影响。
4. 几何平均数
几何平均数是n 个变量值乘积的n 次方根,计算公式为:
G =x 1⨯x 2⨯ ⨯x n =∏x i
i =1
n
式中:G 表示几何平均数,∏为连乘符号。 几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率或速度的平均。当我们所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率,这时就应采用几何平均法计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的平均发展速度。
例如,一位投资者持有一种股票,在1996、1997、1998和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。
解:根据几何平均数的计算公式得:
G =x 1⨯x 2⨯ ⨯x n
=. 5%⨯102. 0%⨯103. 5%⨯105. 4%
=103.84%
即该投资者的年平均收益率为103.84%-100%=3.84%。
(二)离散程度的测度
集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。而各变量值之间的差异状况如何呢?这就需要考查数据的分散程度。数据的分散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值的程度。我们知道,集中趋势的各测度值是对数据一般水平的一个概括性度量,它对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好。
数据离散程度测度值有很多,这里我们主要介绍极差、标准差和离散系数等。 1. 极差
极差也称全距,它是一组数据的最大值与最小值之差。即: 极差=最大值-最小值 例如,根据上面10个家庭月人均收入的数据,计算的极差为:极差=139-107=32(件)。 极差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
2. 标准差
标准差是各变量值与其均值离差平方和的平均数的平方根,它是数测量数据离散程度的最主要方法,也是实际中应用最广泛的离散程度测度值。
设标准差为σ,对于未经整理的原始数据,标准差的计算公式为:
∑(x i -x ) 2
σ=
i =1
n
n
k
对于组距分组数据,标准差的计算公式为:
σ=
∑(x -x ) 2f i
i =1
∑f i
i =1
k
标准差与变量值的计量单位相同,其实际意义比较清楚。因此,在对社会经济现象进行分析时主要使用标准差。
例如,根据表4-7中的数据,计算50个家庭住房面积的标准差。 计算过程见表。
某城市50个家庭住房面积标准差计算表
根据上面的计算公式得:
k
σ=
∑(x -x ) 2f i
i =1
∑f i
i =1
k
=
28328
=23. 8(平方米) 50
结果表明,每个家庭的住房面积与平均数相比,平均相差23.8平方米。 3. 离散系数
上面介绍的标准差是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的均值大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的几组数据,是不能用上述离散程度的测度值直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
离散系数通常是就标准差来计算的,因此也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:
V σ=
σ
x
离散系数的作用主要是用于比较对不同组别数据的离散程度。离散系数大的说明数据的离散程度也就大,离散系数小的说明数据的离散程度也就小。
例如,某集团公司所属的8家子公司,其产品销售数据如表。试比较产品销售额与销售利润的离散程度。
需要计算离散系数。由表中数据计算得:
x 1=536.25(万元) σ1=289.22(万元) V 1=
289. 22
=0. 539
536. 25
21. 60
=0. 664 x 2=32.5215(万元) σ2=21.60(万元) V 2=
32. 5125
计算结果表明,V 1 V 2,说明产品销售额的离散程度小于销售利润的离散程度。