第三章 统计数据的整理与显示
第三章 数据的整理与显示
教学目的与要求:统计整理是介于统计调查与统计分析之间的一个重要环节,是从对社会经济现象个体量的观察到对社会经济现象总体量的认识的连结点。在统计工作全过程中起着承前启后的作用。通过本章的学习,要求明确统计整理的意义、内容和步骤;掌握统计分组的涵义及作用、正确选择分组标志的原则及分组方法;掌握分配数列的概念、种类、编制方法;熟悉统计表的结构及设计要求。
教学重点与难点:重点为统计分组的概念、作用;正确选择分组标志的原则、方法;分配数列的编制。难点为分组标志的选择和次数分布的特征。
通过各种方法或渠道将数据搜集上来之后,首先需要对这些数据进行加工处理,使之系统化、条理化,以符合分析的需要,同时用图表形式将数据展示处理,以便简化数据,使之更容易理解和分析。
第一节 数据的预处理
一、数据审核与筛选
在对统计数据进行整理时,首先需要进行审核,以保证数据的质量,为进一步的整理与分析打下基础。从不同渠道取得的统计数据,在审核的内容和方法上有所不同,不同类型的统计数据在审核内容和方法上也有所差异。
1. 对于通过直接调查取得的原始数据,应从完整性和准确性两个方面审核:
完整性审核:主要检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。
准确性审核:一是检查数据资料是否真实反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。
逻辑检查:主要从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象,主要用于分类数据和顺序数据的审核。如:中学文化程度的人所填的职业是大学教师。
计算检查:是检查调查表中的各项数据在计算结果和计算方法上有无错误,主要用于数值型数据的审核。如,各分项数字之和是否等于相应的合计数,各结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同等。
2. 对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。对于使用者来说,首先应弄清数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,是否需要重新加工整理等。此外,还要对数据的时效性进行审核。一般来说应尽可能使用最新的统计数据。
3. 调查结束后,当数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。
二、数据的排序
对于定类数据,如果是字母型数据,排序有升序与降序之分,但习惯升序;如果是汉字型数据,排序方式很多,如按汉字的首位拼音字母排列,也可按笔画排序。
定距和定比数据的排序只有两种,即递增和递减。设一组数据为X 1, X 2, , X N ,递增排序后可表示为:X (1)X (2)> >X (N )。
第二节 分类和顺序数据的整理与显示
数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理时,首先要弄清数据的类型,因为对不同类型的数据所采取的处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,对数值型数据则主要做分组整理。适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据。
一、分类数据的整理与显示
分类的数据本身就是对事物的一种分类,因此在整理时除了要列出所分的类别外,还要计算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特征有一个初步了解。
(一)频数与频数分布
1. 频数。“次数”,是落在各类别中的数据个数。把各个类别及其相应的频数全部列出来就是频数分布或称次数分布。将频数分布用表格的形式表现出来就是频数分布表。
2. 比例。是一个总体中各个部分的数值占全部数值的比重,通常用于反映总体的构成或
结构。假定总体数量N 被分成K 个部分,每部分的数量分别为N 1, N 2, , N K ,则比例定义为
N i
。各部分比例之和等于1。 N
表3-1 某大学在校学生的性别分布情况
各组名称
次数或频数
比例和频率
3. 百分比。将比例乘以100就是百分比或百分数。
4. 比率。是各不同类别的数量的比值,可以是一个总体(或样本)中各不相同部分的数量对比。如男女人数比率为21420:6580。为便于理解通常将分母化为1,如男女人数比率为3.26:1。比率由于不是总体(或样本)中部分与整体之间的对比关系,因而比值可能大于1。
(二)分类数据的图示
1. 条形图。是用宽度相同的条形的高度或长短来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形图,在表示分类数据的分布时,用条形图的高度来表示各类别数据的频数或频率,见P52图3-3。
2. 圆形图。“饼图”,是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。总体中各部分所占百分比用圆内的各个扇形角度来表示,见P52图3-4。
二、顺序数据的整理与显示
定类数据的整理与显示方法,如频数、比例、百分比等都适用于对定序数据的整理与显示。但有些方法适用于顺序数据,却不适用于分类数据。
(一)累积频数和累积频率
1. 累积频数。就是将各类别的频数逐级累加起来。一为向上累积:从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型数据则从变量值小的一方向变量值大的一方累加频数);二为向下累积。
2. 累积频率或百分比。就是将各类别的百分比逐级累加起来,也有向上累积和向下累积两种方法。
(二)顺序数据的图示
1. 累积频数分布图。根据累积频数或累积频率,可以绘制累积频数分布或频率图,见P54图3-5。
2. 环形图。环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。环形图与圆形图类似,但又有区别:(1)圆形图只能显示一个总体各部分所占的比例;(2)环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。环形图可用于结构比较研究,主要用于展示分类和顺序数据。见P55图3-6。
第三节 数值型数据的整理与显示
上一节介绍的分类数据和顺序数据的整理与图示方法,也都适用于数值型数据的整理与显示。但数值型数据还有一些特定的整理与图示方法,并不适用于分类数据和顺序数据。
一、数据分组
数值型数据表现为数字,因此在整理时通常是进行分组。分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,形成分组数据。分组后再计算出各组中数据出现的次数或频数,就形成一张频数分布表。数据分组方法有单变量值分组和组距分组两种。
单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量。
组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。 (一)单变量值分组
表3-2 某车间工人看管机器台数分布情况
各组变量值
次数
频率
1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况 (二)组距分组 1. 要点
•将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组 •适合于连续变量
•适合于变量值较多的情况
•需要遵循“不重不漏”的原则,“不重”指一项数据只能分在其中的一组,不能在其他
组中重复出现;“不漏”是指在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
•可采用等距分组(各组的组距相等),也可采用不等距分组
2. 步骤
(1)确定组数:组数的多少应适中,组数的确定应以能够显示数据的分布特征和规律为目的。若组数太少,数据的分布就会过于集中,而组数太多,数据的分布就会过于分散,不便于观察数据分布的特征和规律。在实际分组时,可以按斯特奇斯Sturges 提出的经验公式来确定组数K
lg(lg(n ) 对结果四舍五入取整数即为组数。这只是一个经验公式,实际应用时,K =1+
lg(lg(2) )
可根据数据的多少和特点及分析的要求,参考这一标准灵活确定组数。
(2)确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值 - 最小值) ÷ 组数
为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。
(3)统计出各组的频数并整理成频数分布表 3. 几个概念
(1)下限(low limit) :一个组的最小值 (2)上限(upper limit) :一个组的最大值 (3)组距(class width) :上限与下限之差
(4)组中值(class midpoint) :下限与上限之间的中点值,组中值=(上限+下限)/2 (5)上限组不在内:当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而算在下一组内。
对于离散变量,可以采用相邻两组组距间断的办法解决“不重”的问题。而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决不重的问题。可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
(6)开口组:如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”。开口组通常以相邻组的组距作为其组距。
(7)频数密度=频数÷组距 分类:
等距分组:各组的组距相等
⏹ 各组频数的分布不受组距大小的影响 ⏹ 可直接根据绝对频数来观察频数分布的特征
不等距分组:各组的组距不全相等
⏹ 各组频数的分布受组距大小不同的影响
⏹ 各组绝对频数的多少不能反映频数分布的实际状况
⏹ 需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况
组距分组掩盖了各组内的数据分布状况,为反映各组数据的一般水平,通常用组中值作为该组数据的一个代表值,但这种代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。
表3-3 某企业工人完成生产定额情况
各组变量值
次数
频率
二、数值型数据的图示
上一节介绍的条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有下面的一些图示方法,这些方法并不适用于分类和顺序数据。
通过数据分组后形成的频数分布表,可以初步看出数据分布的一些特征和规律。如果用图形来表示这一分布的结果,则更形象、直观。
(一)分组数据——直方图
•用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数
分布
•在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成
了一个矩形,即直方图
•直方图下的总面积等于1
图形见书P60图3-7。
(直方图与条形图的区别)
•条形图是用条形的长度(横置时) 表示各类别频数的多少,其宽度(表示类别) 则是固定的 •直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则
表示各组的组距,其高度与宽度均有意义
•直方图的各矩形通常是连续排列,条形图则是分开排列
•条形图主要用于展示分类数据,直方图则主要用于展示数值型数据
(二)分组数据—折线图(frequency polygon)
•折线图也称频数多边形图,见P61图3-8
•是在直方图的基础上,把直方图顶部的中点(组中值) 用直线连接起来,再把原来的直方
图抹掉
•折线图的两个终点要与横轴相交,具体的做法是:
⏹第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中
点与其竖边中点连接到横轴
⏹折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
当所分的组数很多时,组距就会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。
(三)未分组数据—茎叶图(P62图3-9,3-10)
•用于显示未分组的原始数据的分布
•由“茎”和“叶”两部分构成,其图形是由数字组成的 •以该组数据的高位数值作树茎,低位数字作树叶 •树叶上只保留一位数字
•对于n (20≤ n ≤300) 个数据,茎叶图最大行数不超过L = [ 10 × lg(n ) ] •茎叶图类似于横置的直方图,但又有区别
直方图可观察一组数据的分布状况,但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
(四)未分组数据—箱线图 单批箱线图:
箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 其绘制方法是:
(1)首先找出一组数据的5个特征值,即最大值、最小值、中位数M e 和两个四分位数(下四分位数Q L 和上四分位数Q U )
(2)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,见P64图3-11。 通过箱线图的形状,可以看出数据分布的特征,见P64图3-13。 多批箱线图:
可以将各批数据的箱线图并列起来,从而进行分布特征的比较。 (五)时间序列数据—线图(P68图3-16) 绘制线图时应注意以下几点
•时间一般绘在横轴,指标数据绘在纵轴
•图形的长宽比例要适当,其长宽比例大致为10:7
•一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大
时,可以采取折断的符号将纵轴折断
(六)多变量数据—雷达图(P69图3-17)
当研究的变量只有两个时,可以在平面直角坐标系中进行绘图,当有三个变量时,虽然可以在三维坐标里绘图,但看起来很不方便,特别是当变量多于三个时,利用一般的点图方法就很难做到了,为此研究多变量的图示方法。
•显示多个变量的图示方法
•在显示或对比各变量的数值总和时十分有用
•假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比 •可用于研究多个样本之间的相似程度
(雷达图的制作)
设有n 组样本S 1,S 2,„S n ,每个样本测得P 个变量X 1,X 2,X p ,要绘制这P 个变量的雷达图,其具体做法是:
⏹ 先做一个圆,然后将圆P 等分,得到P 个点,令这P 个点分别对应P 个变量,在将这P 个点与圆心连线,得到P 个幅射状的半径,这P 个半径分别作为P 个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
⏹ 再将同一样本的值在P 个坐标上的点连线。这样,n 个样本形成的n 个多边形就是一个雷达图
三、频数分布的类型
对称分布右偏分布
左偏分布
正J 型分布
反J 型分布U 型分布
第四节 统计表
统计表和统计图是显示数据的两种方式。统计表把杂乱的数据有条理地组织在一张简明的表格内,统计图把数据形象地显示出来。显然,统计表和统计图比看那些枯燥的数字更有趣。
一、统计表的结构
(一)从表的形式看,统计表由总标题、横行标题、纵栏标题和数字资料等部分构成。 (二)从表的内容看,统计表由主词和宾词两部分构成。
总标题
表3-3
某企业2001年年末职工人数
主 词
宾 词
纵栏
二、统计表的设计
•合理安排统计表的结构
•总标题内容应满足3W 要求(表明统计数据的时间、地点以及何种数据)
•数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列
标明
•表中的上下两条横线一般用粗线,其他线用细线 •通常情况下,统计表的左右两边不封口
•表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 •对于没有数字的表格单元,一般用“—”表示 •必要时可在表的下方加上注释