第三章 数据资料的整理
第三章 数据资料的整理
第一节 数据资料整理的基本问题
一、数据资料的整理
基本任务:去伪存真、去粗取精、科学分类和浓缩简化
二、数据资料整理的基本步骤
1. 对原始数据资料进行审核和检查:保证数据资料的准确性、完整性和及时性,审查
方法有逻辑审查方法和计算审查
2. 对原始资料进行分类或分组:组内同质性,组间差异性;穷尽和互斥,不重不漏
3. 对分组资料进行综合汇总:计算数据资料分布在各组的频数和各组次数的频率,还
可计算各组数据中的最大值、最小值、平均值、极差等。
4. 将汇总整理的结果进行显示:以图形或表格的形式进行显示
5. 做好统计资料的系统积累工作
第二节 统计分组
一、统计分组的意义:定性的分类
二、统计分组的作用
1. 划分现象的类型
2. 揭示总体的内部结构:通过频率反映
3. 分析现象之间的依存关系
三、统计分组的方法
(一) 分组标志
1. 根据研究的目的与任务选择分组标志
2. 要选择能够反映事物本质特征的标志为分组标志
3. 要根据现象所处的历史条件及经济条件选择分组标志
(二) 分组方法
1. 根据分组标志选用的多少
(1) 简单分组:只采用一个分组标志
(2) 复合分组:采用两个或两个以上的标志
2. 按分组标志的不同
(1) 品质标志分组
(2) 数量标志分组
(三) 分组体系
第三节 分配数列
一、分配数列的概念和种类
(一) 分配数列的概念:将总体单位按某一标志分组,再将分组的结果按一定顺序排列,
并且列出频数,从而形成总体单位在各组中的分布。
(二) 分配数列的种类:
1. 品质数列:反映总体中不同属性单位在各组中的分布情况
2. 变量数列:反映总体中各组间的数量差异和结构状况,基本构成要素,一是作
为分组标志的变量,用x 表示;二是总体分布在各组中的次数或频数,用f 表示。
根据变量的类型和变量值的多少分为单项式和组距式变量数列。组距式变量数
列:组限,每一组数据值中的最大值和最小值,即上限和下限;组距,每一组
变量值的上限与下限之差,分为等距数列和异距数列。有时可设置开口组,用
“某数值以下,某数值以上”来表示。
二、变量数列的编制
(一) 确定变量的类型,测定全距:离散型变量、连续型变量
(二) 确定组距和组数:设全距为R ,组距为d ,组数为n ,则n ×d=R
(三) 确定组限和组中值:规定组的上限不包括在本组之内。对闭口组而言:
组中值=(上限+下限)/2;对缺下限的开口组而言,组中值=上限—邻组组距/2;对缺上限的开口组而言,组中值=下限+邻组组距/2
(四) 计算各组的频数和频率
(五) 作出次数分布的直方图和折线图:如p70,对于不等距的分组,用次数密度代替频
数或频率作为分布要素,次数密度=各组次数/各组组距
三、累计次数分布
某一组的累计次数是到该组为止的各组次数之和,累计次数除以总次数即是各组的累计频率,同一数值的向上累计和向下累计之和是总数
(一) 向上累计:由变量值最小的组开始,依次向变量值最大的组累计
(二) 向下累计:由变量值最大的组开始,依次向变量值最小的组累计
四、次数分布的主要类型
(一) 钟形分布:p73
1. 对称的钟形分布:中间变量值分布的次数最多,其余的变量值对称地分布在中
间变量值的两边,也称正态分布。
2. 非对称的钟形分布:中间变量值分布的次数最多,其余的变量值非对称地分布
在两边,分为左偏分布和右偏分布,p74
(二) U 形分布:p74, 较大和较小的变量值出现的次数都偏大,而中等大的变量值出现的
次数最少。
(三) J 形分布
1. 正J 型分布:随着变量值的增大,分布的次数也随之增多
2. 反J 型分布:随着变量值的增大,分布的次数却随之减少。
第四节 统计资料的图形展示
一、定类数据的图形展示:只能计算出频数和频率
(一) 条形图(横置),柱形图(竖置)
(二) 圆形图,又叫饼图
二、定序数据的图形展示
(一) 累计频数分布图p78
(二) 环形图p80:可以同时展示两个以上总体的数据分布情况
三、定距数据和定比数据的图表展示
(一) 直方图和折线图:适合于展示已分组的数据资料
(二) 茎叶表p81
(三) 散点图:两个现象同时发生变化的相关数据,有助于判断现象之间的变化关系p82
(四) 折线图:将散点图中的点连起来即得到折线图
第五节 统计表
一、统计表的作用
二、统计表的结构
(一) 从表的内容上来看,由主词和宾词构成,主词是统计表所要说明的主体和统计结果,
宾词是统计表中用来说明主词的统计指标。
(二) 从表的构成要素看,统计表由表题、横行标题、纵栏标题、数据资料、附加说明构
成
三、统计表的种类
(一) 简单表:主词未经任何分组的统计表
(二) 简单分组表:按照某一标志进行简单分组的统计表
(三) 复合分组表:按照两个或两个以上的标志进行复合分组的统计表
四、编制统计表的规则p85
(1) 标明单位
(2) 上下栏数字对齐,不要求填写数字的空格用“—”代替,缺少数字用“…”代
替
(3) 采用开口式,上下两条边用粗线封口,左右两边不画边线。