统计与统计学
统计与统计学
统计:总括起来计算,是对某一现象或事物的有关资料进行搜集、整理、计算、分析的工作过程。
统计有三层含义:1、统计资料(statistical data),即反映各种现象的数据资料;2、统计工作(statistical work),即具体搜集、整理、分析统计资料的工作过程;属于统计实践的过程 3、统计学(statistics),即研究统计原理与方法的科学。为这种实践提供理论与方法的学问
统计学 :依据其作用分类1、应用统计学:与研究对象的特征密切结合的各科专门统计,如人口~、 医药~、经济~、工业~、体育~、生物~等,以本学科现象的数量形式为基础,对它们的规律性进行数量上的分析研究。教育统计学亦属于应用统计学的范畴2、数理统计学:为各门应用统计学提供数理方法基础的一门学科,其内容主要是运用概率的知识解释统计数据数量关系的模式。 教育统计
教育统计学(educational statistics):专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门学科。简言之,教育统计学是运用统计学的一般原理和方法研究教育科学领域数量关系的一门科学。
教育统计工作:各级教育行政管理部门的教育统计报表和相应制度,它作为教育行政部门管理系统的一部分,着重于统计数据的收集和管理工作。
统计学的内容
多元统计分析:进行教育或心理的研究和实验,常会受到多种因素的影响。而寻找主要的影响因素,把相近或相关的 因素合并或归类则是多元统计分析的主要任务。多元分析增强了心理与教育研究和实验的可靠性与准确性,使研究更贴近客观实际。
多元分析的理论深奥,计算复杂,因此在很长一段时间其应用受到限制。直到计算机技术发展与普及的今天,有了专门成熟的统计软件包,才使得多元统计分析法获得广泛的应用。
多元统计分析的主要内容有主成分分析、因素分析、聚类分析、多元方差分析、多元回归分析等等。
模糊统计学:教育、心理现象的不确定性,不仅表现为随机性,而且更多地表现为模糊性。因此,对心理与教育现象进行模糊性的描述也是必然的,不可缺少的。
预备知识:变量与数据
变量(variable):又称随机变量(random variable)。数学中把不断变化的,可取不同值的量称为变量;统计学则因观测数据具有变异性的特点(即数据总是在一定的时空范围内不断变化而具有变异性)称其为变量(即,具有变异性的数据)。如:学生身高。
数据(data)与变量:在统计学中把在取值之前不能预料到将取什么值的量称为变量(随机变量);如果某个数值一旦被取定,则称这个数值为随机变量的一个观察值,即数据。
变量的分类
1、名称变量(nominal variable),指一事物与其他事物在属性、类别上不同;如:性别、颜色。名称变量的统计方法主要有次数计算、百分比、χ2检验、φ相关等。
2、顺序变量(ordinal variable),事物的某一属性的多少或大小按顺序排列起来的变量;如:教师按能力大小或成绩高低排列等级。顺序变量的常用统计方法有中位数、百分位数、等级相关、秩次检验等。
3、等距变量(interval variable),数据具有相等的单位,但没有绝对零点;如:能力测验或知识测验。等距变量常用的统计方法有平均数、标准差、t检验、F检验、积差相关等。
4、比率变量(ratio variable),一种既有相等的单位,又有绝对零点的变量,又称等比变量;如人的身高与体重、距离、时间、教育投资、学校固定资产金额等。比率变量常用的统计方法除了上述方法外,还有几何平均数、相对差异量数等。
预备知识:统计术语初步
总体与个体
总体(population):客观存在的,并在同一性质的基础上结合起来的许多个别单位的整体,即具有某一特性的一类事物的全体,又叫母体或全域。统计总体具有同质性、大量性和差异性的特征,只有同时具备这三个特征才能形成真正意义上的统计总体。
个体(individual):构成总体的基本单位或单元,又称元素或个案。 样本与样本容量
样本(sample):从总体中抽出的一部分个体。
样本容量:样本中所包含的个体数目,或称样本含量,用符号N或n表示。大样本(large sample)的容量一般在30以上或40、100以上,小样本(small sample)的容量在30以下。
参数与统计量
参数(parameter):表示总体特征的量数,一般用希腊字母表示,如总体平均 数µ(mu),总体标准差σ(sigma),总体相关系数ρ(rho)等。字符表示,如,样本平均数X或M,样本标准差S,样本相关系数r等。
标志(mark):统计总体中各个个体共同具有的属性和特征,它是说明个体属性和特征的名称,如个体的性别、文化程度、年龄、职业、民族、个体的记忆力、思维力、想象力。
品质标志:表明个体属性特征,不能用数量说明,只能用文字说明,如性别。 数量标志:表明个体数量特征,用数值表示,如年龄。
指标(index):表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果,必须 用数量表示。作为一个统计指标必须具备五个要素:指标名称、计量单位、时间、地点、数量。如某大学2005年本科生招生人数6000人,其中指标名称是本科生招生人数,计量单位是1人,时间是2005年,地点是某大学,数量是6000。
绝对数与相对数
绝对数(absolute number):用来表明在一定时间、地点条件下某种教育、心理现象的总体规模和发展水平的统计指标,又称总量指标。绝对数量能具体反映各种事物的实在数量,在统计工作中具有非常重要的意义。
相对数(relative number):教育与心理现象中两个单位相同的互相关系的指标数值的比率,它比绝对数更清晰地反映现象之间的对比关系,能使个别现象从绝对数的差别中抽象出来,把不能直接比较的现象变成可比较的现象。
SPSS简介
SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件。SPSS是世界上公认的三大数据分析软件之一(SAS、SPSS、SYSTAT)。伴随SPSS服务领域的扩大和深度的增加,SPSS公司已于2000年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。
发展历程
1968年:斯坦福大学三位学生创建SPSS;
1968年:诞生第一个用于大型机的统计软件;
1975年:在芝加哥成立SPSS总部;
1984年:推出用于个人电脑的SPSS/PC+;
1992年:推出WINDOWS版本,同时全球自SPSS 11.0起,SPSS全称为“Statistical Product and Service Solutions”;
2009年:SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件 (Predictive Analytics Software,PASW),包括四部分:统计分析、数据挖掘、数 据收集、企业应用服务;
2010年:随着SPSS公司被IBM公司并购,各子产品家族名称前面不再以PASW为名,修改为统一加上IBM SPSS字样。
SPSS统计功能概述
基础统计:包括描述性统计、探索性统计、列联表分析、线性组合测量、t检验、单因素方差分析、多维反应模型分析、线性回归分析、相关分析、非参数检验等。
专业统计:包括判别分析、因子分析、聚类分析、距离分析、可靠性分析等。 高级统计分析:包括Logistic回归分析、多变量方差分析、重复测量方差分析、多协变量方差分析、非线性回归、Probit回归分析、Cox回归分析、曲线估计等。 SPSS统计功能概述
数据的搜集、整理与表达
统计工作过程的三大相互依存的基本环节
数据的搜集不仅是统计工作的首要环节,而且还是全部统计工作的基础。数据资料的来源:
经常性资料:日常工作中的记录和统计报表等。工作记录,如学校中关于教师资历、教学情况、教学进度的记录,关于学生学期、学年成绩和操行评定的记录,关于学生健康状况、流失情况的记录,关于学校经费的使用、学校建设的记录,教师的工作记录等;统计报表,如教师职称变动的年报表、学生流失率的季报表、学生入学率的年报表等。
一时性资料:在一定时限内所收集的有关问题的资料。主要来源于三个方面,即教育与心理调查、教育与心理测量、教育与心理实验。
数据的整理,可使数据变得简约直观,且显现出数据的分布特征。数据整理包括检查数据和整理方式。
检查数据:1、准确性:观测数据的真实可靠;包括检查逻辑性和检查计算。
2、完整性:数据是否齐全、有无遗漏和重复。3、及时性:数据是否按规定时期报送。
整理方式:1、顺序分布法:将数据(X)按大小顺序先排列起来,然后用
次数(frequency)表示相同数据的出现数目,形成一个简单次数表。2、等级分布法:首先按顺序排列数据,然后标上相应的等级(Rank),可分无重复等级的整理方式和有重复等级的整理方式。3、次数分布法:针对数据量较大的情况。次数分布法是从一群数据中求其全距(range),决定组数、组距(interval)、组限(boundaries of group),然后进行归类汇总形成一个有规律的表式的数据整理方式,又称分组次数分布。
数据的表达,观测数据经过整理之后需要用一定的方式表达出来,包括列表法(即统计表)和图示法(即统计图)。
列表法(即统计表) :统计表(statistical table)是以表格的形式表达统计资料数量关系的方式或工具。统计表可以简化资料,反映出事物的全貌及蕴含的特性,省去冗长的文字叙述,同时也便于分析、对比和计算。
统计表的基本内容:线条、标题、标目、数字。
统计表的种类
简单表(simple table)——“定语”部分未经分组,只罗列单位名称、地点、时序等的表
分组表(grouping table)——“定语”按照一个分类标志进行分组的表格 复合表(complex table)——“定语”按照两个或两个以上的分组标志进行多层分组所形成的表格
图示法(即统计图):统计图(statistical graph)是以几何图形和形象图形表示统计资料 数量关系的工具。统计图在表现事物的数量关系时比统计表更为形象、直观,给人的印象更加深刻,而且易于记忆。
从图形形状上分有 直条图(thermometer chart)、饼图(pie diagram)、直方图 (histogram)、折线图(line chart)、散点图(scatter diagram) 从图形维度上分有二维图(即平面图)和三维图(即立体图)
从图形来源上分有几何图、象形图和统计地图
SPSS的启动:启动SPSS,可双击桌面上IBM SPSS Statistics图标,也可以在“开始”菜单中依次选择All Programs IBM SPSS Statistics命令
SPSS的常用界面与窗口(1)
数据编辑窗口功能:对SPSS的数据文件进行录入、修改、管理等基本操作的窗口
SPSS的常用界面与窗口(2)
对象编辑窗口:在结果输出窗口的显示窗口中,直接双击其中的表格或图形均可打开该输出结果对应的对象编辑窗口:
在对象编辑窗口中我们可以对表格、图表等进行相应的编辑。
SPSS的常用界面与窗口(3)
语法(syntax)编辑器窗口功能:编写和修改SPSS程序的窗口。
脚本(scripts)编写窗口功能:允许用户使用Sax Basic语言(一种与Visual Basic兼容的编程语言)编写脚本语言程序,扩充SPSS的功能,如自定义非系统自带绘图格式功能、执行错误程序等。
SPSS——数据输入与整理
数据输入:SPSS
结果
1、SPSS界面:打开SPSS,为一空白数据编辑窗口“SPSS Data Editor”。
2、定义变量:单击“Variable View”(变量视图窗口),该视图的每行各表示对一个变量的定义,每列表示定义该变量时所用的某种属性,如名称(Name)、
变量类型(Type)等。定义变量后,单击“Data View”(数据视图)。
3、输入数据:输入变量的值,确认一行一列单元格为当前单元格。
4、保存数据:单击“File”,选择“Save”,若该数据从未被保存过,故弹出“Save Data As”对话框。
数据整理
1、单元值的修改,直接在每个数据单元中进行修改。
2、增加和删除一行数据(一个个案)。单击“data”,选择“insert case”(delete)命令,也可选中一行,再击右键,选插入(删除)。
3、数据的排序。单击“data”,选择“sort case”命令,弹出“sort case”对话框,在左框中选取一个需要按其数值大小排序的变量(也 可多个)添加到右框图中,并选择按升序还是降序,按“OK”即可。
4、数据的行列互换。将数据管理器中原先按行(列)方向排列的数据转换成列(行)方向排列,即将个案和变量进行转换。这时单击“ data”,选择“transpose”,弹出其对话框,再在变量名列表中选择1个或多个需转换的变量,使之添加到“variable(s)”框中,单击“OK”即可。
5、选择个案子集。在数据统计中可从所有资料中选择部分进行统计分析,单击“data”,选择“select cases”命令。
集中量数
集中趋势(central tendency) 在实验、测量或调查中获得的大量观测数据,具有一种向数据中央某一点靠拢的趋势,它是数据分布的特征之一。 集中量数(central measures) 用于描述观测数据集中趋势的量数是一组数据的代表值,用以说明一组数据分布的典型情况或一般水平, 它比个别数据更能反映客观现象或事物的实际情况还可以用于组与组之间的差异比较
描述集中趋势的数量指标 算术平均数 、中数 、众数 、几何平均数 、调和平均数
均数、中数、众数
算术平均数(arithmetic mean)所有观测值(或变量)的总和除以总个数所得的商,简称平均数、均数或均值。其符号系统既有表示样本平均数的数学符号X和英文符号M,又有表示总体平均数的希腊字符µ。
中位数(median) 又称中点数,简称中数,用符号Mdn或Md表示。中位数是位于按一定顺序 排列的一组数的中央位置的数值,它是把一组数据按次数划分为两半,即 在中位数上下的数据分布各占一半。
众数(mode) 一群数据中出现次数最多的那个数值,又称范数,用符号M 0表示。
均数、中数、众数的关系
三者的大小与次数分布的形态有关:
均数、中数、众数的比较与应用
作为优良集中量数应当具备六个条件:
1、反应灵敏,即一群数据中任何一个数值的变动都会影响集中量跟着变动
2、严密确定,即该集中量指标应由全部观测值计算得来,而且同一组数用该指标不同计算方法计算出的结果相同,如定义式或计算式或加权式等
3、意义简明,易于理解,即其方法不应带有过多的数学抽象性质
4、容易计算,即在其他条件相同的情况下,则以计算简便作为选择的依据
5、适合代数法则的处理,即可以用数学性质处理或简化数据
6、受抽样变动的影响较小,即从同一总体中抽样的多个样本,个样本的计算结果相同或相近
SPSS——均数、中数、众数
1、录入数据;2、选“Analyze”,展开下拉菜单。单击“Descriptive Statistics”,再单击“Frequencies”,添加变量到“Variable(s);3、单击“Statistics„”,选择“Central Tendency”中的“Mea,Median,Mode,Sum”,再单击“Continue”,返回 “Frequencies”,单击“OK”即可
差异量数
离中趋势(divergence tendency)统计分布的另一种特征,又称离散程度。 差异量数(divergence measures) 描述一组数据离中趋势的量数。 描述离中趋势的数量指标 方差 、标准差 、平均差 、全距
对一列数据分布的分析,不仅需要集中量数的指标,而且还需要差异量数的指标,只有二者结合起来才能对一列数据做出较为全面的分析
方差(Variation) 离均差平方的算术平均数,表示一列数据平均差距的平方,其样本方差用符号表示,总体方差用符号表示。
方差又称变异数,用符号V(Variation)表示,或称均方差、均方,用符号MS(Mean Square Deviation)表示。
标准差(Standard Deviation) 方差的算术平均跟,表示一列数据的平均差距。样本标准差用符号S或SD表示,总体标准差则用符号σ表示。
全距(Range) 一列数据中的最大差距,即一列数据中最大数与最小数的差距,又称极差,用符号Rg表示。
平均差(Average Deviation) 以离差绝对值的和除以总和次数所得的商,平均差用符号AD表示。
百分位差(Percentile Deviation) 表示某两个百分位数之间差异程度的指标,常用的百分位差如P93 –P7(分析数据中86%的数据),P90 –P10(分析数据中80%的数据)。
四分位差(Quartile Deviation) 百分位差的特例,用于分析P75(Q3)与P25
(Q1)之差的一半。
各种差异量指标的比较
集中量数与差异量数的关系
1、在多组数据比较时,当集中量相同差异量不同,或是差异量相同集中量不同时,均不能冒然下结论说各组分布相同。
2、利用平均数和标准差分析数据的分布,一般会有四种情况:①平均数相同或相近,标准差各异:②
近;③标准差相同或相近,平均数各异;④标准差各异,平均数也各异
3、集中量是量尺上的一个点,差异量时量尺上的一段距离。
4、一组数据分布的集中量代表性的大小或好坏,可以用数据分布的差异量来反映:差异量越大,说明集中量的代表性越差;差异量越小,说明集中量的代表性越好。
SPSS——方差、标准差
1、录入数据;2、单击“Analyze”,选择“Compare Means”,再单击“Means”,选择变量入“Dependent List”及“Independent List”;3、单击“Options”,将“Statistics”中的“ Mean,Standard deviation,Variance,Number of Cases”选入“Cell Statistics”中;4、单击“Continue”,返回“Means”,再单击“OK”即可
相对量数
原始分数的缺陷:原始分数,又称观测分数,是观测所得的、未经任何加工的分数
1、原始分数无明确的意义,如在传统考试中对“分”的概念并无严格的定义
2、原始分数的单位不等值,如语文考试中的“1 分”与数学考试中的“1分”不见得等值
3、原始分数不具有可比性
4、原始分数没有可加性
相对地位量数 就某一特质来描述个体在团体中所占的地位的量数 常用的相对地位量数 百分等级 、标准分数
百分等级、标准分数
百分等级(Percentile Rank) 把一组观测值先按高低次序排列起来,然后计算出某个个体的分数在百分位上超出多少人,或者在此分数下占多少百分比的一种量数,用符号P R表示
标准分数(Standardized Score) 最典型的标准分数为Z分数,或称基分数;是以标准差为 单位所表示的“原始分数”与平均数的偏差,亦即原始分数与其平均数之差除以标准差所得的商
Z分数是将某一原始分数的离均差变成为标准差为单位的量数,表示此原始
分数离开平均数的远近,即它在均数以上或以下多少个标准差的位置上,以此说明原始分数的相对位置
将原始分数转化为Z分数的实质就是把单位不等距和缺乏明确参照点的分数转称以标准差为单位,以平均数为参照点的量表分数
一组数据标准分数的平均数为0,标准差为1
导出分数:对Z分数进行线性转换,最常用的指标有T分数和标准九分等
SPSS——标准分数
1、录入(读取)数据;2、选择“Analyze”,单击“Descriptive Statistics”
中的“Descriptives”出现其对话框
相关量数
事物的关系
1、因果关系:事物之间相互依存、互为因果的关
系,是事物之间存在的一种必然关系,即一种引起
与被引起的关系,因在前果在后的顺序不能颠倒
2、函数关系:事物之间的一种共变关系,其特点
是函数与反函数可以互换位置
3、伴随关系:两个事物或变量相伴随而变化的关
系,它既不同于因果关系和函数关系,又不排斥因
果关系和函数关系,是事物之间的一种更为复杂的
关系,相关关系即属这种关系。
相关量数:分析或研究两个或两个以上变量之间相互关系的量数
相关的种类
事物或现象的相关种类可以从方向、形态及变量个数等方面划分
1、正相关、负相关和零相关
①正相关(positive correlation),一列变量由大而小或由小而大变化时,另一列变量亦由大而小或由小而大的变化,即两列变量是同方向变化的,属“同增共减”的关系
②负相关(negative correlation),一列变量由大而小或由小而大的变化,另一列变量却由小而大或由大而小的变化,即两列变量的变化方向是相反的,属“此增彼减”的关系
③零相关(zero correlation),又称无相关,指一列变量由大而小或由小而大变化时,另一列变量或大或小的变化,即两列变量的变化看不出一定的趋势,甚至毫无关系
2、直线相关、曲线相关
①直线相关(line correlation),两列变量中的一列变量在增加时,另一列变量随之而增加;或一列变量 在增加,另一列变量却相应地减少,形成一种直线关系
②曲线相关(curve correlation),两列相伴随变化的变量,未能形成直线关系
3、简单相关、复杂相关
简单相关(simple correlation),只有两个变量的相关
复杂相关(complex correlation),有三个或三个以上变量的相关
4、完全相关、强相关、弱相关、无相关
①完全相关(complete correlation),两列变量的关系是一一对应、完全确定的关系;在坐标轴上描绘两列变量时会形成一条直线
②强相关(strong correlation),又称高度相关,即当一列变量变化时,与之相应的另一列变量增大(或减少)的可能性很大;在坐标图上则表现为散点较为集中地呈现在某条直线的周围
③弱相关(weak correlation),又称低度相关,即当一列变量变化时,与之相对应的另一列变量增大(或减少)的可能性较小,亦即两列变量之间虽然有一定的联系,但联系的紧密程度较低;在坐标图上表现出散点比较分散地分布在某条直线的周围
④无相关(non-correlation),当一列变量变动时,相对应的另一列变量可能有变动,也可能无变动,而且毫无规律
相关分析的方法
相关分析 研究两个或两个以上变量之间是否存在相互关系,如果存在关系,其相关的性质(即方向)和程度如何,这个研究过程在统计学上称相关分析。相关分析的方法主要是图示法和计算法
1、图示法 :主要利用散点图来描述变量之间的关系。散点图是将成对变量的变动值描绘在坐标图上形成的一种图形
从散点图上,可以了解相关的方向(正相关、负相关、零相关)、相关的形态(直线相关、曲线相关)、相关的大致程度(强相关、弱相关)
2、计算法 :通过计算变量之间的相关系数来表述其相关情形
相关系数(correlation coefficient)是表示相关方向和大小的一种数值,用符号r表示。相关系数的取值范围为-1 ≤ r≤ +1,其中符号表示相关的方向,绝对值表示相关的程度
一些统计学家对相关程度作了规定,认为0 ~ ±0.40表示低度相关,±0.40 ~ ±0.70表示中度相关,±0.70 ~ ±1.00表示高度相关
积差相关Product Moment Correlation:直线相关中最基本的方法,又叫均方相关、积矩相关,其公式由英国统计学家皮尔逊(Pearson)提出,故又称皮尔逊相关,用符号r XY表示积差相关是利用离差乘积的关系来说明事物的关系,是将原始记分转换为离差乘积(即积差),再转换成标准积差后所求
得的标准积差的平均数
使用条件①两列变量必须是成对的,而且样本容量不宜少于30;②两列变量必须是比率变量或等距变量;③两列变量的总体分布均为正态分布或近似正态分布
等级相关Rank Correlation:根据等级资料来研究变量之间相互关系的方法 等级资料的主要来源①研究中所收集的数据本身就是等级评定的资料;②研究所收集的数据原本为等距或比率变量的资料,因不满足积差相关的使用条件而需要将其转化为等级性资料进行分析的情形
使用条件①可以用于多列等级或顺序变量;②可以用于成对变量少于30的情形;③可以用于两列变量总体分布为非正态时
计算方法
1、斯皮尔曼等级相关(Spearman’s rank correlation),根据两列变量的成对等级差数计算的相关系数,又叫“等级差数法”,用符号r p或r S表示,它是由英国统计学家和心理学家斯皮尔曼创立的;Spearman等级相关因等级或数据中有无重复而分为无重复的等级相关和有重复的等级相关
2、肯德尔和谐系数(Kendel Coefficient of Concordance),又称肯德尔一致性系数或肯德尔相关系数,它是由统计学家肯德尔(Kendel)提出的肯德尔交错系数、相容性系数和一致性系数等三种相关系数的总称。
肯德尔交错系数、相容性系数主要用于描述两列变量的一致性程度,作用与斯皮尔曼等级相关系数相似
肯德尔一致性系数是用于描述多列等级变量相关程度或一致性程度的相关方法,其中又有肯德尔W系数和肯德尔U系数
肯德尔W系数用于一般等级评定的资料(亦分无重复与有重复)
K个评分人评价N个被评价人或N件作品,以分析和评价K个评分人的评价是否一致
同一个人先后K次评价N个被评人或N件作品,以分析其前后评价是否一致
质与量的相关
研究列等距或比率变量与一列名称变量之间相互关系的统计方法,包括
点二列相关、二列相关、多系列相关等
点二列相关:研究一列等距或比率变量与一列“二分”名称变量之间相关的统计方法,用符号r pb表示
二列相关 :研究一列正态的比率或等距变量和一列人为“二分”名称变量之间相互关系的统计方法,用符号r b或r bis表示
多系列相关
品质相关(Correlation of Attributes):研究两列品质变量间相互关系的统计方法,是衡量两个分类(名称)变量 关联程度的指标。品质相关因变量分类数目的不同又分为φ相关和列联相关
φ相关(phi correlation):专门研究两列“二分”名称变量之间相关的统计方法,是衡量两个分类变量均分为两类时其关联程度的指标
SPSS——相关分析
1、录入或读取数据;2、单击“Analyze”,选择“Correlate”中的“Bivariate”,进入“Bivariate Correlations”;3、将变量调入“Variables”,在“Correlation Coefficient”中选择所需的 相关系数(默认为Pearson相关);4、在“Test of Significance”中选“Two-tailed”,单击“OK”即可。
正态分布(Normal Distribution):从概率的角度来说,服从正态分布的随机变量,在取值区间中部取值概率最高,从中间到两侧取值概率逐渐下降,接近取值区间上、下限时取值概率越来越小,且两侧取值概率是
对称的。
通俗地说,就是中间量数次数分布多,两端量数次数分布少,呈对称型的概率分布,又叫高斯分布。
在正态分布中,平均数µ和标准差σ决定着分布曲线的位置和形状。其中,平均数决定着曲线在x轴上的位置,标准差σ决定着曲线的形状。
特点:(1)所有曲线都有一个极值点,从这一点向左或向右移动时,曲线连续地下降;(2)所有曲线都是对称的;(3)所有曲线都呈钟形。
正态分布中的几个常用值
SPSS——峰度与偏度
1、录入数据(或读取数据);2、单击“Analyze”,选择“Descriptive Statistics”中的“Frequencies”, 出现其对话框,添加“Variables”;3、单击“Statistics„”,在“Distribution”中选“Sknewness和Kurtosis”,再单击“Continue”按钮,返回“Frequencies”,单击“OK”即可
推断统计 :由样本去推测相应总体情况的理论与方法,也就是由部分推全体,
由已知推未知的过程。
推断统计根据推测的性质不同而分为参数估计和假设检验两方面。
①参数估计(parameter estimation)用样本去估计相应总体的状况 。具体方法:点估计和区间估计
②假设检验(hypothesis test) 主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statistical test)
根据是否需要依赖于对总体分布形态和总体参数检验的假设,分为参数检验和非参数检验(non-parameter test)
参数检验法主要有Z检验、t检验、F检验和q检验等;非参数检验主要有χ2检验、符号检验、符号等级检验、秩和检验、中位数检验等。
参数估计
根据样本统计量去估计相应总体的参数。如,可以根据样本平均数(X)去估计总体的均数(µ),根据样本方差(S2)去估计总体方差(σ2),根据样本的相关系数(r)去估计总体的相关系数(ρ)等
点估计(point estimation)在参数估计中直接以样本的统计量(数轴上的一个点)作为总体参数的估计值。如,用样本统计量X、S、r等作为总体参数µ、σ、ρ等的估计值。
区间估计(interval estimation)以一个统计量的区间值来估计相应的总体,它要求按照一定的概率要 求,根据样本统计量来估计总体参数可能落入的数值范围,也就是说区间估计是用两个数之间的距离或数轴上的一段距离来表示未知参数可能落入的范围。如,假设一直正态总体的样本均数(X)和总体方差(σ2 ),这时只要样本容量足够大,总体均数有95%的可能落在µ±1.96 σ之间,而落在这一范围之外的可能性最多不超过5%。其中σ为区间估计的标准误,表示进行区间估计时的误差大小,1.96为可靠性程度的指标。
置信区间(confidence interval)在特定的可靠性(即置信系数)要求下,估计总体参数落在的区间范围,亦即进行估计的全距。
以样本均数(X)为例,在估计总体均数(µ)时,假定X的抽样分布服
从正态分布,就可以用正态分布的理论,在一定的置信系数下推断出µ的置信区间,即
置信系数(confidence coefficient)被估计的总体参数落在置信区间内的概率D或以1 -α表示,又叫置信水平、置信度、可靠性系数和置信概率。
置信系数是用来说明置信区间可靠程度的概率,也是进行正确估计的概率。一个置信系数同时反映了在做出 一个估计时犯错误的小概率(α),即可靠性为95%时,意味着犯错误的概率为5%;可靠性为99%时,意味着犯错误的概率为1%。 置信限(confidence limit)
SPSS——参数估计
1、录入(或读取)数据;2、选择“Analyze”中的“Descriptive Statistics”,单击“Explore”出现 其对话框,添加变量到“Dependent List”(因变量框);
3、单击“Statistics„”,再单击“Descriptives”(置信度默认为95%,可接受,也可修改)。单击“Continue”按钮,再单击“OK”即可
参数检验 :比较两个样本统计量或两个总体参数之间的差异,或者比较样本统
计量与总体参数之间的差异问题
差异产生可能情况①真实的差异或实质性差异:教育和心理现象本身或是教育对象本身存在着差异;②抽样误差:本身并无差异,但由于抽样的随机性而出现了差异
差异显著性检验 :如果经过统计检验(test)或考验发现差异超过了统计许所规定的某一 误差的限度时,则表示差异已经不属于抽样误差了,亦即事物之间已出现了真实的差异,统计上将此称为差异显著。这种对事物差异所进行的检
验就是差异显著性检验。
差异显著的界限 :通常把概率不超过0.05(即5%)或0.01(1%)作为抽样误差的限度。在进行差异检验时需要先对事物是否存在差异作出假设,然后再作统计检验,因此称为假设检验,亦称差异的显著性检验。
假设与假设检验
假设:研究者在研究过程中根据不多的事实材料,运用已有的科学原理,充分发挥思维的想象力和创造力对所研究事物的本质和规律提出来的一种初步设想 ①研究假设(alternative hypothesis):实验人员希望证实的假设:假设两个样本统计(或两个总体参数)之间,或者是样本统计量与总体参数之间存在真实的差异,即存在显著的差异,这是一种有差假设,记为H1
②虚无假设(null hypothesis):研究人员为了证实研究假设是真的而利用概率论的反证法所进行的假 设,即从研究假设的反面进行假设,用符号H0表示 显著性水平(level of significance):拒绝虚无假设的小概率值
两均数之差检验
前提条件
①统计量来自随机样本
②总体呈正态分布(以中心极限定理为理论依据;当总体为正态分布时,样本均数的抽样分布也呈正态分布;若总体为非正态分布,则样本容量必须很大时,其样本均数的分布才接近正态分布)
③总体的方差齐性(两个总体之间的方差 相等或一致;由于总体方差往往是未知的,因此只能借助样本方差去估计总体方差,所以需要对样本方差一致性进行检验)
考虑的问题
①总体情况:总体分布(是否正态)、总体方差(是否已知)、总体方差一致性(是否齐性)
②样本类型
独立样本(independent sample):从两个无关的总体中随机抽取的两个或多个样本,或者说是独立抽取的,彼此间的数据不存在对应关系的样本
相关样本(correlative sample),从具有一定程度相关的总体中抽取的两个或多个样本,亦即彼此的观测值之间存在一一对应关系的样本。常见形式有“同组比较”和“配对比较”
两均数之差的显著性检验
SPSS——两均数之差的检验:单总体均数之差的检验
1、录入(或读取)数据;2、选择“Analyze”中的“Compare Means”,单击“One-Sample T Test”;3、在左框变量选入“Test Variable(s)”,并在“Test Value”中输入总体数均数4、单击“Options”,在“Confidence Interval”输入置信度(默认为95%),单击“OK”即可
SPSS——两均数之差的检验:
双总体均数差异的检验 (1)独立样本均数差异的检验
1、录入(或读取)数据;2、选择“Analyze”中的“Compare Means”,单击“Independent- Samples T Test”;3、在左框变量分别选入“Test Variable(s)”和“Grouping Variable”。单击“Define Groups„”,在“Group1”和“Group2”键入相应组别。单 击“Continue”返回,再单击“OK”即可
SPSS——两均数之差的检验:
双总体均数差异的检验 (2)相关样本均数差异的检验
1、录入(或读取)数据;2、选择“Analyze”中的“Compare Means”,单击“Paired-Samples T Test”,选择变量入“Paired Variables”,单击“OK”
方差分析(ANOVA) 对多个平均数进行比较的一种统计方法,又称变异数分析 Z检验和t检验的局限性
①比较的组合次数增多(A-B-C三组,需3次;10组:需45次)
②降低可靠程度(对数据做的Z检验或t检验越多,越容易犯I型错误; 做n次检验,每次都为0.05的显著性水平,那么不犯I型错误的概率为0.95n,此时犯I型错误的概率则为1-0.95n)
③缺少综合或整体信息(两个以上的平均数检验中若仍采用Z检验或t检验,都只提供了两个组的信息,而忽略了其余的综合信息,而这些被忽视的信息可能对检验结果产生更大的影响力)
使用条件
①总体分布的正态性
②各个实验组的方差齐性
③变异具有可加性(方差分析是将事物的总变异分解为各个不同变异来源,分解后的各部分变异相互独立,相加后又构成总变异) 总变异= 组间变异 (实验条件+ 随机误差)+ 组内变异 (个体差异+实验误差)(组内变异属随机误差)
变异率与F分布:根据方差分析的原理,需比较组间变异和组内变异,若用一个统计量来揭示组间变异,则称这一统计量为变异率。方差分析的F值是以统计学家R. A. Fisher的名字命名的,用符号F表示
变异率(F)= 组间变异/ 组内变异= (实验处理变异+ 误差变异)/(误差变异)
当实际计算的F值超过了F分布表中0.05水平的临界值时,说明各样本均数属于 相同总体的机率小于5%,则要拒绝虚无假设,接受研究假设:认为实验因素确实产生了效应,各样本均数之间存在着显著差异
方差齐性检验 :不同总体的变异水平——个体差异是否一致
方差齐性检验(test of homogeneity of variance)
单因素方差分析与多因素方差分析 :实验所考察的自变量只有一个(多个)的实验设计的方差分析
多重比较:F检验反映的总体差异情况,多重比较可找出使F值显著的根源,即有关各对平均数之间差异的状况
SPSS——单因素方差分析
1、录入(或读取)数据;2、选择“analyze”中“compare means”,单击“One-Way ANOVA”,选择变量入“Dependent List”和“Factor”
3、单击“Options„”进入方差分析,选择“Descriptive”和 “Homogeneity of variance”,单击“Continue”,返回“One-Way ANOVA”;4、单击“Post Hoc„”进入多重比较,选择相应比较法,单击“Continue”,返回“One-Way ANOVA”,再单击“OK”即可
SPSS——双因素方差分析
1、录入(或读取)数据;2、选择“Analyze”中“General Linear Model”,单击“Univariate”;3、选择变量入“Dependent List”和“Fixed Factors;
4、单击“Contrasts„”,出现“Univariate Constrasts”进行多重比较,单击“Simple”,单击“ Continue”返回;若需要其他描述统计量,可单击“Options„”选择需要的统计量,单击“OK”即可
回归分析(Regression Analysis)
根据一个已知变量来预测另一个变量平均值的统计方法称回归
按照回归的形状:直线回归、曲线回归
直线回归中根据自变量个数:一元线性回归、多元线性回归
回归分析的内容①建立回归方程;②检验方程的有效性;③利用方程进行预测;④进行因素分析
线性回归(使用最小平方法或最小二乘估计)及检验
SPSS——一元线性回归分析
1、录入(或读取)数据;2、选择“Analyze”中“Regression”,单击“Linear”;
3、选择变量入“Dependent:”和“Independent:”;4、单击“Statistics„”,选择“Estimates,Confidence intervals,Descriptives”等,单击“ Continue”返回;5、单击“Save”,选择“Predicted Value”中的“Unstandardized”, “Prediction Intervals”中的“Individual”及置信度(默认95%),单击 “continue”返回,再单击“OK”即可
SPSS数据分析处理流程
SPSS基本运行方式
完全窗口菜单方式
①所有分析操作过程都是通过菜单和按钮及对话框方式进行;②是经常使用的一种运行方式,适用于一般分析和SPSS的初学者程序运行方式
菜单程序混合运行方式:一般适合于熟练的SPSS程序员①手工编写SPSS命令程序;②一次性提交计算机运行;③适用于大规模的分析工作和熟练的SPSS程序员
概念比较
描述统计(Descriptive Statistics)vs. 推断统计( Inferential Statistics) 描述统计:研究如何简缩数据和描述这些数据,其任务是在大量的观测数据中,用恰当的统计方法来简缩数据,计算其有代表性的量数,以描述事物的典型性、波动范围以及相互关系等,揭示事物的内部规律。同时,描述统计学还可以对观测数据进行整理归类,并用相应的表格、图形来表示其主要分布特点或特征。
如计算平均数、中数和众数等以反映观测数据的集中趋势;计算方差、标准差等来反映观测数据的离散趋势;计算积差相关系数、等级相关系数等来反映观测数据之间的相互关系。
推断统计:主要研究如何利用数据去作出决策的方法,在心理与教育的研究和实验中涉及面非常大。因为不可能对全体对象进行研究和实验,只能从中抽取部分具有代表性的样本进行研究和实验,推断统计学正式一种依据部分数据去推测全体特征的科学方法,是对教育与心理研究或实验作出预测和规划的有力工具。
推断统计学的主要内容分为参数统计法(含参数估计和假设检验)和非参数统计法。
Central Measures)vs. 差异量数 (Divergence Measures)
集中趋势(central tendency) 在实验、测量或调查中获得的大量观测数据,具有一种向数据中央某一点靠拢的趋势,它是数据分布的特征之一。
集中量数(central measures) 用于描述观测数据集中趋势的量数是一组数据的代表值,用以说明一组数据分布的典型情况或一般水平, 它比个别数据更能反映客观现象或事物的实际情况还可以用于组与组之间的差异比较
描述集中趋势的数量指标 算术平均数 、中数 、众数 、几何平均数 、调和平均数
离中趋势(divergence tendency)统计分布的另一种特征,又称离散程度。
差异量数(divergence measures) 描述一组数据离中趋势的量数。 描述离中趋势的数量指标 方差 、标准差 、平均差 、全距
对一列数据分布的分析,不仅需要集中量数的指标,而且还需要差异量数的指标,只有二者结合起来才能对一列数据做出较为全面的分析
Kurtosis)vs. 偏度(Skewness)
峰度(Kurtosis) 描述某变量所有取值的分布形态陡缓程度的统计量,而峰度对陡缓程度的量度是与正态分布进行比较的结果。
峰度=0,其数据分布的陡缓程度与正态分布相同
峰度>0,其数据分布比正态分布更陡峭
峰度
偏度(Skewness) 描述数据分布对称性的统计量,而且也是与正态分布的对称性相比较而得到的。
偏度=0,其数据分布的对称性与正态分布相同
偏度>0,其分布为正偏,即在峰的右边有大的偏差值,使右边出现一个拖得较远的尾巴
偏度
α错误(Type I error)vs. β错误(Type II error)
Z检验/t检验vs. 方差分析(ANOVA)
Z检验(Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n
方差分析(ANOVA) 对多个平均数进行比较的一种统计方法,又称变异数分析 Z检验和t检验的局限性
①比较的组合次数增多(A-B-C三组,需3次;10组:需45次)
②降低可靠程度(对数据做的Z检验或t检验越多,越容易犯I型错误; 做n次检验,每次都为0.05的显著性水平,那么不犯I型错误的概率为0.95n,此时犯I型错误的概率则为1-0.95n)
③缺少综合或整体信息(两个以上的平均数检验中若仍采用Z检验或t检验,都
只提供了两个组的信息,而忽略了其余的综合信息,而这些被忽视的信息可能对检验结果产生更大的影响力)
使用条件①总体分布的正态性;②各个实验组的方差齐性;③变异具有可加性(方差分析是将事物的总变异分解为各个不同变异来源,分解后的各部分变异相互独立,相加后又构成总变异) 总变异= 组间变异 (实验条件+ 随机误差)+ 组内变异 (个体差异+实验误差)(组内变异属随机误差)