统计误差分析
第6卷第10期
V01.6
No.10
读与写杂志
Readand
Write
Pefiodical
2009年10月October2009
统计误差分析
费传宝
(江苏省镇江市高等专科学校管理系
江苏镇江212003)
摘要:在信息时代,准确而有效的信息往往给企业带来财富。而信.g-的搜集需要一系列统计工作.在实际统计工作中,统计误差在所难免。精度是统计调查的生命线,所以很有必要对统计误差,特别是可以控制的非抽样误差要进行深入、系统地探讨。
.
关键词:随机抽样抽样误差调查积累误差中图分类号:G642
文献标识码:A
文章编号:1672—1578(2009)10—0087-02
址发生了完全的变化,如果依旧按以前的抽样框去抽样,那么精度就会非常难以控制。2.1.5辅助信息不正确
前面四种抽样框误差会发生在简单抽样框也会发生在复杂抽样框.而辅助信息不正确只可能出现在复杂抽样框内。一般。较大规模和较复杂的抽样必须采用复杂抽样框.就是必须要有辅助信息。如果辅助信息不准确。就会影响复杂抽样的效果。
2.2无回答误差
在理论上.统计误差中的抽样误差分为两类,一类是工作性误差又称登记性误差:另一类是代表性误差。在代表性误差中又分为系统性误差和随机误差i”。而在实际统计工作中,统计误差是多种多样的。有些误差是可以避免的,有的误差是不可以避免的。下面我们就从这两个方面展开分析和讨论。
1
统计误差中不可避免的误差
随机误差是指在遵循.r随机原则的情况下抽到各种不同样本所产生的误差,这种误差是不町避免的误差。不过,我们可以对它进行事先计算并设法加以控制。通常在抽样推断中所说的抽样误差就是指这种随机误差,即假设不存在磴记性误差和系统性误差的情况下。仅考虑由于抽样的随机性而产生的样本估计量与总体参数之间的代表性误差。影响抽样误差大小的因素
有四个方面:
所谓的无回答误差就是指数据丢失.数据丢失的原因有两种,一是有意不回答.二是无意不回答。有意识不回答,主要是指被调查者拒绝访问或拒绝就某一个问题给予回答。无意识不回答则可能受访者不在家或者是访问者疏忽,导致数据遗漏。无回答误差产生的原因有很多。归纳起来的话有以下几点:
2.2.1抽样遗漏
1.1总体各单位标志值的差异程度
在总体中各单位标志值得差异程度越大,抽样误差就越大:反之。总体各单位标志值的差异程度越小,抽样误差就越小。1.2抽样单位数的多少
在随机抽样中,如果抽取的样本单位数越多,抽样误差就越小;反之,抽取的样本单位数越少.抽样误差就越大。1.3抽样方法
在随机抽样中。不重复抽样(又称为无放回抽样)比重复抽样(又称为有放回抽样)的误差要小。1.4抽样调查的组织形式
在随机抽样中,一般有简单随机抽样(又叫纯随机抽样);类型抽样(又叫分层抽样);等距抽样(又叫机械抽样);整群抽样。在类型抽样中所产生的抽样误差较小,其次是等距抽样;在简单随机抽样和整群抽样中所产生的抽样误差较大。2统计误差中可以避免的误差2.1抽样框误差
所谓的抽样框误差指目标总体和抽样样本不一致时产生的误差。属于系统性误差,这是违背了随机原则造成的。理想的抽样框需要满足以下要求,就是所有的抽样单位必须覆盖目标总体.抽样框误差有五个来源,分别是:
2.1.1不能覆盖目标总体单位
所谓的不能覆盖目标总体单位,指的是目标总体单位没有出现在抽样样本中,那么他们就不可能在随后的抽样过程中被选中.导致数据丢失。
2.1.2抽样样本包含了非目标总体单位
包含非目标总体单位主要是由于目标总体的变化产生的误差。相对于不能覆盖的误差而言,包含非目标总体单位误差比较容易被发现。2.1.3复合联接
复合联接的意思就是一个目标总体单位联接着一个以上的抽样单位。比如,有的家庭拥有两个住所、两个地址,那么他们被选中的概率就是一般家庭的两倍。复合联接的对象如果具有某些特征值就会使样本失真。导致均值发生偏差。
2.1.4抽样框老化
所谓抽样遗漏的概念就是抽样过程中没有抽到一些本应调查的抽样单位。这在邮寄调查中最普遍。邮寄调查最大的缺陷就是愿意回答和不愿意同答的人有不同的特征值,而不愿意调查人群中有相当部分应该在被调查的范围以内。这种误差产生的后果是比较严霞而且非常难以调整的。
2.2.2无法查找到被访对象
无法查找最主要的原因是被访对象的地址不确切或者已经迁移。导致无法寻找到被访对象。
2.2.3虽然已经接触到被访者.但因为种种原因被迫放弃调查
被迫放弃的原因很多.首先是访问者拒访,这占了被迫放弃误差的绝大多数。另外被迫放弃还有几种可能,比如被访者因为健康原因不能接受或完全接受采访。
2.3计量误差
计量误差可以分为三类。一是同卷设计阶段产生的误差,二是调查阶段产生的误差,三是其他误差。
2-3.1问卷设计产生的误差
这种误差属于工作性误差。主要来自于不同措辞的不同表达。包括文字表达本身产生歧意,文字表达不够简练等等。问卷设计阶段另外一个误差来源就是,问卷设计过长,导致访问者疲劳而产生数据失真的现象。
2.3.2调查阶段产生的误差
调查阶段产生的计量误差也属于工作性误差,它来自于两个方面。一是访问员有意或无意导致数据失真,二是被访者有意或无意导致数据失真。受访者因为各种各样的原因包括因为间隔时间太长而产生的记忆误差.记忆误差是计量误差当中非常
重要的组成部分。
2.3.3其他计量误差
其他计量误差包括。随机数字表的编制和使用。数据处理过程中(包括编码、录入等)发生的误差。2.4积累误差
在统计分析计算中积累误差很难发现、很容易被人们疏忽。不要小看积累误差。有时这种积累误差会直接影响到统计数据的真实性。甚至改变了计算结果的性质。正所谓千里之堤,溃于蚁穴。下面我们举一个例子来说明这个问题。
某企业在1997—2002年的产量(万件)与单位产品成本(元/件)资料如下:
统计数据有很强的即时性.随着时间的推移,抽样框必须更新。否则就会老化不符合实际情况使抽样不精确。最典型的例子。就是随着城市建设的大规模展开。许多地区已经被改造,地
万方数据
一87—
第6卷第lO期
V01.6
No.10
Read
读与写杂志
andWritePefiodical
2009年10月
October
2009
年
产
份
量
19972.781
19982.881
19993.180
20003.579
20013.879
20024.178
,?,量型
√L。?L一
?;!!;!!!!
√1.573377.3333,/iI.5375
?!!:!!!!??0.98
单位成本
要求:(1)计算产量与单位成本的相关系数。(2)建立以单位成本为因变量的直线回归方程,并解释回归系数的经济意义。
年份
19971998199920(m20012002
扫?每?鬻??2尬西?bx
由相关系数的性质141知:
9
4678
9(?2.12)?警蜥.73
所以,以单位成本为因变量的直线回归方程:%?8673721知产量每增加l万元件单位成本平均下降2.12万元。
产量(x)
2.72.83.13.53.84.120
单位成本(y)
818180797978478
聋
7.297.849.6112.2514.4416.8168.24
y2
65616561640062416241608438088
xy218.7226.8248276.5300.2319.81590
1.当Id---O时。表示x与Y完全没有线性相关;2.当O<lrl<O.3时,表示x与Y为微弱线性相关;3.当O.3≤Irl<O.5时,表示x与Y为低度线性相关;4.当O.5<。Irl<O.8时’表示x与y为显著线性相关;5.当0.8≤Irl<l时,表示x与Y为高度线性相关;
6.当Irt=l时。表示x与Y为完全线性相关;即x与Y之间存在着确定的函数关系。而上面IB---O.68时,表示X与y为显著线性相关:IB=0.98时,表示x与Y为高度线性相关;这是两个截然不同的结果,源于将平均数保留了两位小数代入了计算。源于积累误差。这样的误差在层层统计中很难发现。因此,统计方法的不同会有截然不同的结论。
总之.不管是统计态度问题还是统计方法问题,只要出现了与定性认识明显的差距。就要分析统计数据失真的原因。定量分析必须建立在定性分析的基础上,而定量分析着重从事物的数量方面考虑。不管是定性分析还是定量分析,对同一事物的现象所得出的结论是一致的。统计是关系到国计民生的大事;关系到国家政策的制定。只有建立健全的统计机制及相应的监督机制,才能提高统计的公信力,维护其科学性与纯洁性,从而使统计真正服务于国民经济、造福于人类社会。参考文献:
【11昊惠荣.统计学原理【M】.上海:上海交通大学出版社,2007.50一
51.
合计
由此得:
?工?20;?y?478;?算2768.24;?_)’27
38088;?砂?1590:n?6.
;?垒?丝?3.33
咒
i?翌?塑?79.67
以
66
(下面将平均数保留了两位小数后代人了计算,造成积累误差)
L"??xy?n—xy?1590
£。??x27
7673.33779.67
77
771.8066
n(;)2768.24
673.33
2
77
1.70664.1466
砒一菇毒,高淼Ⅲ儡
6
‰??),2
7
n(歹)2
7380886779.67
2
7生?!!:!Q堑??1.06
k
1・7066
(下面将平均数直接代入了计算,减少了积累误差):
£口??秽?n万?1590
2
767
260
9
47__6Z??3.3333
71.5733
【2】栗方忠.统计学原理【M】.大连:东北财经大学出版社,2004.159.
工。??J
7甩(j)2
768.2476
7(—2_O)2
作者简介:费传宝(1956-),男,安徽淮南人,大学本科。讲师,主
_L"??y2
7
n(歹)2
7380887
69、4768一)2”.3333
要从事人力资源管理和统计学研究。
。(上接44页1
本课程的重点并不是对英文的讲解,而是培养一批IT管理服务人才.即具有一定的企业意识和IT管理经验,能够提供企业运作支持性的服务人才。【3l基于这种目的,我们就必须对以往传统的教学模式进行改革。采用适当的教学方法,在教学过程中,根据不同的教学内容.采用启发式、任务式、交际式、情景式、师生互动式等教学方法.使用多媒体辅助教学,让学生在生动活泼的教学活动中学习好商务英语。相信通过这样的教学方法的改革和教学手段的调整.一定能够提高学生的学习积极性。达到良好的教学效果,帮助学生更好的了解课程内容,掌握课程所学知识。
4
作性,这门课程的教学对教师和学生都有一定的要求,教师必须要首先对市场进行综合了解,然后掌握教材内容,根据教学实际选择教学内容.在课堂教学上和学生加强互动,改革传统的教学方法和手段,采用全新的教学模式,才能最终达到教学要求,完成教学目标.从而使学生更好的掌握学习的内容,为今后进入社会打下良好的基础。
参考文献:
f11王文良.从商务英语的特点看商务英语教学【I】.时代文学,2007.【2】蔡苏勤.商务英语教学探讨【『】.长沙航空职业技术学院学报,
2005.
总结
【3】常文革,沈爱姬.商务英语课程教学探讨”U】.吉林省教学学院
Management
IMS(rr
Service)商务英语课程是一门针对兀.
学报.2008.
相关类学生设计的一门商务英语课程.具有很强的实用性和操
万方数据
一88—
统计误差分析
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
费传宝
江苏省镇江市高等专科学校管理系,江苏,镇江,212003读与写(教育教学刊)
READ AND WRITE PERIODICAL2009,6(10)0次
参考文献(2条)
1.吴惠荣 统计学原理 20072.粟方忠 统计学原理 2004
相似文献(10条)
1.期刊论文 吕筠.何平平.涂文校.李立明.LV Jun.HE Ping-ping.TU Wen-xiao.LI Li-ming 整群抽样调查数据分析中应正确计算抽样误差 -中华流行病学杂志2008,29(1)
为了澄清整群抽样调查数据分析中正确计算抽样误差的必要性,以在某市15岁及以上人群中开展的一次两阶段整群抽样调查为例,分别采用适用于单纯随机抽样数据的方法和考虑了复杂抽样设计的方法对数据进行分析.结果 显示,忽略对复杂抽样设计的考虑,不恰当的采用适用于单纯随机抽样数据的方法进行数据分析,不仅有可能大大低估样本统计量的抽样误差,在进行假设检验时,甚至会得到错误的结果,故正确分析和报告整群抽样调查数据的抽样误差是非常必要的.
2.期刊论文 洪怡恬.HONG Yi-tian 谈谈抽样调查中误差的控制 -鹭江职业大学学报2005,13(3)
通过分析抽样调查中的两部分误差(随机抽样误差与非抽样误差)对调查误差的影响,提出针对随机抽样误差采取有效性检验、合理运用各种抽样调查的组织方式等;针对非抽样误差采取科学设计调查方案、提高调查队伍素质、减少被调查者误差和防止汇总误差等方法控制误差.
3.期刊论文 金来武.赵瑞华 油松毛虫蛹种群简单随机抽样最适样方大小的确定方法 -辽宁林业科技2001,
在种群空间格局研究的基础上,采用7种方法对油松毛虫蛹种群简单随机抽样技术中最适样方大小的确定问题进行了研究.结果是蛹种群在u=1时抽样误差最低,即以单株油松为样方时最为适宜.此外,文中还给出了考虑抽样花费时确定最适样方大小的各种方法,并讨论了有关问题.
4.学位论文 张继红 防范单元无回答的实验研究——以兰州市为例 2007
无回答误差是一种发生频率高、控制难度大的非抽样误差,对估计量的危害很大,以至对调查数据的质量有重要影响。降低无回答率是控制无回答误差的主要措施,本文主要是从事前预防的角度研究降低单元无回答的可行性措施。选择兰州市城关区为样本区,采用实验调查法对我们提出的在调查设计时选择合适的访问时间、访问方法、访问员及访问次数的措施进行印证研究。
第一章通过对控制无回答措施的文献综述,发现在学术界较偏重于对事后补救措施和项目无回答的事前预防措施研究,而关于单元无回答的事前预防措施研究,具体化的、规范化的、实际操作可行性的少,尤其在国内,在方法研究中结合实验论证的很少。依此提出进行防范单元无回答措施的实验研究。
第二章是实验设计。依据实验目的,把访问时间、访问方法及访问员作为三个影响单元回答率的因素,选用多因素实验设计,进行多次重复实验。将整个样本区划分为19个区组,一个区组就是一个不同因素的不同水平的交叉组合,采用PPS三阶段分层随机抽样技术抽取每个区组的调查样本。
第三章是本文的重点部分,即对实验调查报告进行分析。首先对所抽取样本的代表性检验,并应用Logistic回归模型分析出访问时间、访问方法、访问员与单元回答情况有显著相关性,而访问次数对单元回答情况的影响不是很显著。然后通过对调查问卷的分析,发现对于具有不同特征的调查对象,一天中的闲暇时间分布,较愿意接受的访问方法和访问员均有不同集中趋势。由此本文提出在社会调查中针对不同特征的调查对象,应该设计一天当中不同时间段的访问时间、不同访问方法及不同性别的访问员,这样可以降低单元无回答率。所以,在调查设计中选择合适的访问时间、访问方法及访问员是防范单元无回答的可行措施。最后对实验中的拒访者的分布特征及拒访原因进行分析。
最后一章是对实验研究的意义进行评价,并对实验研究的结论、由实验得到的启示、以及调查过程进行总结。
5.期刊论文 张大康.Zhang DaKang 出厂水泥不同抽样方法误差比较研究 -水泥工程2009,
目前水泥厂对出厂水泥采用的是一种近乎没有限制的
6.期刊论文 李良 区间估计与抽样误差关系的研究 -科技经济市场2007,
抽样调查是从总体中抽取部分单位进行调查,以此来推断总体指标数值的一种统计调查方法.用样本来推断总体,必然存在抽样误差,但是我们可以通过抽样设计把抽样误差控制在一定的范围之内.抽样设计主要涉及到两个方面,一是抽样环节,即如何从总体产生样本,二是估计环节,即如何用样本数据估计总体目标.虽然抽样方法有很多种,但简单随机抽样、分层抽样、等距抽样是常用的三种.本文主要介绍上述三种抽样方法中所涉及到总体平均数的区间估计问题.
7.期刊论文 王佐仁.刘红英.WANG Zuo-ren.LIU Hong-ying 一类抽样统计量的性质 -纯粹数学与应用数学2009,25(2)
通过把多指标变量(X1,X2,…,Xk)的值域划分为若干矩形子区域的方式,构造出一类抽样统计量,得出了其具有的优良性质,并在合理分配样本容量的条件下得出了其抽样误差明显好于简单随机抽样误差的结论.
8.期刊论文 王迪.周清波.刘佳.Wang Di.Zhou Qingbo.Liu Jia 作物面积空间抽样框架及抽样基础要素优化设计研究 -中国农业资源与区划2008,29(4)
为实现作物面积空间抽样框架优化构建和抽样基础要素(样本容量、样方尺寸)科学制定,以河北省衡水市境内面积42km×42km的冬小麦主产区为研究区域,基于遥感(RS)和地理信息系统(GIS)技术,选取5种样方尺寸水平(3 000m×3 000m、2 000m×2 000m、1 000m×1 000m、500m×500m和
300m×300m),应用3种传统抽样技术(简单随机抽样、系统抽样和分层抽样)进行了冬小麦种植面积空间抽样及总体外推实验.结果表明:3种抽样技术中,分层抽样方法抽样效率最高(抽样相对误差均值0.15%,样本容量均值9~10个);其次是系统抽样(抽样误差均值0.74%~2.06%,样本容量均值229个);简单随机抽样最低(抽样误差均值2.04%,样本容量均值229个).抽样误差随样方尺寸减小而减小.当样方尺寸减小到一定程度时,抽样误差不降反增.现有5种样方尺
寸水平下,采用500m×500m样方尺寸抽样外推总体误差最小.
9.期刊论文 王淑珍 规模以下工业抽样调查中非抽样误差探析 -北京统计2001,
以样本指标推算总体指标,用样本统计量估计总体参数,不可避免地会出现各种误差,这些误差的综合量就形成抽样的总误差.一般地说,这个总误差可分解为两大部分,一是偏差,它反映了样本指标的期望值与总体参数的偏离程度;另一是抽样误差,它描述随机抽样估计的精确程度.
10.学位论文 刘升学 连续调查的抽样设计及应用 2008
目的:为了调查总体在不同时间上的水平及其变化、累计或平均水平,须采用连续调查,我国建立的统计调查体系是以经常性的连续调查为主体。对固定样本进行多次调查存在代表性下降和样本疲劳两个严重问题;在不同次调查中重新抽取不同的新样本,也存在另几个严重问题:如不能很好反应总体在不同时间的变化,不能利用固定样本的前期资料对现期总体作出精度较高的回归组合估计,与固定样本相比,调查费用、时间、难度更高等等。为了权衡这两方面的问题,国内外的统计学家早已研究出样本轮换(在样本容量不变的前提下,每隔一定时间更换部分样本单位)的好方法。样本轮换(Sample rotation)由于既保留了部分原有单位,又增加了部分新样本单位,所以兼有全新样本与固定样本的优点,能在抽样费用与抽样精度之间取得平衡,是减少和控制非抽样误差的重要手段。
抽样调查的关键是抽样设计。国内外对一次性(横断面)调查的抽样设计研究较多,理论及方法比较成熟;而对于连续调查的抽样设计,主要局限于对简单随机抽样调查中的样本轮换问题的研究,复杂抽样方法下连续调查中样本轮换问题的研究甚少,鉴于此,本文在分层简单随机随机抽样、整群抽样、分层整群抽样、两阶段抽样、分层两阶段整群抽样的复杂抽样方法下,对连续调查中的样本轮换相应统计量的计算公式,进行推导证明,填补相应空白,并探讨以上各复杂抽样方法下连续调查中样本轮换问题的实际应用。
方法:在调查方法的设计及公式的推导中,分层抽样的理论、整群抽样的理论、二阶段抽样的理论、回归估计量的理论、比率估计量的理论、连续调查的理论、样本轮换的理论及概率统计的基本理论被应用;在调查方法及统计公式的实际应用中,采用了分层简单随机抽样、整群抽样、分层整群抽样、两阶段抽样,分层两阶段整群抽样的抽样调查方法,及医学体检、现场问卷调查的研究方法。
结果:分别在分层简单随机抽样、整群抽样、分层整群抽样、两阶段抽样、分层两阶段整群抽样五种复杂的抽样调查方法下,对连续调查中的样本轮换,推导出了总体组合估计量、总体组合估计量的方差、总体组合估计量方差的估计量、最优样本轮换率、最优组合估计权数的计算公式。同时于2005—2007年对广东大亚湾核电运营公司(DNMC)职工的体质指数(BMI)连续进行三次抽样调查,于2006—2007年对苏州大学新校区在校学生考试作弊次数连续进行两次抽样调查,采用本项目研究的五种复杂抽样调查方法下连续调查中样本轮换的相应统计量计算公式进行参数估计,并对其进行了抽样精度比较。连续调查中采用样本轮换的抽样方法与固定样本的抽样方法相比,抽样精度,分层简单随机抽样提高29.5倍,整群抽样提高5倍,分层整群抽样提高3.2倍,两阶段抽样提高24倍,分层两阶段整群抽样提高18倍。可见,连续调查中采用样本轮换的抽样方法与固定样本的抽样方法相比,抽样精度提高数倍甚至数十倍,所推导证明的公式取得了良好的实际应用效果。
结论:本研究所推导证明的五种复杂抽样调查方法下连续调查中的样本轮换的各相应统计量计算公式,方法科学可行、参数估计精度高,具有创新性和较大的理论与实际意义。
本文链接:http://d.g.wanfangdata.com.cn/Periodical_dyx-jyjxk200910061.aspx
授权使用:北京劳动保护科学研究所IP(北京劳动保护科学研究所IP),授权号:0884dd5e-bfb9-4379-b04a-9dc10128892b
下载时间:2010年7月28日