简单随机抽样
实验1 简单随机抽样
实验目的:
1. 掌握简单随机抽样的抽取方法
2. 掌握总体均值、总体总量、总体比例的简单估计方法 3. 掌握总体均值、总体总量、总体比例的比估计方法
1. 运用excel进行简单随机抽样(注意一般重复抽样使用) 1.1 RAND函数
返回大于等于 0 及小于 1 的均匀分布随机数,每次计算工作表时都将返回一个新的数值。 说明
若要生成 a 与 b 之间的随机实数,请使用: RAND()*(b-a)+a
如果要使用函数 RAND 生成一随机数,并且使之不随单元格计算而改变,可以在编
辑栏中输入“=RAND()”,保持编辑状态,然后按 F9,将公式永久性地改为随机数。 也可复制生成的随机数,右击单元格在选择菜单里的选择性粘贴,选中“值”。
1 2 3
A 公式 =RAND()
B 说明(结果)
介于 0 到 1 之间的一个随机数(变量)
=RAND()*100 大于等于 0 但小于 100 的一个随机数(变量)
1.2 RANDBETWEEN函数
返回位于两个指定数之间的一个随机数。每次计算工作表时都将返回一个新的数值。 如果该函数不可用,并返回错误值 #NAME?,请安装并加载“分析工具库”加载宏。
操作方法
1. 在“工具”菜单上,单击“加载宏”。
2. 在“可用加载宏”列表中,选中“分析工具库”框,再单击“确定”。 3. 如果必要,请遵循安装程序中的指示。
语法
RANDBETWEEN(bottom,top)
Bottom 函数 RANDBETWEEN 将返回的最小整数。 Top 函数 RANDBETWEEN 将返回的最大整数。 1.3 “抽样”对话框: 操作:数据分析—抽样 输入区域
在此输入数据区域引用,该区域中包含需要进行抽样的总体数据。Microsoft Excel 先从第一列中抽抽样本,然后是第二列,等等。 标志
如果输入区域的第一行或第一列中包含标志,请选中此复选框。如果输入区域没有标志,请清除此复选框,Microsoft Excel 将在输出表中生成适宜的数据标志。 抽样方法
单击“周期”或“随机”可指明所需的抽样间隔。 间隔
在此输入进行抽样的周期间隔。输入区域中位于间隔点处的数值以及此后每一个间隔点处的数值将被复制到输出列中。当到达输入区域的末尾时,抽样将停止。 样本数
在此输入需要在输出列中显示的随机数的个数。每个数值是从输入区域中的随机位置上抽取出来的,而且任何数值都可以被多次抽取。 输出区域
在此输入对输出表左上角单元格的引用。所有数据均将写在该单元格下方的单列里。如果选择的是“周期”,则输出表中数值的个数等于输入区域中数值的个数除以“间隔”。如果选择的是“随机”,则输出表中数值的个数等于“样本数”。 新工作表组
单击此选项可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。若要为新工作表命名,请在右侧的框中键入名称。
新工作簿
单击此选项可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。 1.4 不重复的简单随机抽样
前边利用EXCEL,使用随机函数与抽样工具得到的样本均为重复抽样样本,下边介绍利用EXCE进行不重复的简单随机抽样。
对总体中每个单位用RAND函数得到对应随机数 将随机数固定("复制","选择性粘贴/数值")
然后按各单位对应的随机数排序后选择前n个单位。也可用match(small(随机数区域,
i),随机数区域,0)函数求出随机数中第i小的数对应的单元在总体中的排列序号(如果总体从1开始编号,则此序号为总体编号) 2、运用spss进行不重复简单随机抽样
选Data菜单的Select Cases...命令项,弹出Select Cases对话框(图1.1),系统提
供如下几种选择方法:
图1.1 数据选择对话框
1、All cases:表示所有的观察例数都被选择,该选项可用于解除先前的选择;
2、If condition is satisfied:表示按指定条件选择,点击If...钮,弹出Select Cases:If对话框,先选择变量,然后定义条件;
3、Random sample of cases:表示对观察单位进行随机抽样,点击Sample...钮,弹出Select Cases:Random Sample对话框,有两种选择分式,一是大概抽样(Approximately)即键入抽样比例后由系统随机抽取,另一是精确抽样(Exactly)即要求从第几个观察值起抽取多少个;
4、Based on time or case range:表示顺序抽样,点击Range...钮,弹出Select Cases:Range对话框,用户定义从第几个观察值抽到第几个观察值; 5、Use filter variable:表示用指定的变量作过滤,用户先选择1个变量,系统自动在数据管理器中将该变量值为0的观察单位标上删除标记,系统对有删除标记的观察单位不作分析。若用户在Select Cases对话框的Unselected Cases Are框中选Deleted项,则系
统将删除所有被标上删除标记的观察单位。 3、 查找样本标志值
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup) Lookup_value 为需要在数组第一列中查找的数值。 Table_array 为需要在其中查找数据的数据表。
如果 range_lookup 为 TRUE,则 table_array 的第一列中的数值必须按升序排列:„、-2、-1、0、1、2、„、-Z、FALSE、TRUE;否则,函数 VLOOKUP 不能返回正确的数值。如果 range_lookup 为 FALSE,table_array 不必进行排序。 通过在“数据”菜单中的“排序”中选择“升序”,可将数值按升序排列。 Table_array 的第一列中的数值可以为文本、数字或逻辑值。 文本不区分大小写。
Col_index_num 为 table_array 中待返回的匹配值的列序号。Col_index_num 为 1 时,返回 table_array 第一列中的数值;col_index_num 为 2,返回 table_array 第二列中的数值,以此类推
Range_lookup 为一逻辑值,指明函数 VLOOKUP 返回时是精确匹配还是近似匹配。如果为 TRUE 或省略,则返回近似匹配值,也就是说,如果找不到精确匹配值,则返回小于 lookup_value 的最大数值;如果 range_value 为 FALSE,函数 VLOOKUP 将返回精确匹配值。如果找不到,则返回错误值 #N/A。 4、参数简单估计 估计理论
2)总体均值的估计
1nyini1
s2
v()(重复抽样)
n
s2Nns2
v().(1f(不重复抽样))
nNn
置信区间:
ˆ),t(n1)s(ˆ) *小样本情况下:t(n1)s(
ˆ),us(ˆ) *大样本情况下:us(
3)总体总量的估计
n
NˆNNyYini1
)N2V()N2v() ˆ)V(N V(Y
ˆ)NS()S(Y
4) 总体比例的估计
ˆp P的简单估计为P
估计量的方差:
n
pq
spqv(p)(重复抽样)
nnn1
n
pq
s2Nns2pqv(p).(1f)(1f)(1f(不重复抽样))nNnnn1
2
5、参数的比估计 1) 总体比率的估计
ˆy, R
x
ˆ)1fv(R
n2
(y
i1
N
i
ˆx)2Ri
n1
1f2ˆ2s22Rˆs) (sRyxyx2
n2) 总体均值和总和的比估计
yRˆ R
x
)1fv(R
n
(y
i1
n
i
ˆx)2Ri
n1
1f2ˆ2s22Rˆs) (syRxyx
n
N ˆXyXRˆXYRR
x
) ˆ(Yˆ)N2Vˆ(VRR
6、参数的回归估计
()() lr
)1f(s22s22s) v(lryxyx
n
当取β为样本回归系数b,即b
(y
i1
n
n
i
)(xi)
(函数为slope)时
i
(x
i1
)2
b()b() lr
)1fs2(估计标准误差函数为steyx) v(elr
n
参数估计上机操作
EXCEL中,使用数据分析—描述统计可直接获得均值的简单估计结果,注意计算机给出的实际是按重复抽样公式计算的结果,如进行的是不重复抽样,需在此基础上修改抽样方差。 SPSS中,使用分析—描述统计,探索性分析可直接获得均值的简单估计结果,另外,可使用单个样本的t检验直接计算置信区间。但需注意spss给出的实际也是按重复抽样公式计算的结果。