统计数据代表值计算
第5章 统计数据的标志值计算及其描述
5.3 探索性统计分析
前面介绍的统计资料描述方法通常是先将统计资料分组处理,然后
把分组资料画成各种图分析其分布规律。但这种传统的统计资料处理方法有一定的局限性,容易失去原始资料的真实性。为了克服这一弊端,70年代开始国外已经出现了新的探索性资料分析方法。探索性资料分析特征操作简便,能够准确地描述统计变量分布情况。在这里只介绍最常用的茎叶图和箱线图。
5.3.1 箱线图(Boxplot)
L Q1 Q2 平均数 Q3
箱线图是把第一四分位数,第二四分位数(中位数),第三四分位
数,四分位数范围,最大值及最小值画成一个箱子和一条线。
将箱子两侧超过四分位数差1.5倍范围内的值用点线(--)连接
起来,超出四分位数差1.5倍至3倍范围的值为零,超过3倍的特别大或特别小的异常值用*表示。如果我们所研究的统计资料的分布是对称的,那么Q2垂直线将落在箱子的正中央。如果Q2垂直线落在靠近Q3的位置,那么分布的长尾拖向左边;相反Q2垂直线落在靠近Q1的位置,
那么分布的长尾拖向右边。因此不同的箱线形状就反映出不同的分布特征(见图5-6)。
图5-6 箱线图与分布形状
Q1
Q2
╋ (A) 正态分布Q3 (B) 右偏分布
5.3.2 茎叶图(Stem-and-leaf Display)
茎叶图将提供统计资料的分布形态、范围、集中程度等情报。利
用茎叶图主要有两个优点,首先它既能保留原始资料的真实情报,又能为准确计算平均数等代表值提供方便。特别是对100个以下观测值的频数分布分析非常有用。其次SAS for Windows在统计量的分组中,茎叶图可将统计分组和画直方图一次完成,不会出现重复分组的可能。茎叶图将树茎置于垂直线的左侧,树叶在垂直线的右侧按顺序排列。绘制茎叶图,关键是要设计好树茎,这好比和资料分组时,先确定分组数和每组的组限一样重要。
茎叶图是以观测值的间隔为纵坐标(茎),观测值的末尾数字为
横坐标(叶),叶的右边数字为相应区间内观测值的个数。观测值的间隔为系统自动给出,当观测值的个数小于30时,数据间隔为10,当大于30时,间隔为5。
Stem Leaf #
9 1 1 8 4 1 7 125 3
6 135689 6
5 2558 4 4 567 3 3 5 1
2 2 1 ----+----+----+----+
Multiply Stem.Leaf by 10**+1
5.4 利用SAS程序计算描述性统计量
5.4.1 PROC UNIVARIATE
前面我们叙述了平均数、中位数、众数、偏度系数、方差、标准
差等代表分布集中趋势和离散趋势的标志值和箱线图及茎叶图等探索性资料分析。下面将介绍利用SAS for Windows,计算和分析描述性统计量1)的基本方法(SAS程序),SAS for Windows统计分析的基本形式如下:
□PROGRAM 解释
①PROC UNIVARIATE;
SAS for Windows统计分析PROC UNIVARIATE命令是最常用的命
令,也是最重要的命令之一,用来分析各种各样的描述性统计量。PROC UNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。 option1
- DATA=dsn:指定分析资料名dsn。
12) 把描述性统计量也称作基础统计量.
- PLOT:探索性分析,作茎叶图和箱线图。在SAS for Windows,
根据观测值个数的多少,茎叶图和箱线图的形状有所不同。下面的图(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。由此可知,当观测值的个数n 30时,茎叶图的同一个级别的树茎不分杈,当n>30时,茎叶图的同一个水准的树茎分杈,比如70级别的树茎,分成70~74和75~79级别的两个树茎,这等于把原来的茎叶图和箱线图拉长了一倍。
图(a) 观测值n≤30
n>30
Stem Leaf # Boxplot Stem Leaf # Boxplot
9 5 1 | 9 567
3 | (右)
8 0233456 7 +-----+ 9 |
7 [1**********] 11 *-----* 8 56
2 |
6 35 2 | + | 8 22334
5 +-----+
5 1369 4 +-----+ 7 556788
6 | |
4 046 3 | 7 12234
5 *--+--*
3 9 1 | 6 5
1 | |
2 2 1 | 6 3
1 | |
----+----+----+----+ 5 69
2 +-----+
Multiply Stem.Leaf by 10**+1 5 13 2 |
4 6
1 |
4 04
2 |
3 9
1 |
3 |
2 |
图(b) 观测值
2 2
1 | (左)
----+----+---
-+----+
Multiply
Stem.Leaf by 10**+1
(图5-7) 茎叶图和箱线图与观测值
- FREQ:作频数分析表(频数也称作次数)。
- NORMAL:正态分布分析。计算有关检验正态分布的统计量p-值。
- NOPRINT:不打印分析结果。
以上的Option,可以在一个PROC UNIVARIATE命令中重复使用。比
如,
„ „ „ „ ;
PROC UNIVARIATE DATA=one PLOT FREQ;
RUN;
② VAR 变量名1 变量名2„„;
指定描述性统计分析的变量。SAS程序中只有一个变量时不需要指
定VAR变量。但在SAS程序中有两个以上变量时,需要指定VAR变量。如果不指定,则对所有的变量都作统计分析。比如,
INPUT x y z; ←SAS程序中有3个变量。
„ „ „ „ ;
PROC UNIVARIATE PLOT; ←作描述性统计分析。
VAR x y; ←只作x y变量的探索性统计分析。
③ BY 变量1 变量2„;
以BY指定的变量为基准,对VAR变量进行统计分析。
④ FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数
据集中相应的观测出现的频数。
⑤WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权
数。
⑥OUTPUT OUT= dsn option2;
OUTPUT语句要求把计算的描述性统计量输出到新的SAS数据集
中。新数据集名字的定义用OUT=DSN来命名,OPTION2是对输出的描述性统计量进行选择和规定统计量在输出列表中的变量名。一般格式为:
OUTPUT OUT= 新dsn 统计量代号=新变量名1 新变量名2„;
例如,OUTPUT OUT=EXAMPLE MEAN=MEANX MEANY STD=STDX STDY;
option2
- N:资料个数 - MEDIAN:中位数
- VAR:样本方差 - SUM:观测值的总和(∑x) ii
- Q1:第一四分位数(上位四分位数)(25%) - Q3:第三四分位数(75%)
- P1:第一百分位数(1%) - P10:第十百分位数(10%)
- P90:第九十百分位数(90%) - P95:第九十五百分位数(95%)
- P99:第九十九百分位数(99%) - USS:观测值的平方之和(∑xii2)
) - KURTOSIS:峰度- STDERR:平均数的标准误差((系数)
- PRT:T-统计量的p-值 - NMISS:缺省值的个数
- MODE:众数 - MIN:最小值
- RANGE:范围(MAX-MIN) - QRANGE:四分位数范围
- CSS:离差的平方之和∑(x
ii-)2 - T:T-统计量
- MEAN:平均数 - MAX:最大值
- CV:离散系数(变动系数) - SKEWNESS:偏度系数
例5-11: 在A,B两个会社的男女营业员中各抽出4名,对他们的去年和今年的营业(销售)额进行了调查。去年和今年的营业额分别用slast和snow表示。利用此调查资料作PROC UNIVARIATE 统计分析。(把资料直接编入SAS程序)
SAS PROGRAM:
OPTION PS=60 NODATE;
DATA example;
INPUT company $ gender $ slast snew @@;
CARDS;
A M 70 72 A M 65 67 A F 57 54 A F 60 63 A M 64 65 A M 50
51 A F 30 40 A F 35 34
B M 33 35 B M 42 44 B F 31 30 B F 55 52 B M 66 68 B M 47
51 B F 66 70 B F 54 52
RUN;
PROC UNIVARIATE DATA=example PLOT NORMAL;
VAR slast snew; ← ②
TITLE 'RESULTS OF PROCEDURES UNIVARIATE';
RUN;
□PROGRAM解释
①不打印日期(NODATE),每页打印60行(PS=60)。
②对两个变量slast和snow分别进行UNIVARIATE分析,并利用PLOT和NORMAL两个选择事项。
□运行结果及解释
RESULTS OF PROCEDURES UNIVARIATE
Univariate Procedure
Variable=SLAST
① Moments
Ⅰ N 16 Sum Wgts 16
Ⅱ Mean 51.5625 Sum 825
Ⅲ Std Dev 13.7403 Variance
188.7958
Ⅳ Skewness -0.38707 Kurtosis -
1.29697
Ⅴ USS 45371 CSS 2831.938
Ⅵ CV 26.64785 Std Mean
3.435075
Ⅶ T:Mean=0 15.01059 Pr>|T| 0.0001
Ⅷ Num ^= 0 16 Num > 0 16
Ⅸ Sgn Rank 68 Pr>=|S| 0.0001
Ⅹ W:Normal 0.913294 Pr
① 因为slast变量分布的情报和snow变量分布的情报可以作相同的
解释,因此,在此省略有关snow变量分布情报的解释。
Ⅰ. N是观测值的个数,Sum Wgts是观测值个数的权重之和(16个)。
Ⅱ. Mean是算术平均数,Sum是观测值的总和。
Ⅲ. Std Dev(standard deviation)是标准差,Variance是方差。 Ⅳ. Skewness是分布的偏度系数,Kurtosis是峰度系数。因为偏度系数= -0.38707
Ⅴ. USS是观测值(未校正)的平方和(∑(slast)),CSS是观测值减2
2去平均数的平方和(校正的平方和(∑(slast-slast))。
Ⅵ. CV是偏离系数(变异系数或变动系数),它一般用标准差系数和平均差系数来表示。Std Mean样本平均数的标准误差。
Ⅶ. T:Mean=0:是为了检验平均数为零的假设,计算其分布的T值。“Pr>|T| 0.0001”是T值所对应的概率p(pr)值=0.0001,并且Pr>|T|成立。本题中,因为T=15.101,p值(0.0001)>|T(15.101)|的假设不成立,所以,平均数为零的假设不成立。
Ⅷ.“Num ^=0 16 Num>0 16”:表示观测值不是零个,而是16个。 Ⅸ Sgn Rank是对平均数为零的假设,检验其分布的符号秩(Signed Rank Test)。Ⅶ是检验总体服从正态分布的假设,符号秩次检验是对总体不作任何假设。所以,资料不服从正态分布时,要作符号秩次检验。本题的符号秩次检验结果,平均数为零的假设不成立。因为Pr(0.0001)≥|S(68)|不成立。
Ⅹ.“W:Normal表示W统计量,Pr
的假设(和Ⅶ矛盾)。即Pr(0.1332)
② Quantiles(Def=5)
Ⅰ Ⅱ
100% Max 70 99%
70
75% Q3 64.5 95%
70
50% Med 54.5 90%
66
25% Q1 38.5 10%
31
0% Min 30 5%
30
Ⅲ Range
40
Ⅳ Q3-Q1
26
Ⅴ Mode
66
② 分析资料的百分率,范围,频数等情报。
Ⅰ. Max-最大值,Q3-第3四分位数,Med-中位数,Q1-上位四分位数,Min-最小值。
Ⅱ. 表示百分位数。
Ⅲ. Range-范围:最大值-最小值。
Ⅳ. Q3-Q1:第3四分位数-第1四分位数。
Ⅴ. Mode:频数(出现次数最多的观测值)。
③ 提供极值情报。左侧的30,31,33,35,42是DATA set中的5个
极小值,7,11,9,8,10代表这些极小值在DATA set中的位置(序
号)。右侧的64,65,66,66,67是DATA set中的5个极大值。
③ Extremes
Lowest Obs Highest Obs
30( 7) 64( 5)
31( 11) 65( 2)
33( 9) 66( 13)
35( 8) 66( 15)
42( 10) 70( 1)
④ Stem Leaf
⑤ Boxplot
7 0
|
6 566 3
|
6 04 2
+-----+ ←Q3
5 57 2
| |
5 04 2
*--+--*
# 1
4 7 1
| |
4 2 1
| |
3 5 1
+-----+
3 013 3
|
----+----+----+----+
Multiply Stem
++++*
* *+++
*+++
**++++
←Q1 。Leaf by 10**+1 ⑥ Normal Probability Plot 72.5+ | | * | 52.5+ **+++ | *++ | ++*+ | ++++* 32.5+ * ++* * +----+----+----+----+----+----
+----+----+----+----+
-2 -1 0
+1 +2
图④⑤⑥是检验变量slast是否服从正态分布的结果。
④ 茎叶图(Stem-Leaf):它是利用实际观测值来表示分布的形态。
⑤ 箱线图(Boxplot):在箱线图中,由第1四分位数和第3四分位数
来决定其箱子两端,中位数所在的位置用水平线“---”表示。以
“+”符号表示其平均数的位置。箱子两端的垂直中心线的范围(长
度)等于1.5*四分位数。在1.5*四分位数~3*四分位数范围是观测值
用“0”表示,超过该范围(超过3*四分位数范围)的观测值用“*”
表示。
⑥ 正态概率散点图(Normal Probability Plot):正态概率散点图
的基准线由“+”表示,观测值(点)由“*”表示。如果基准线“+”
和观测值“*”越一致(在同一条水平线上),则越接近正态分布。本
例中的基准线“+”和观测值“*”基本一致,所以分布近似正态分
布。
例5-13:天津市某机关拟从30名科级干部中选拔40%提拔为处级干
部,为了选拔处级干部,对30名科级干部进行了业务考试。其业务考
核成绩资料如表5-8。
(表5-8) 考核成绩资料
试求:1)资料的平均数,中位数,众数及四分位数; 2)方差和标准差; 3)
分析分布的偏度和对称性; 4)箱线图; 5)考核成绩属于前40%的成绩是
多少。
SAS PROGRAM:
DATA ONE;
INPUT X @@;
CARDS;
„„„资料省略„„„;
RUN;
PROC UNIVARIATE PLOT NORMAL; VAR X; RUN;
□运行结果及解释:
The SAS System Univariate Procedure
Variable=X
RESULTS OF PROCEDURES UNIVARIATE
Univariate Procedure
Variable=X
① Moments
Quantiles(Def=5)
N 30 Sum Wgts 30 100% Max
95 99% 95
Mean 67.9 Sum 2037 75% Q3
80 95% 86
Std Dev 17.12701 Variance 293.3345 50% Med
73.5 90% 84.5
Skewness -0.92899 Kurtosis 0.340582 25% Q1
56 10% 42
USS 146819 CSS 8506.7 0% Min
22 5% 39
CV 25.22387 Std Mean 3.12695
1% 22
T:Mean=0 21.71445 Pr>|T| 0.0001 Range
73
Num ^= 0 30 Num > 0 30 Q3-Q1
24
M(Sign) 15 Pr>=|M| 0.0001 Mode
72
Sgn Rank 232.5 Pr>=|S| 0.0001
W:Normal 0.918571 Pr
Extremes
Lowest Obs Highest
Obs
22( 1)
83( 26)
39( 2)
84( 27)
40( 3)
85( 28)
44( 4)
86( 29)
46( 5)
95( 30)
③ Boxplot
② Stem Leaf #
9 5 1
|
8 0233456 7
+-----+
7 [1**********] 11
*-----*
6 35 2
| + |
5 1369 4
+-----+
4 046 3
|
3 9 1
|
2 2 1
|
----+----+----+----+
Multiply Stem.Leaf by 10**+1
Normal Probability
Plot
95+
++++++ *
|
***++* * *
| ** **+***++
| **+++++
| +****+
| ++*+*+*
| ++++++*
25++++ *
+----+----+----+----+----+----+----
+----+----+----+
-2 -1 0
+1 +2
① 有关考核资料的主要统计数值如下:平均数(Mean)=67.9;中位数
(Med)=73.5;众数(Mode)=72;方差(Variance)=293.3;标准差(Std
Dev)=17.12701;偏度系数(Skewness)=-0.92899;最大值=95;最小值=22;
范围(Range)=95-22=73;第一四分位数(Q1)=56;第三四分位数(Q3)=80;
四分位数(Q3-Q1)=24;第90百分位数=84.5;第95百分位数=86;因为偏度
系数SK
零,所以资料的分布偏向左侧。
② 在茎叶图(Stem Leaf)中可以看到,最高分数为95分,最低分数
为22分。从茎叶图树页中可以知道,答90分以上的只有1人,答80~89
分的有7人,答70~79分的人最多,有11人。
③由箱线图(Boxplot)可知,观测值中不存在异常值。由于中央线略偏
向第2四分位数Q3,所以分布左偏。④Shapiro-Wilk(观测值数小于50)
检验结果。检验统计量W:Normal=0.91857。p-值(Pr
著性水准0.05小,所以分布服从正态分布的假设不成立,也就是说考
核成绩分布不服从正态分布。假设属于前40%的考核成绩为xm,则可按
下面方法近似(当作正态分布计算)。
xm=+(z0.4⨯s)=67.5+(0.25×17.09756)=72.2
因此,业务考核至少打72.2分,才有可能被提拔为处级干部。
5.4.2 PROC MEANS
利用SAS for Windows PROC UNIVARIATE命令,可以计算和分析
分布的平均数,标准偏差,离散系数,茎叶图,箱线图,百分位数,
四分位数等描述性统计量和探索性统计量,但是PROC UNIVARIATE命
令所分析的统计量项目过多,在实际统计分析工作中往往有些统计量
不需要分析,这就要求我们有选择性的统计分析。
下面介绍PROC MEANS命令。PROC MEANS命令,主要是以提供分布
的平均数,-值和显著型概率为核心的,最基本的描述性统计量计算
和分析方法。PROC UNIVARIATE命令所提供的统计量和PROC MEANS命
令所分析的统计量有许多重复的地方,PROC MEANS命令相对来说比较简单。PROC MEANS命令的基本形式为: t
① PROC MEANS DATA=dsn1 option;
② VAR 变量名1 变量名2„;
③ FREQ 变量名;
④ WEIGHT 变量名;
⑤ OUTPUT OUT= 新dsn 关键词=新变量名1 新变量⑥ BY 变量名1 变量名2„;
□PROGRAM 解释
① PROC MEANS DATA=dsn1 option; 分析option 所指定的统计量。
DATA=dsn1中,dsn1表示需要分析的SAS DATA set名。如果把DATA
set直接编入到程序,则可以省略此命令。Option是统计分析的选择事项,可以指定如下的SAS命令2)
-MAXDEC=n:n=0~8之间的整数。n是对计算结果(数字)允许的最
大小数点后位数。比如MAXDEC=3,则小数点后只能保留
3位数。
-ALPHA=n:设置计算置信区间的置信水平。若缺省,系统默认
ALPHA=0.05。
-NOPRINT:不打印其分析结果。
-N:打印观测值数,如果在DATA set中有缺省值,则只打印没有缺
省值的观测值数。
-NMISS:打印各变量的缺省值数(missing value)。
-MEAN:计算分布的平均数。
-VAR:计算方差(variance)。
-STD:计算标准差(Standard deviation)。
-MAX:计算最大值。
-MIN:计算最小值。
-RANGE:范围(max-min)。
-SUM:计算观测值(Observation)的总和。
-USS(Uncorrected Sum of Squares):观测值的平方之和(∑x) n
i=02i
-CSS(Corrected Sum of Squares):观测值减去平均数的平方之和(∑(x-)) n2
i=0i
-STDERR:标准误差(Standard error)是关于平均的标准偏差3)s=(n)
-CV(Coefficient of Variation):计算分布的离散系数(或称为变动
系数)。(标准差/平均数)*100
-T:计算T-统计量(T-值)。计算检验平均数为零的统计量。
-PRT:p-值。这是SAS提供的显著性概率,p-值的大小将决定原假设的成立与否。
-SKEWNESS:分布的偏度。如果偏度=0,则对称分布;若偏度
偏分布;若偏度>0,则右偏分布。 13)OC MEANS option,不能指定PLOT,FROT,NORMAL等命令。但是在PROC UNIVARIATE option,可选用PLOT,FROT,NORMAL等SAS命令。因此需要分析PLOT,FROT,NORMAL等统计量时,必须选用PROC UNIVARIATE命令
14)OC UNIVARIATE中,以Std Meanvy 表示标准误差STDERR
-KURTOSIS:峰度。若峰度=3,则正态分布,若峰度>3,则尖顶分布;
若峰度
-CLM:计算置信上限和下限。
-LCLM:置信下限。
-UCLM:置信上限。
②VAR 变量名1 变量名2„;指定分析对象的变量名,如果不指定分析
对象变量,则对所有的变量进行分析。
③ FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数据
集中相应的观测出现的频数。
④ WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权数。
⑤OUTPUT OUT=新dsn 关键词=新变量名1 新变量名2„; 把PROC MEANS的分析结果储存到新的DATA set「新dsn」名下。
PROC MEANS DATA=example;
VAR height weight;
OUTPUT OUT= example1 mean=mean1 mean2 std=std1 std2;
对变量height weight进行PROC MEANS分析的结果,以example1的新资料名储存起来。并且把分析的height weight变量的平均数mean和标准差std分别储存到mean1,mean2和std1,std2新变量下。
⑥BY 变量名1 变量名2„;指定基准变量。
例5-13:利用PROC MEANS,计算前面销售额例子中的snew和slast变量的观测值数,范围,平均数,方差等统计量。
DATA example;
INPUT company $ gender $ slast snow @@;
CARDS;
A M 70 72 A M 65 67 A F 57 54 A F 60 63 A M 64 65 A M 50 51 A F 30 40 A F 35 34
B M 33 35 B M 42 44 B F 31 30 B F 55 52 B M 66 68 B M 47 51 B F 66 70 B F 54 52
RUN;
PROC MEANS N RANGE MEAN VAR; ←①
VAR slast snow; OUTPUT OUT=SALE MEAN=LMEAN NMEAN
STDERR=LSD NSD; ← ②
← ③
TITLE 'OUTPUT OF DATA SET "SALE"'; RUN;
←④
←⑤
BY company gender; VAR slast snew; TITLE 'DESCRIPTIVE
STATISTICS BY COMPANY AND GENDER'; RUN;
□SAS PROGRAM 解释
①分析N RANGE MEAN VAR等统计量。
②PROC MEANS统计量的储存。slast变量的平均数和标准差分别命名
为LMEAN,LSD,变量snow的平均数和标准差分别为NMEAN,NSD,
并且把这些新变量(统计量)储存到SALE名下。
③打印SALE资料(统计量)。
④把原来example DATA set,以company sex变量为基准重新排列。
⑤按④重新排列的顺序,运行PROC MEANS命令。
□运行结果及解释:
① STATISTICS BY SLAST SNOW
Variable N Range Mean
Variance TITLE 'STATISTICS BY SLAST SNEW'; PROC PRINT DATA=SALE; PROC SORT DATA=example; BY company gender; PROC MEANS;
SLAST 16 40.0000000 51.5625000 188.7958333
SNEW 16 42.0000000 52.7500000
191.8000000
② OUTPUT OF DATA SET "SALE"
OBS _TYPE_ _FREQ_ LMEAN
LSD NSD
1 0 16 51.5625 52.75
3.43507 3.46230
DESCRIPTIVE STATISTICS BY COMPANY AND SEX
③ COMPANY=A gender=F
Variable N Mean Std Dev
Minimum Maximum
SLAST 4 45.5000000 15.1986842
30.0000000 60.0000000
SNEW 4 47.7500000 13.1751028
34.0000000 63.0000000
④ COMPANY=A GENDER=M
Variable N Mean Std Dev
Minimum Maximum
SLAST 4 62.2500000 8.5780728
50.0000000 70.0000000
SNEW 4 63.7500000 8.9953692
NMEAN
51.0000000 72.0000000
①snew和slast变量的N RANGE MEAN VAR等统计量。
②打印SALE的结果:标准差,平均数,频数等统计量。
③会社A女职员的统计量:观测值数、平均数、标准差、最小值、最
大值。
④会社A男职员的统计量:观测值数、平均数、标准差、最小值、最
大值。
例5-14:投资相对风险的分析
某企业在过去10年的投资收益率的资料如表2-9。试求:投资方案
A,B的平均收益率、风险的大小及离散系数。
(表5-9) 投资收益率(%)
本例题可利用 PROC UNIVARIATE命令计算分布的平均数(平均
收益率),标准差(风险的大小),离散系数等统计量。但PROC
UNIVARIATE分析的统计量过多。根据题意,我们只选用PROC
MEANS命令,就可以达到预期的分析目的。
SAS PROGRAM
DATA ONE;
INPUT A B @@;
CARDS;
12 13 11 15 15 17 15 19 13 13 16 9 10 17 13 12 14 19 12
15
PROC MEANS MEAN STD CV MAXDEC=2;←①
VAR A B; RUN;
□PROGRAM 解释
①PROC MEANS MEAN STD CV MAXDEC=2;计算两个变量A,B的平均数、标准差、离散系数。其中MAXDEC=2表示只保留小数点后两位数。 □计算结果 The SAS System
Variable Mean Std Dev
CV
A 13.10 1.91 14.60
B 14.90 3.21 21.56
投资方案A的期望收益率为(13.1%),比投资方案B的期望收益率(为14.9%)少1.8%,但投资B的风险(3.21)比投资A的风险(1.91)大
1.30。因为两个投资方案A和B具有不同的收益率和风险,所以有必要根据离散系数来判断投资收益率的相对变化可能性的大小。投资A的离散系数(14.60),比投资B的离散系数(21.56)小。所以投资A的收益率相对投资B的收益率更稳定。如果投资者是风险回避型(risk averse)将选定投资方案A。