2014灰色关联分析(1)
灰色系统理论灰色理论的创立• 灰色系统理论(Grey System Theory)的创立 源于20世纪80年代。邓 聚龙教授在1981年上海 中-美控制系统学术会议 上所作的“含未知数系统 的控制问题”的学术报告 中首次使用了“ 灰色系 统”一词。1982年,邓聚龙发表了“参数不完全系统的最小信息 正定”、“灰色系统的 控制问题”等系列论文,奠定了 灰色系统理论的基础。他的论文在国际上引起了高度 的重视,美国哈佛大学教授、《系统与控制通信》 杂志主编布罗克特 (Brockett)给予灰色系 统理论高度评价,因而, 众多的中青年学者加入到 灰色系统理论的研究行 列,积极探索灰色系统理 论及其应用研究。邓聚龙系统理论则主张从事物内部,从系统内部结构 及参数去研究系统,以消除“黑箱”理论从外部研究事 物而使已知信息不能充分发挥作用的弊端,因而,被 认为是比“黑箱”理论更为准确的系统研究方法。灰色系统所谓灰色系统 是指部分信息已知而部分信息未知的系统,灰 色系统理论所要考察和研究的是对信息不完备的系 统,通过已知信息来研究和预测未知领域从而达到 了解整个系统的目的。 灰色系统理论与概率论、模糊数学一起并称为研究不 确定性系统的三种常用方法,具有能够利用“少数据” 建模寻求现实规律的良好特性,克服了数据不足或系 统周期短的矛盾。灰色理论的发展目前,灰色系统理论得到了极为广泛 的应用,不仅成功地应用于工程控制、 经济管理、社会系统、生态系统等领域,而且 在复杂多变的农业系统,如在水利、气象、生 物防治、农机决策、农业规划、农业经济等方 面也取得了可喜的成就。灰色系统理论在管理 学、决策学、战略学、预测 学、未来学、生命科学等领 域展示了极为广泛的应用 前景。一般的抽象系统都包含有许多影响因素,多种因素共同作用的结果 决定了系统的发展态势。我们希望从众多的因素中判断出,哪些是 主要因素、哪些是次要因素。这些属于系统分析的内容,数理统计 中的回归分析、方差分析、主成分分析等都可以用来进行系统分析。 这些方法的不足之处是: 1、要求有大量的数据。 2、要求样本服从某一种典型概率分布,各因素数据与系统特征数 据之间呈线性关系且各因素之间彼此无关。 3、计算量大 4、可能出现量化结果与定性分析结果不符的情况。灰色关联分析方法的基本思想是根据序列曲线几何形状的相 似程度来判断其联系是否紧密,曲线越接近,相应序列之间 的关联度就越大,反之就越小。 对一个抽象系统或现象进行分析,首先要选准反映系统行为 特征的数据序列。我们称之为找系统行为的映射量,用映射 量来间接地表征系统行为。比如: 国民平均受教育的年限 刑事案件的发案率→ →教育的发达程度 社会治安面貌和社会秩序(一)、灰色关联分析法的建模过程 和机理� 利用灰色关联分析进行综合评价的步骤 是: � 1.根据评价目的确定评价指标体系,收 集评价数据。表6-1是某地区2000-2005年国内生产总值的统计 资料.现在提出这样的问题:该地区三大产业中, 哪一产业的变化与该地区国内生产总值(GDP)的 变化态势更一致?也就是哪一产业与GDP的关联 度最大呢? 表6-1 某地区国内生产总值统计资料(百万元)年份 国内生产总值 第一产业 第二产业 第三产业 2000 1988 386 839 763 2001 2061 408 846 808 2002 2335 422 960 953 2003 2750 482 1258 1010 2004 3356 511 1577 1268 2005 3806 561 1893 1352首 页 上 页 下 页 尾 页这样的问题很有实际意义,一个自然的想法就是分 别将三次产业产值的时间序列与GDP的时间序列 进行比较,为了能够比较,先对各序列进行无量纲化, 这里采用均值化法.各序列的均值分别为:2716, 461.5,1228.83,1025.67,上表中每列数据除以其均值 可得均值化序列(如表6-2所示)年份t GDP x0(t) 2000 2001 2002 2003 2004 2005 0.7320 0.7588 0.8597 1.0125 1.2356 1.4013 一产业 x1(t) 0.8364 0.8819 0.9144 1.0444 1.1073 1.2156 二产业 x2(t) 0.6828 0.6885 0.7812 1.0237 1.2833 首 页 1.5405 三产业 x3(t) 0.7440 0.7878 0.9291 0.9847 1.2363 上 页 下 页 尾 页 1.3182两序列变化的态势是表现在其对应点的间距上.如 果各对应点间距均较小,则两序列变化态势的一致 性强,否则,一致性弱.分别计算各产业产值与GDP 在对应期的间距(绝对差值),结果见表6-3所示.年份t 2000 2001 2002 2003 2004 2005∆ 01 (t ) =x0 (t ) − x1 (t )0.1044 0.1231 0.0547 0.0319 0.1284 0.1857∆ 02 (t ) =x0 (t ) − x2 (t )0.0492 0.0704 0.0785 0.0112 0.0477 0.1392∆ 03 (t ) =x0 (t ) − x3 (t )0.0119 0.0289 0.0694 0.0278 0.0006 0.0832首 页 上 页 下 页 尾 页接下来应该是三个绝对值序列分别求平均再进行 比较,就可以解决问题了.但仔细观察表6-3中的数 据会发现绝对差值数据序列的数据间存在着较大 的数量级差异(最大为0.1857,最小的为0.0006,相差 300多倍),不能直接进行综合,还需要对其进行一次 规范化. 设∆ (max)和∆(min)分别表示表6-3中绝对值 ∆ 0i (t ) 的最大数和最小数,则0 ≤ ∆ (min) ≤ ∆ 0i (t ) ≤ ∆ (max)因而∆ 0i (t ) ∆(min) 0≤ ≤ ≤1 ∆(max) ∆ (max)首 页 上 页 下 页 尾 页∆ 0i (t ) 显然 ∆(max) 越大,说明两序列(xi和x0)的变化态势 ∆ (t )0i一致性弱,反之,一致性强,因此可考虑将 ∆(max) 取 倒反向,为了规范化后数据在[0,1]内,可考虑∆ (min) / ∆(max) ∆ 0i (t ) / ∆(max)由于在一般情况下, ∆(min)可能为零(即某个∆ 0i (t ) 为零)故将上式改进为∆ (min) / ∆(max) + ρ ≜ ξ 0i (t ) ∆ 0i (t ) / ∆(max) + ρρ 在0和1之间取值.首 页 上 页 下 页 尾 页上式可变形为∆ (min) + ρ∆ (max) ξ 0i (t ) = ∆ 0i (t ) + ρ∆(max) i = 1, 2,3; t = 2000,⋯ , 2005(6.1)数(或简称为关联系数). 由(6.1)式可以看出, ρ 取值的大小可以控制∆(max) 对数据转化的影响, ρ 取较小的值,可以提高关联 系数间差异的显著性,因而称 ρ 为分辨系数. 利用(6.1)对表6-3中绝对差值∆ 0i (t ) 进行规范化,取 ρ = 0.4, 结果见表6-4,以ξ 01 (2000)计算为例:首 页 上 页 下 页 尾 页ξ 0i (t )称为序列xi和序列x0在第t期的灰色关联系∆(min) = 0.0006, ∆(max) = 0.18570.0006 + 0.4 × 0.1857 ξ 01 (2000) = = 0.4191 0.1044 + 0.4 × 0.1857同样可计算出表6-4中其余关联系数.表6-4年份t 2000 2001 2002 2003 2004 2005ξ 01 (t )0.4191 0.3796 0.5808 0.7055 0.3696 0.2881ξ 02 (t )0.6067 0.5178 0.4903 0.8761 0.6141 0.3510ξ03 (t )0.8687 0.7257 0.5213 0.7338 1.000 0.4758首 页上 页 下 页尾 页最后分别对各产业与GDP的关联系数序列求算术 平均可得1 r01 = (0.4191 + 0.3796 + 0.5808 + 0.7055 6 +0.3696 + 0.2881) = 0.4571 1 r02 = (0.6067 + 0.5178 + 0.4903 + 0.8761 6 +0.6141 + 0.3510) = 0.5760 1 r03 = (0.8687 + 0.7257 + 0.5213 + 0.7338 6 +1.000 + 0.4758) = 0.7209首 页 上 页 下 页 尾 页r0i称为序列x0和xi(i=1,2,3)的灰色关联度.由于 r03 > r02 > r01 , 因而第三产业产值与GDP的关 联度最大,其次是第二产业、第一产业.可以看出,灰色关联分析需要经过以下几个步骤: 1.确定分析序列 在对研究问题定性分析的基础上,确定一个因变量 因素和多个自变量因素.设因变量数据构成参考序 ′ ,各自变量数据构成比较序列 X i′(i = 1, 2,⋯ , n), 列 X0 n+1个数据序列成成如下矩阵:首 页 上 页 下 页 尾 页设n个数据序列形成如下矩阵:′ (1) ⎛ x1 ⎜ ′ (2) ⎜ x1 ′ ⋯, Xn ′)=⎜ ( X 1′, X 2 ⋮ ⎜ ⎜ x ′ (m ) ⎝ 1i i′ (1) x2 x′ 2 (2 ) ⋮ ′ (m ) x2i⋯ ⋯ ⋮ ⋯T i′ (1) ⎞ xn ⎟ x′ n (2 ) ⎟ ⋮ ⎟ ⎟ ′ (m )⎟ xn ⎠, i =1, 2 ,⋯, n其中m为指标的个数,. X ′ = (x ′ (1) , x ′ (2) , ⋯ , x ′ (m ) )� 2.确定参考数据列 � 参考数据列应该是一个理想的比较标 准,可以以各指标的最优值 (或最劣值) 构成参考数据列,也可根据评价目的选 择其它参照值.记作′ = (x 0 ′ (1 ) , x 0 ′ (2 ) , ⋯ , x 0 ′ (m X 0))� 3.对指标数据进行无量纲化 � 无量纲化后的数据序列形成如下矩阵:⎛ x0 (1) ⎜ ⎜ x0 (2 ) (X 0 , X 1 , ⋯ , X n ) = ⎜ ⋮ ⎜ ⎜ x (m ) ⎝ 0x1 (1) x1 (2 ) ⋮ x1 (m )⋯ ⋯ ⋮ ⋯x n (1) ⎞ ⎟ x n (2 ) ⎟ ⋮ ⎟ ⎟ xn (m )⎟ ⎠� 常用的无量纲化方法有均值化法(见 (12-3)式)、初值化法(见(12-4) 式)。xi (k ) = xi′ (k )m1 xi′ (k ) ∑ m k =1 xi′ (k ) xi (k ) = xi′ (1)(12 − 3)(12 − 4)i = 0 , 1 , ⋯ , n ; k = 1 , 2 , ⋯ , m.� 4.逐个计算每个被评价对象指标序列 (比较序列)与参考序列对应元素的绝 对差值 � 即 x0 (k ) − xi (k ) ( k = 1,⋯, m i = 1,⋯, n, n 为被 评价对象的个数). n m min x0 ( k ) − xi ( k ) � 5.确定 min i =1 k =1n m k =1与max max x0 (k ) − xi (k )i =1� 6.计算关联系数 � 由(12-5)式,分别计算每个比较序列 与参考序列对应元素的关联系数.ζ i (k ) =min min x 0 (k ) − xi (k ) + ρ ⋅ max max x0 (k ) − xi (k )i k i kx0 (k ) − xi (k ) + ρ ⋅ max max x0 (k ) − xi (k )i k( 12 − 5)k = 1,⋯, m式中ρ为分辨系数,在(0,1)内取值,若ρ 越小, 关联系数间差异越大,区分能力越强。通常ρ 取0.5� 当用各指标的最优值 (或最劣值),构 成参考数据列计算关联系数时,也可用 改进的更为简便的计算方法:ζ i (k ) =′ (k ) − xi′ (k ) + ρ ⋅ max x0 ′ (k ) − xi′ (k ) min x0i i′ (k ) − xi′ (k ) + ρ ⋅ max x0 ′ (k ) − xi′ (k ) x0ik = 1,⋯, m� 改进后的方法不仅可以省略第三步,使 计算简便,而且避免了无量纲化对指标 作用的某些负面影响.如果 {x0 (k )}为最优值数据列, ζ i (k ) 越大,越好; 如果 {x0 (k )}为最劣值数据列, ζ i (k ) 越大,越不好。� 7.计算关联序 � 对各评价对象(比较序列)分别计算其 个指标与参考序列对应元素的关联系数 的均值,以反映各评价对象与参考序列 的关联关系,并称其为关联序,记为:1 m r0i = ∑ ζ i (k ) m k =1� 8.如果各指标在综合评价中所起的作用 不同,可对关联系数求加权平均值即1 m r0′i = ∑ Wk ⋅ ζ i (k ) m k =1 (k=1, ⋯ , m)式中Wk 为各指标权重。� 9.依据各观察对象的关联序,得出综 合评价结果.� 例:利用灰色关联分析对6位教师工作状况 进行综合评价 � 1.评价指标包括:专业素质、外语水平、 教学工作量、科研成果、论文、著作与出 勤.� 2.对原始数据经处理后得到以下数值,编号 1 2 3 4 5 6 专业 8 7 9 6 8 8 外语 9 8 7 8 6 9 教学 量 8 7 9 8 6 5 科研 7 5 6 8 9 7 论文 5 7 6 4 8 6 著作 2 3 4 3 3 4 出勤 9 8 7 6 8 8� 3.确定参考数据列:{ x 0} = { 9 ,9 ,9 ,9 ,8 , 4 ,9 }� 4.计算编号 1 2 3 4 5 6 专业 1 2 0 3 1 1x0 (k ) − xi (k )外语 0 1 2 1 3 0 教学 量 1 2 0 1 3 4, 见下表科研 2 4 3 1 0 2 论文 3 1 2 4 0 2 著作 2 1 0 1 1 0 出勤 0 1 2 3 1 1� 5.求最值n i =1 m k =1min min x0 (k ) − xi (k ) = min(0,1,0,1,0,0) = 0n i =1 m k =1max max x 0 ( k ) − x i ( k ) = max( 3,4,3,4,3,4) = 4ρ=0.5 取计算,得 � 6.依据(12-5)式,ς( ) = 110 + 0.5 × 4 = 0.667 1 + 0.5 × 4,ς( ) = 1 20 + 0.5 × 4 =1 0 + 0.5 × 4,ς( ) = 1 30 + 0.5 × 4 = 0.667 1 + 0.5 × 4,ς( ) = 1 40 + 0.5 × 4 = 0.5 2 + 0.5 × 4,ς( ) = 1 50 + 0.5 × 4 = 0.4 3 + 0.5 × 4,ς( ) = 1 60 + 0.5 × 4 = 0.5 2 + 0.5 × 4,ς( )= 1 70 + 0. 5 × 4 =1。 0 + 0. 5 × 4�同理得出其它各值,见下表编号 1 2 3 4 5 6ζi (1)ζi (2)ζi (3)ζi (4)ζi (5)ζi (6)ζi (7)0.667 1.000 0.667 0.500 0.400 0.500 1.000 0.500 0.667 0.500 0.333 0.667 0.667 0.667 1.000 0.500 1.000 0.400 0.500 1.000 0.500 0.400 0.667 0.667 0.667 0.333 0.667 0.400 0.667 0.400 0.400 1.000 1.000 0.667 0.667 0.667 1.000 0.333 0.500 0.500 1.000 0.667� 7.分别计算每个人各指标关联系数的均 值(关联序):r01 =0.667 + 1 + 0.667 + 0.5 + 0.4 + 0.5 + 10.5 × 4 = 0.6763, 7r02 = 0.572,r03 = 0 . 7 ,r04 = 0.543,r05 = 0.686, r06 = 0.667,� 8.如果不考虑各指标权重(认为各指标 同等重要),六个被评价对象由好到劣 依次为3号,5号,1号,6号,2号,4 号. r03 ≻ r05 ≻ r01 ≻ r06 ≻ r02 ≻ r04 , �即练习� 据分析,某乡镇企业产值主要与固定资产、流动 资产、劳动力和企业留利四个因素有关,请根据 以下数据,进行关联分析,提出加速企业产值发 展的建议。(单位:万元) 1983产值 固定资产 流动资产 劳动力 企业留利1984 12588 3605 2160 45590 17881985 23408 5460 2213 57685 31341986 35388 6982 4753 85540 447810155 3799 1752 24186 1164