如何正确测算我国居民收入基尼系数
南开经济研究, 2005年第4期
53
如何正确测算我国居民收入基尼系数
洪兴建 李金昌
摘要:反映我国居民收入差距的基尼系数的值众说纷纭, 至今没有权威的说法。为了科学客观地判断我国居民收入差距的程度, 正确测算基尼系数刻不容缓, 规范测算方法和程序是非常必要的。本文主要从五个方面阐述了对这一问题的看法:一、应该以国家统计部门的数据作为测算基尼系数的基础; 二、计算基尼系数应首选离散方法; 三、数据分组对真实基尼系数的影响不容忽视; 四、应以家庭为单位的人均收入作为计算基尼系数的对象; 五、要针对具体的抽样方法选择总体基尼系数的估计量形式。 关键词:基尼系数; 收入数据; 正确测算
Key W or ds :G i ni Coeffi c i ent ; I nco m e Data ; P recisel y M easuring
在收入分配研究中, 最具吸引力和挑战性的当数收入差距研究, 而研究收入差距学者们用的最多的指标是基尼系数(G i ni Coefficient) 。但世界上可能没有任何一个国家像中国一样, 学者们测算出的基尼系数值如此之多, 对收入差距程度判断的分歧如此之大, 以至于迄今也没有一个比较权威的答案。回顾近年来的收入分配研究, 国内比较突出的要数赵人伟、李实等为代表的课题组和以陈宗胜为代表的部分学者, 其中最引人注目的是李实和陈宗胜在《经济研究》2000年第7期以及2002年第5期两度针锋相对地对一些问题进行了论战。应该说两人的争论对研究我国居民收入分配很有启示, 争论澄清的一些问题以及倡导的研究方法对今后正确研究我国居民收入有非常重要的意义。本文主要就李实和陈宗胜争论的一个焦点问题--基尼系数的测算, 结合中国居民收入的实际状况谈谈个人的一些看法。
人力来改进国家统计局的数据的全面性和细分程度, 研究出改进这套数据的规范方法0。要说明的是, 统计局搜集的主要是一些对国民经济发展比较重要且易于被搜集的显性数据, 诸如灰色收入、黑色收入等一些隐性数据是不可能被客观准确地搜集到的, 这正是很多人对统计部门公布的数据产生不信任的主要原因。笔者以为, 如何根据统计部门搜集到的显性数据科学推算出一些隐性数据, 正是需要我们去深入研究的课题(比如地下经济的测算等) 。当然必要时, 为了一定的研究目的, 单独通过抽样调查搜集一些数据, 以弥补统计部门数据的不足, 也是无可厚非的。具体到居民收入而言, 笔者认为应该以统计部门的数据为基础来测算收入的基尼系数, 同时逐步解决好两个问题:一是提高统计部门数据的质量, 二是科学测算灰色收入和黑色收入的大小及分布状况。当前最重要的是, 统计部门应该发挥其独特的资源优势, 加大投入, 充分发挥
作者简介 洪兴建(1970) ), 男, 浙江工商大学统计学院讲师, 厦门
大学经济学院博士生。主要研究方向, 社会经济统计分析、收入差距和贫困等。
李金昌(1964) ), 男, 经济学博士, 教授, 博士生导师。研究方向, 抽样调查、社会经济统计理论与分析。
* 本文为浙江省重大招标课题(课题编号:04Z DZB06) 和浙江省
) 一、居民收入数据的获取方法
从数据搜集的不同方式看, 数据搜集可以分为搜集原始数据的直接调查法和搜集次级资料的间接调查法。对于居民收入这样的微观数据, 学者直接调查的难度是可想而知的, 诚如陈宗胜(2000) 所言, /与其每,
54 Nanka iE cono m i c S t ud ies , N o . 4, 2005
其信息咨询的功能。对于一些细分化程度更高或需专门加工的数据, 统计部门可以向客户有偿提供。如此, 课题研究人员可以把本用来直接调查搜集数据的巨额经费用于购买数据, 集中精力进行分析研究, 统计部门也会有更多的经费用来增强数据搜集的深度和广度。这是一个典型的比较优势问题, 却被我们很多人忽视了。
采用连续方法估计基尼系数最大的不确定性是采用何种形式的函数拟合洛伦茨曲线, 由于满足洛伦茨曲线性质的待选函数很多, 采用不同函数估计基尼系数肯定有出入, 而且有时还相差较大。可能是各个学者对拟合函数的偏好不同, 国内经常看到只用某个不加说明的特定函数测算基尼系数的文章, 应该说这也是造成国内基尼系数值泛滥的一个原因。此外, 由于收入在高低不同阶层的分布形状不一样, 在收入的不同区间采用不同的拟合函数(即分段拟合) 是提高基尼系数估算精度的一个有效方法。国外有学者专门就不同形式的拟合函数及不同的分段拟合做了比较研究, 但笔者发现至今没有人能找出一个解决问题的通用的比较好的方法, 充其量针对实际数据根据剩余误差的大小选择较好的拟合方法。应该说连续方法与离散方法没有本质上的区别, 而且如果对基尼系数(主要是洛伦茨曲线) 进行理论分析, 采用连续方法更为方便和合理。但笔者认为, 实际测算居民收入基尼系数时应该优先考虑离散方法, 理由至少有如下四点:一、居民收入本质上是离散的, 且重复的数据比较常见; 二、有些情况收集的是总体的所有数据, 没必要采用连续方法进行估算; 三、目前计算机的计算能力已经很强, 再多再复杂的数据计算都可在短时期内完成, 计算复杂不应成为离散方法被抛弃的借口; 四、采用连续方法计算基尼系数主要是考虑到样本数据估算总体基尼系数的问题, 但除此之外我们还可利用抽样推断的有关知识来解决总体有关特征的估计(本文第五部分将讨论) 。
②
二、基尼系数计算方法的选择
基尼系数可以通过图示进行最直观的理解。下图中的正方形边长为单位1, 横轴和纵轴分别表示按收入高低排序后的人口累计百分比和对应的收入累计百分比, 对角线OC 表示绝对平均线, 折线OPC 表示绝对不平均线, 实际曲线位于上述两条线之间, 越接近对角线OC 表示收入分配的差距越小。基尼系数也就表示为图中区域A 和区域(A+B ) 两部分面积的比, 即G =S A /(SA +S B ) =2S A =1-2S B 。从计算S B 的角度看, 大体上可分为离散方法和连续方法两种, 前者即计算洛伦茨(Lore nz) 折线下一系列小梯形(含小三角形) 的面积之和, 后者即用一个函数f (p ) 来拟合洛伦茨曲线, 然后计算
f (p )dp 即可。
Q
10
从目前的情况来看, 计算基尼系数的公式很多, 但有一点需要说明的是, 通过各种离散公式计算的基尼系数值都是相等的(不考虑结果的精确度), 它们其实都是S B 计算过程的不同步骤或表现形式。计算基尼系数比较常见的公式有:
①
三、收入分组对基尼系数的影响
作为信息发布单位, 统计部门公布的数据不可能是未经加工整理的原始数据, 大部分都是一些分组资料。从近年公布的收入数据看, 城镇居民为七等分组资料, 农村居民通常约为二十组的组距式分组资料
G =
66
n
n-1
(Fi+1P i -F i P i +1) =
i=1
n +12
-2n n y
(另外有五等分组资料) 。大家近乎一致认为, 直接利用国家统计局分组数据计算城乡居民收入的基尼系数, 肯定会低估实际的基尼系数, 但对低估的程度学者
(n +1-i )y i =
n
n
i=1
2n
6
n
iy i
-y i
i=1n
6
n +1
=n
① 式中的居民收入y i 已经按从小到大排序, P i 、F i 分别为累计的
人口份额及对应的累计收入份额。有关这个连等式的证明及其他关于基尼系数的详细介绍, 请参见[12]。②。
i=1
1
2
2n y 6i=1
6
j =1
2cov (yi , i)
|y i -y j |=
n y
南开经济研究, 2005年第4期
55
们有较大分歧。李实(2002) 认为分组数据计算基尼系数误差较大, 但也有部分学者对此误差的认识不太重视, 利用分组资料计算基尼系数时这种误差都不予考虑。关于基尼系数的群类分解性问题, 国外有很多学者在不同时期都有过相当多的论证, 现在已达成共识, 那就是基尼系数不满足可分解性。此处笔者借用M ookherjee 和Shorr ocks (1982) 给出的公式:G =
基尼系数的影响是不容小视的, 直接利用《统计年鉴》上的数据测算基尼系数应充分意识到误差的影响程度。
对照$G =
6
k
v k K k G k , 当某组组内差异较大造成
2
G k 较大时, 应该尽量减少对应的v k 和K k , 尤其是减少该组人口数占总人口数的比重v k ; 而较大的G k 通常都存在于两端的组, 这提醒我们对两端的低收入组和高收入组应尽可能细分。此外, 如果不考虑G k 的影响, 当K k 较大时, 应减少v k , 即收入较大的组应进一步细分。由于收入极小组的K k 很小, 所以综合地看, 计算基尼系数的分组数据要求高收入组应尽可能地细分, 这样能最大程度地降低组内差距对总差距的影响。目前比较一致的看法是, 当组数达到30时, 组内差距对总差距的影响可以忽略不计。
我国的二元经济社会将在一段时间内长期存在, 而且城乡正处于不断变化的动态过程中, 近年来由于农村居民收入来源多样化造成部分农村家庭收入有很大幅度上升, 而城镇居民由于下岗失业等原因造成部分家庭收入有不同程度的下降, 城镇与农村家庭收入的重叠面目前应该比较大, 因此相互影响项R 的值会很大。陈宗胜和李实争论的所谓/城乡加权法0即为M ookherjee 和Shorrocks 公式中当k =2时(农村和城镇看成两组) 并且舍去相互影响项R 的结果:G =v 1K G 1+v 2K 因此, 利用/城乡加权2G 2+v 1v 2|K 1-K 2|。
2
1
2
6
k
1
v K k G k +
2
2k
66
k
h
v k v h |K k -K h |+R, 其中v k =
n k /n表示第k 群人口数n k 占总人口数n 的比例, K k =L k /L 表示第k 群平均收入L k 与总平均收入L 之比, G k 为第k 群群内的基尼系数, R 为不同群收入由于重叠形成的相互影响项。第一项为各群群内不平等程度的加权平均, 第二项表示的是群间不平等程度。S ilber (1989) 认为相互影响项R 描述了收入排列的聚类程度, 即在所有个体收入直接按高低排列的基础上, 转换为先按群平均收入高低排列, 再按群内个体收入高低排列后, 需要调整个体收入排列位置的次序。由于国家统计局公布的收入数据是按照收入高低分组的, 若把每一组作为一群, 显然R =0, 所以有G =
6
k
v k K k G k +
2
1
2
66
k
h
v k v h |K k -K h |,由于我们只能观
察测算第二项群间基尼系数, 第一项群内基尼系数常常被省略了, 那么这个省略项对总基尼系数的影响是否足够小呢? 笔者利用2002年城镇居民收入的七组数据进行大致检验, 为叙述方便, 假定各组的组内基尼系数G k 已知:G 1=G 2=0. 3, G 3=G 4=G 5=0. 4, G 6=0. 5, G 7=0. 6(最后的开口组差异会非常大, 这样的假定应该是比较合理的) 。经过简单计算有v 1=v 2=0. 11, v 3=0. 21, v 4=0. 20, v 5=0. 19, v 6=v 7=0. 09, K 1=0. 31, K . 47, K . 64, K . 86, K . 15, 2=03=04=05=1K 6=1. 53, K 2. 47, 这样求得绝对误差$G =7=
法0公式测算中国现阶段居民收入基尼系数已经很不适合。
四、计算基尼系数的数据形式) ) ) 个人收
入、户均收入还是家庭人均收入?
测量居民收入差距的基尼系数, 本质上应以每个人的收入为考察对象, 但由于存在相当多的无收入者(主要是依靠家庭抚养的未成年人和无保障的老年人), 直接计算包括这部分零收入者在内的基尼系数没有任何实际意义(其值相对比较大), 去掉这部分人计算基尼系数又有悖常理(因为它只反映了全社会部分人的收入差距, 但通常我们的研究目的是了解全体居民的收入差距) 。其实从很大程度上讲, 研究居民收入的直接原因是由于收入对支出产生影响进而波及生产, 所以分析居民收入的时候要站在支出或购买力, 6
k
v K . 063。假如G =0. 4, 则相对误差达到15. k G k =0
2
k
8%, 应该说如此大的误差是不能被轻易忽视的。此外, 如果利用国家统计局对外公布的组距式分组数列测算农村收入基尼系数, 虽然分组较多, 但由于我们一般只能取每组的组中值作为该组均值的估计值, 这时不仅要考虑第一项群内基尼系数对总基尼系数的影响(这时的影响相对较小, 一般可以忽略不计), 而且产生了第二项群间基尼系数的计算误差问题, 后者更是一个,
56 Nanka iE cono m i c S t ud ies , N o . 4, 2005
购买行为都是以家庭为单位进行的(单纯个人的需求也可以看成家庭整体需求的一部分) , 因此从这个层面上讲, 分析收入差距应该以户为考察单位。实际上统计局搜集包括收入在内的微观数据也都是以户为调查单位。需要注意的是, 《统计年鉴》上的城乡收入数据虽是以户均收入高低为分组标志, 给出的是每组的户数占总户数的比例, 但对应的收入数值是人均收入或人均收入区间, 所以我们在计算基尼系数时, 必须注意v k 和K k 的统一, 要都以户为计量单位或者都以人为计量单位。现在的问题是到底以户均收入计算基尼系数好还是以人均收入计算基尼系数更合理。为了说明这个问题, 我们必须澄清低收入户的概念。笔者认为, 所谓低收入户指的是人均收入较低的户, 而非收入较低的户, 因为这里涉及到家庭规模的影响。例如人均收入3000元的两口之家与人均收入3000元的六口之家, 按照人均收入分组, 他们同属于低收入户这一档次, 但若按户均收入分组, 则6000元和18000元完全属于不同的收入档次。当然, 其他诸如高、中收入户等也存在同样的问题。从居民生活水平的角度考虑, 如果按收入高低对户排序, 显然按人均收入比简单按户均收入更为合理。
可能是为求全面, 李实曾经从三个方面测算基尼系数(还有部分学者从其中的两个方面测算基尼系数), 秦晖(2000) 认为这三种测算方法不存在对错问题, /只要比较数据的统计口径一致(例如不是甲按户而乙按人), 就是符合规范的0。笔者认为, 从科学的角度分析, 测算基尼系数最好的统计对象应该是以家庭为单位的人均收入, 单纯以人均收入或户均收入测算基尼系数不适合一般意义上的收入差距测算, 除非一些特定的情形, 比如数据不健全或者研究目的就是测算劳动者的收入差距等。
此外, 目前我国居民收入数据均为年度资料, 但在经济发展的过程中, 居民收入是有流动性的, 即家庭的人均收入在两个不同年份的收入排序中会发生变动。当一定量的家庭人均收入存在变动且变动的幅度较大时, 以年度收入测算基尼系数会夸大收入不平等程度, 理想的方法是扩大时距, 以一个比较长的时期作为收入的计算时期。由于我国居民收入的资料是通过抽样得到的, 且每年要轮换三分之一的家庭, 三年后的样本是一个全新的样本, 应该说这样调查的收入数据是不的方法, 国家统计局和相关部门应该重视这方面数据的搜集和储存, 为将来利用长期的家庭人均收入测算基尼系数创造条件。
五、样本数据估计总体基尼系数
很多情况下, 我们能观测到的是样本数据, 能直接计算的是样本基尼系数, 但我们的目标是测算总体基尼系数, 这里就涉及到如何用样本数据去估计总体基尼系数。在抽样估计方面, 目前比较成熟的是均值估计和方差估计, 在很多有关抽样调查的书籍和文章中, 如何根据不同的抽样组织形式选择相应的估计量, 都有很详细的描述, 本文对此不做赘述, 本部分着重分析怎样借助均值和方差估计来估计基尼系数。 因为样本基尼系数g =2cov (y i , i) /(n y ) =
①
2s y s i r (y , i) /(n y ), 而
s i =
1
n
2
6
(i -i) =
2
i=1
12
6
(i -
i=1
n +12
) =2
2
1(n
6
i=1
i -(n +1) 6
i=1
1i +
4
6
(n +1) ) =
i=1
(n -1) /12, 所以g =量n 比较大时, 有:g =尼系数有G =
-1s y #r (y,i)
#, 当样本容n s y #r (yi , i)
, 对总体有基。由此可以看出, 基尼系数
R C #Q (YI , I)
其实是由统计中经常用到的标准差、平均数和相关系数三个指标共同决定的(也可以认为是由变异系数和相关系数两个指标共同决定的), 这样就可以根据具体的抽样方法, 选择无偏或有效的上述三种估计量, 即能得到比较理想的总体基尼系数G 的估计值。需要说明的是, 大多数情况人们根据某个离散公式计算基尼系数时, 其实都相当于以简单随机抽样的估计量形式s y =6(y i -y ) /(n -1) 和y =
i =1n
n
2
6
i=1
y i /n估计R Y 和
Y , 没有考虑具体的抽样类型, 严格来说都是不正确的。
① 为区别起见, 本节样本的有关描述用小写英文字母表示, 总体
南开经济研究, 2005年第4期
57
六、结论与建议
为了准确测量反映我国居民收入差距的基尼系数, 本文通过五个方面的分析研究, 得出以下几点结论:第一, 从收入数据的全面性和准确程度考虑, 测算基尼系数应该以统计部门的数据为基础, 并且优先考虑离散方法计算。第二, 从居民收入对其生活水平的决定性影响角度考虑, 计算反映全体居民收入差距的基尼系数时, 应该以家庭为单位的人均收入为计算对象。第三, 直接利用分组数据计算基尼系数会比实际基尼系数有所偏低, 一般组数越少偏低得越多。迫不得已分组时, 要增加组数, 尤其是收入较高和较低的组应进一步细分, 此举更是有助于准确估计全体中国居民收入的基尼系数。针对中国的实际情况, 当农村居民收入的较高组和城镇居民收入的较低组进一步细分后, 就可以清楚发现它们的重叠程度, 在此基础上把城乡两套数据合并为一套数据, 这一套数据的分布状况就大致反映了全体中国居民收入的分布状况, 适当地加权就能比较精确地测算出所有居民收入的基尼系数。第四, 在利用样本数据估计总体基尼系数时, 避免直接运用简单随机抽样的估计方法, 要根据具体的抽样调查方法选择相应的估计量。综合上述结论, 笔者认为能否准确测算我国居民收入基尼系数的关键是所利用收入数据的质量和计算方法的选择, 并且数据质量尤为重要。从我国的实际情况看, 国家统计部门数据的质量应该是最高的, 但各级统计部门公布的数据大部分过于简约, 很难直接利用其进行深入研究, 制约了统计信息咨询作用的进一步发挥。笔者建议, 国家统计部门除了公布目前具有公告性质的资料外, 还应做好原始数据库的建设以满足不同层次科学研究的需要, 真正发挥统计在社会经济发展和研究中的基础作用。
参考文献
[1] B ranko M ilanov i c . A S i m ple W ay to C alcu late the G i n i
Coe ffi c ient and So m e I mp licati ons[J],E conom i cs L e-t te rs 56, 1997, 45-49.
[2] D ilip M ookherjee and An t hony Shorrocks . A D ecom pos-i
tion A na l y si s of t he T rend in UK Income i nequa li ty [J], The E cono m i c Journa l 92, 1982, 886-902.
[3] Q uenti n W odon and Shlo m o Y itzhak. i The E ffect o f U si ng
G rouped D ata on The Esti m ati on o f T he G i n i Incom e E -lastic it y [J],Econo m ics L etters 78, 2003, 153-159. [4] Shuji e Y ao . O n T he D eco m position of G i n iCoe fficients by
Popu l a ti on C lass and Incom e Sou rce :a Spreads heet A p -pro ach and A pp licati on [J ],1999, 1249-1264.
[5] Sil ber , Jacques . F actor Co m ponents , Popu l a tion Subgroups
and T he G i n i Index o f Inequa lity[J],Rev ie w of E conom-ics and S tati stics 71, 1989, 107-115.
[6] T. O g w ang , U. L. G. R ao . A N e w Func ti ona l for A pprox -m ating t he Lorenz Curve [J],E conom i cs L ette rs 52, i
1996, 21-29.
[7] 陈宗胜. 中国居民收入分配差别的深入研究) ) ) 评中
国居民收入分配再研究[J].经济研究, 2000(7). [8] 陈宗胜. 关于总体基尼系数估算方法的一个建议) ) )
对李实研究员《答复》的再评论[J].经济研究, 2002(5).
[9] 李实. 对收入分配研究中几个问题的进一步说明) ) )
对陈宗胜教授评论的答复[J].经济研究, 2000(7). [10]李实. 对基尼系数估算与分解的进一步说明) ) ) 对陈
宗胜教授评论的再答复[J].经济研究, 2002(5). [11]秦晖. 基尼系数与社会分化) ) ) 与张曙光商榷[J].社
会学研究, 2000(5).
[12]徐宽. 基尼系数的研究文献在过去八十年是如何拓展
的[J].经济学季刊, 2003, V o l 2, (4).
(责任编辑:柳 欣)
A pp lied Econom ics 31,