水文频率分析中抽样误差的统计试验研究_唐林
第33卷第6期
水文
Vol.33No.6Dec.,2013
2013年12月
JOURNALOFCHINAHYDROLOGY
水文频率分析中抽样误差的统计试验研究
唐
林1,任智慧2
(1.黄河勘测规划设计有限公司,河南郑州450003;2.黄河水利科学研究院,河南郑州450003)
摘要:基于统计试验方法,探讨水文频率分析中抽样误差的分布问题。试验结果表明:小样本容量时,
设计值抽样误差存在“系统性”偏小,误差均值小于零,随样本容量的增加,偏差逐渐缩小,趋于零均值正态分布;当Cv、Cs值较大时,抽样误差明显增大,小样本情况下还须额外考虑抽样误差均值的修正。关键词:水文频率分析;抽样误差;统计试验中图分类号:P333
文献标识码:A
文章编号:1000-0852(2013)06-0006-05
计算规范》[18]中,针对设计洪水估计值的抽样误差,建立有P-Ⅲ型分布设计洪水估计值均方差估算公式对其进行安全修正。该方法前提是假定估计值没有系统的偏差,因此仅对均方差进行估值修正。实际上,设计洪水估计值的抽样误差可能存在这种系统性的偏差,即抽样误差为非零均值分布。此外,不同的抽样样本容量,误差大小也有所差异。因此,有必要针对上述问题进行探索研究。
受实测资料长度限制,无法直接采取实测值做较为准确的抽样误差分析。随机分析学科的发展成为解决该问题的重要方法,并在水文工程科学中得到了广泛的应用[19]。
因此,本文基于随机试验方法,假定水文系列满足
1引言
水文频率分析是研究设计洪水的主要途径之一。
19世纪中后期,国内外众多水文学者、专家针对频率
分析中线型的选择做了大量的工作,在不同的地区得到不同的适应线型[1-9]。与此同时,针对频率分析中参数的估计方法也做了大量研究,并取得了丰硕的成果[10-16]。样本抽样问题同样也是频率分析的重要内容之一,但相关的研究却很少。这主要是由于水文实测系列相对过短,现有资料无法得到可靠的结论。当前很多水文站点资料较短,大江、大河上重要站点中最长系列也仅有100多年,相对于江河数百万年的发展历程而言着实太短。基于实际需要,又必须依据仅有的短系列资料估算设计值,其风险是可观的。
据刘光文教授的观点[17],为保证水文设计成果质量与精度,从水文特征的安全因数取1.5出发,假定代表性不足造成的误差约20%,则容许设计值误差需要控制在8%~10%以内。众所周知,样本的代表性与样本容量有关,即抽样误差与样本容量关系密切。以往经验表明,样本容量越大,系列代表性越好,抽样误差越小。反之,抽样误差过大,难以保证设计成果质量。因此,研究样本容量与其抽样误差分布之间的关系具有重要的现实意义。
现行中国水利行业标准《水利水电工程设计洪水
P-Ⅲ分布线型,统计不同样本容量下设计值的误差分
布,分析抽样误差的影响因素。
2统计试验原理
统计试验方法(即Monte-Carlo法),是20世纪40
年代中期,随着电子计算机诞生和科技的快速发展,而提出的一种基于概率统计理论的数值计算方法,是通过人工生成随机数来解决实际问题近似解方法的总称[20]。现实中有很多问题本身相当复杂,很难用解析的方法进行分析计算,而Monte-Carlo法具有很好的数值计算和数值模拟功能,在很多复杂领域中起到相当
收稿日期:2012-06-25
作者简介:唐林(1984-),男,辽宁本溪人,工学硕士,研究方向为水文及水资源规划。E-mail:[email protected]
第6期
唐林等:水文频率分析中抽样误差的统计试验研究
n
n
n
重要的作用,成为解决问题的一种新途径[21]。
Monte-Carlo法本质上是通过大量的、满足一定分
布的随机离散点模拟相应特征的分布过程,其首先需要解决的是均匀分布随机数的生成,其他类型分布的随机数可在均匀分布随机数的基础上通过变换方法或舍选抽样得到。
因舍选抽样方法灵活、使用方便、计算简单,得到广泛应用。本文即采用舍选抽样方法来生成P-Ⅲ型分布随机数。
参数(Exj、Cvj、Csj),并计算频率P对应的样本估计值Xpj。
(4)统计样本Xpj估计值相对于理论值Xp的抽样误差分布情况。
(5)变换抽样个数n,重复(1)~(4),得到不同抽样个数下抽样误差的分布。
n
n
4评价标准
不失一般性,将抽样误差表达为相对值(即抽样相
3
3.1
试验方法
线型选择
根据前人经验及研究成果,并参照规范[18]推荐成
对误差,以下同)。抽样误差的分布可通过误差的均值、均方差来表示。
(1)特征均值
M
果,采用P-Ⅲ型曲线作为模拟水文系列的理论分布曲线。
△Xp=1
n
Σ
j=1M
3.2参数估计
根据水文统计学原理,对于P-Ⅲ型分布,矩法
[22]
Xpj-Xp
p
n
姨
nXp
(4)
(2)特征均方差
的参数估计中均值Ex为无偏估计量,离势系数Cv、偏态系数Cs为近似无偏估计量,从理论上来说矩法的参数估计公式具有无偏性,即没有“系统误差”,因此,可认为该方法的估值误差主要源于样本抽样代表性不足所致。
据此,本文采用矩法做参数估计(均值Ex、离势系数Cv、偏态系数Cs),计算公式如下:
σXp=
n
姨
1Σ
j=1
XX-X-△npj
pp
(5)
n
式中:M为随机生成样本的次数;n为样本容量;Xpj为样本容量为n时第j次抽样相应设计频率为P的设计值;Xp为设计频率为P的理论设计值。
5
5.1
结果分析
试验方案
Ex=1
Cv=
ΣX
i=1
n
i
(1)
P-Ⅲ型分布总体参数设定为:均值Ex=1,离势系
数Cv=0.2,0.4,0.6,0.8,1.0,偏态系数Cs分别取2倍及3倍的Cv,构造10组试验方案。按前述试验方法,抽样个数n分别取10、20、30、40、50、100、150、200,对每组抽样方案,进行M=105次独立重复抽取,从而保证统计结果具有较好的稳定性和代表性。参数估计采用矩法,推求设计频率P=1%的设计值,直接统计设计值的抽样误差,结果见表1。依据统计结果的离散点值,采用克里希插值法,建立Cv~n~抽样误差特征值分布图,如图1~4所示。
姨
n-1
n
Σi=1
Xi-1Σ
(2)
Xi-1ΣCs=i=1
3.3
样本抽样
姨
3
(3)
MonteCarlo方法生成的样本基本上能够很好的
满足独立、随机、同分布要求,因此,可认为该方法对水文系列具有较好的模拟性能。样本抽样具体步骤如下:
(1)假定一组P-Ⅲ型理论分布曲线特征参数,计算特定频率P(%)对应的理论设计值Xp。
(2)依据随机试验原理,确定抽样次数M以及样本容量n,随机生成n个数据,得到样本U1;再随机生成n个数据,得到样本U2;以此类推,直至最后,得到样本UM。
(3)对样本Uj,采用矩法估计P-Ⅲ型分布特征
nn
n
n
5.2结果分析
(1)从图表中可以看出:抽样误差均值和均方差随
样本个数的增加而减小,说明增加样本数量是降低抽样误差的有效方式。
(2)不同样本容量下,抽样误差均值小于零,说明由样本推求的设计值总体上较理论设计值偏低。
(3)抽样误差均值和均方差随样本容量的增加而
8
表1
水文
统计试验分析成果表
第33卷
Table1Thestatisticaltestanalysisresults
Cv
抽样个数n
Cs/Cv
期望
10-0.8%11.9%-1.80%13.10%-4.0%20.8%-6.40%23.60%-7.4%27.6%-11.30%31.3%-10.9%32.8%-15.8%37.6%-14.0%37.3%-20.5%42.3%
20-0.5%8.8%-1.20%9.80%-2.6%15.9%-4.10%18.20%-4.8%21.3%-7.20%24.7%-7.0%25.8%-10.5%30.0%-9.3%29.4%-13.6%34.6%
30-0.4%7.4%-0.90%8.30%-2.0%13.4%-3.00%15.50%-3.5%18.2%-5.50%21.3%-5.3%22.1%-8.1%26.0%-7.0%25.6%-10.8%30.2%
40-0.4%6.5%-0.80%7.40%-1.6%11.9%-2.40%13.80%-2.8%16.2%-4.50%19.1%-4.2%19.7%-6.7%23.5%-5.7%22.8%-8.90%27.5%Cv
50-0.3%5.9%-0.60%6.70%-1.3%10.8%-2.00%12.60%-2.3%14.8%-3.80%17.5%-3.6%18.0%-5.8%21.7%-4.9%21.1%-7.70%25.3%
100-0.2%4.4%-0.40%4.90%-0.7%7.9%-1.10%9.40%-1.2%10.9%-2.20%13.3%-2.0%13.6%-3.4%16.5%-2.9%15.9%-4.80%19.4%
150-0.2%3.6%-0.20%4.10%-0.5%6.5%-0.70%7.80%-0.8%9.1%-1.50%11.2%-1.4%11.4%-2.50%14.0%-2.0%13.5%-3.50%16.5%
200-0.1%3.1%-0.20%3.50%-0.3%5.7%-0.50%6.80%-0.6%8.0%-1.2%9.9%-1.1%10.1%-2.0%12.4%-1.6%11.9%-2.80%14.6%
2.0
均方差
0.2
期望
3.0
均方差期望
2.0
均方差
0.4
期望
3.0
均方差期望
2.0
均方差
0.6
期望
3.0
均方差期望
2.0
均方差
0.8
期望
3.0
均方差期望
2.0
均方差
1.0
期望
3.0
Cv
均方差
1.00.90.80.70.60.50.40.3
1.00.90.80.70.60.50.40.3
0.2
[***********][***********][**************]
样本个数
0.2
样本个数
[***********][***********][**************]
Cs/Cv=2,1%设计值抽样误差均值(%)分布
Fig.1Meanvalue(%)distributionofSREfordesigned
valuewith1%frequencyandCs/Cv=2图1
图2
Fig.2
Cs/Cv=3,1%设计值抽样误差均值(%)分布Meanvalue(%)distributionofSREfordesignedvaluewith1%frequencyandCs/Cv=3
第6期
唐林等:水文频率分析中抽样误差的统计试验研究
Cv
1.0
Cv
1.0
0.90.9
0.80.8
0.70.7
0.60.6
0.50.5
0.40.4
0.30.3
0.2
[***********][***********][**************]
样本个数
0.2
抽样个数
10203040
[***********][***********]0190200
图3
Cs/Cv=2,1%设计值抽样误差均方差(%)分布Fig.3Meansquaredeviation(%)distributionofSREfordesignedvaluewith1%frequencyandCs/Cv=2Cs/Cv=3,1%设计值抽样误差均方差(%)分布Fig.4Meansquaredeviation(%)distributionofSREordesignedvaluewith1%frequencyandCs/Cv=3图4
减小;随Cv值的增加而增大;随Cs值的增加而增大。由P-Ⅲ型频率曲线的变化规律可知:Cv值越大,曲线越陡,Cs值越大,曲线越弯曲。当Cv值、Cs值较大时,
因此,当样本数量较少、估计参数Cv、Cs值较大时,除了需要按规范要求对设计值进行方差修正外,还应额外考虑抽样误差均值的修正,即在图1~2中查得对应相对误差,直接修正设计值。
频率密度
P-Ⅲ频率曲线低频位置斜率大,参数估计中微小变动
将会导致估计值的较大变化,增大抽样误差。因此,试验结论与P-Ⅲ型频率曲线的物理含义是一致的。
1.05%0.84%
100%90%80%
频率分布散点图累计频率曲线
6误差分布
以Cv=0.6,Cs/Cv=3.0,样本容量取30,推求1%设
70%60%50%40%30%20%10%
0.63%0.42%0.21%0.00%
-100%
计值为例来说明抽样误差的分布情况。由105个随机样本,建立抽样误差的频率密度散点图,如图5所示。从图中可以看出:
(1)抽样误差密度分布是一种正偏分布,这种偏态性在小样本容量时尤为明显;
(2)抽样误差小于零的概率较大,即由样本估计设计值较理论值偏小的概率大;本例中,抽样误差有大约
-50%0%
相对误差
50%100%
0%150%
图5抽样误差密度分布散点图
Fig.5ScatterdiagramofSREdensitydistribution
7结论
本文基于统计试验原理,对水文频率分析中不同
66%的概率小于零。
由此可知,抽样误差正偏分布及负均值特性,将导致规范规定方法修正估计值不一定能达到既定的安全程度。以图5分布为例,原假定抽样误差为零均值正态分布,按1倍均方差修正设计值,其安全保证率应为
样本容量的抽样误差分布进行探讨研究,结果表明:
(1)小样本容量时,水文频率分析成果抽样误差“系统性”偏小,误差均值小于零,随样本容量的增加,偏差逐渐减小,趋于零均值正态分布;
(2)当Cv、Cs值较大时,抽样误差明显增大,小样本情况下还须额外考虑抽样误差均值的修正。
参考文献:
[1]Gumbel,EJ.StatisticalTheoryofExtremeValuesandSomePrac-ticalApplications[R].U.S.NationalBureauofStandards,Applied
P*(x-0>-σ)=84.1%,但实际上,本例中P(x-0>-σ)仅能
达到76.3%,降低了预定安全保证率。不利于工程设计安全。若扣除负均值的影响,P(x-△>-σ)可达到85.1%,与P*基本一致,可满足安全要求。
10
MathematicsSeries33,1954.
水文第33卷
[12]秦大庸,孙济良.概率权重矩法在指数Γ分布中的应用[J].水利学
报,1989,(11):1-9.
[2]谢家泽.关于合理解决水文频率计算方法的问题[J].水利学报,1958
(4).
(XIEJiaze,Studyonrationalsolvingproblemsofhydrologicalfrequencycalculationmethod[J].JournalofHydraulicEngineering,1958,(4).(inChinese))
[3]陈志恺.论皮尔逊III型及克里茨基-闵克里曲线对设计洪水的适用
性[A].水文计算经验汇编(第二集)[C].北京:中国工业出版社,
(QINDayong,SUNJiliang.Applicationof
probabilityweightedmomentsinexponentΓdistribution[J].Jour-nalofHydraulicEngineering,1989,(11):1-9(inChinese))[13]HoskingJ.R.M..L-momentsAnalysisandestimationofdistribu-tionsusinglinearcombinationoforderstatistics[J].J.R.StatSoc,SerB,1990,52(2):105-124.
[14]金光炎.线性矩法的特点评析和应用问题[J].水文,2007,27(6):16-21.(JIN
Guangyan,Characteristicsandapplicationoflinearmomentmethod[J].JournalofChinaHydrology,2007,27(6):16-21.(inChinese))[15]马秀峰.计算水文频率参数的权函数法[J].水文,1984,21(3):1-8.
(MAXiufeng.Studyonweightedfunctionmethodforcalculationparametersofhydrologicalfrequency[J].JournalofChinaHydrolo-gy,1984,21(3):1-8.(inChinese))
[16]刘光文.皮尔逊Ⅲ型分布参数估计[J].水文,1990,(4):1-15.(LIU
Guangwen.ParameterestimationforPerson-IIIdistribution[J].JournalofChinaHydrology,1990,4:1-15.(inChinese))
[17]刘光文.皮尔逊Ⅲ型分布参数估计[J].水文,1990,(5):1-14.(LIU
Guangwen.ParameterestimationforPerson-IIIdistribution[J].JournalofChinaHydrology,1990,(5):1-14.(inChinese))
[18]SL44-2006,水利水电工程设计洪水计算规范[S].(SL44-2006,
RegulationforCalculatingDesignFloodofWaterResourcesandHydropowerProjects[S].(inChinese))
[19]王文圣,金菊良.水文随机模拟进展[J].水科学进展,2007,18(5):
768-775.
(WANGWensheng,JINJuliang.Advancesinstochastic
[J].AdvancesinWaterScience,2007,18
simulationofhydrology
1964.(CHENZhikai.Applicabilitystudyondesignfloodwiththe
(2nd)
[C].Beijing:ChinaIndustrial
methodsofPerson-IIIandK-MCurve[A].ProceedingsofHydro-logicalCalculationExperiencePress,1964.(inChinese))
[4]Benson,M.A..Uniformflood-frequencyestimationmethodsforfederal
agencies[J].WaterResourcesResearch,1968,4(5):891-908.[5]Reich,M..Log-PearsonTypeIIIandGumbelAnalysesofFlood[J].
FloodsandDroughts,1973.
[6]Bobee,B..TheLogPearsontype3distributionanditsapplication
inhydrology[J].WaterResourcesResearch,1975,(11).
[7]丛树铮,谭维炎,等.水文频率计算中参数估计方法的统计试验研究
[J].水利学报,1980,(3):1-14.(CONGShuzheng,TANWeiyan,etal.Researchonstatisticaltestofparameterestimationmethodinhy-drologicalfrequencycalculation[J].JournalofHydraulicEngineering,1980,(3):1-14.(inChinese))
[8]李松仕.对数皮尔逊III型频率分布统计特性分析[J].水利学报,
1985,(9):43-48.
(LISongshi.Analysisonstatisticalcharactersof
logarithmPerson-IIIdistribution[J].JournalofHydraulicEngineer-ing,1985,(9):43-48(inChinese))
[9]李松仕.指数Γ分布及其在水文中的应用[J].水利学报,1990,(5):30-37.(LISongshi,ApplicationofexponentΓdistributioninhydrology[J].JournalofHydraulicEngineering,1990,(5):30-37(inChinese))[10]Greenwood,J.A.,etal.Probabilityweightedmoments:definition
andrelationtoparametersofseveraldistributionsexpressibleininverseform[J].WaterResourcesRes.,1979,15(5).
[11]宋德敦,丁晶.概率权重矩法及其在P-III分布中的应用[J].水利学
报,1988,(3):1-11.
(5):768-775.(inChinese))
[20]DibiA..蒙特卡洛方法在系统工程中的应用[M].西安:西安交通大
学出版社,2007.
(DibiA..MonteCarloApplicationsinSystem
Engineering[M].Xi’an:Xi’anJiaotongUniversityPress,2007.(inChinese))
[21]ChristianP.Robert,GeorgeCasella.MonteCarloStatisticalMeth-ods(2ndEdition)[M].SpringerVerlag,2004.
[22]黄振平.水文统计学[M].南京:河海大学出版社,2003.(HUANG
Zhenping,HydrologicalStatisticsPress,2003.(inChinese))
[M].Nanjing:HohaiUniversity
(SONGDedun,DINGJing.Applicationof
[J].Jour-
probabilityweightedmomentsinPerson-IIIdistribution
nalofHydraulicEngineering,1988,(3):1-11.(inChinese))
StatisticalTestStudyonSamplingErrorinHydrologicalFrequencyAnalysis
TANGLin1,RENZhihui2
(1.YellowRiverEngineeringConsultingCo.,Ltd,Zhengzhou450003,China;2.YellowRiverInstituteofHydraulicResearch,Zhengzhou450003,China)
Abstract:Basedonstatisticaltestmethod,samplingerrordistributioninhydrologicalfrequencyanalysishasbeenstudied.Thetestresultsshowthat:a)Designvalueisestimated
“systemic”smallerthanactualvalueaccordingtosmallersamplesize.
Thesam-
plingrelativeerror(SRE)isbelowzero.Withthesamplesizeincreasing,deviationgraduallyreduce,andSREischaracteristicsofzeromeannormaldistribution.b)SREwouldsignificantlyincreasewithlargevalueofCvandCs.SoadditionalrevisionofSERshouldbeconsideredinsmallsamplesizecondition.
Keywords:hydrologicalfrequencyanalysis;samplingerror;statisticaltest