实验数据数学建模方法研究
邓燕萍, 等:实验数据数学建模方法研究
#19#
实验数据数学建模方法研究
邓燕萍, 周波, 刘玉君, 汪骥, 郭培军
(大连理工大学船舶工程学院, 辽宁大连116024)
估计在众多的回归模型中建立一个简单而又比较合
提 要 阐述了曲线估计的基本思想和多元线性回归的概念, 介绍一种利用二者相结合的实验数据建模方法, 以实船板实验数据为例, 建立船体外板自重成形的数学模型, 实测分析表明, 预报结果与实验结果符合较好。
主题词 数据分析 数学模型 曲线求律法
多元分析 曲面 船壳板 成形
适的模型。
2. 2 数学模型
在充分了解计算数据的情况下, 可以直接根据数据的特点选择相应的函数作为拟合模型。但是, 在大多数情况下, 对变量之间关系的认识往往模糊不清, 需要先绘制散点图, 然后再根据数据分布特点, 确定应采用的模型。由于有些函数的图形十分接近, 可能在模型选择上产生疑虑, 为此可以指定几个模型进行拟合。根据输出的统计量(例如R 值) 结合图形综合考虑, 确定最佳模型。表1所列为部分选用的数学模型。
表1 数学模型
模型名称线性二次复合增长对数
回归方程y =b 0+b 1t y =b 0+b 1t +b 2t 2
y =b 0b t 1
y =exp (b 0+b 1t) y =b 0+b 1ln t
ln y =ln b 0+(ln b 1) t ln y =b 0+b 1t 线性回归模型
2
1 引言
实验是各研究领域的研究者通常为发现关于一个特定过程或系统的某些规律所进行的科学实践工作。它是对一个过程或系统的输入变量作一些有目的的改变, 以使能够观察到和识别出引起输入相应变化的缘由。实验中一项必不可少的工作就是实验数据分析。为了更好地描述实验中各实验参数与实验结果之间的关系, 我们通常建立实验数据的数学模型。如何迅速准确地找出各实验参数与实验结果的关系, 如何建立一个更准确的数学模型, 这是本文所研究的工作。
2 曲线估计的基本思想
2. 1 一般概念
线性回归可以满足很多数据分析, 然而线性回归不会对所有问题都适用, 因为有时因变量和自变量是通过一个已知或未知的非线性函数关系相联系的。尽管有可能通过一些函数的转换, 在一定范围内将它们转变为线性, 但这种转换有可能导致更为复杂的计算和失真。
在很多情况下有两个相关的变量, 我们希望利用其中的一个变量对另一个变量进行预测。预测可采用的方法很多, 从简单的直线到复杂的时间序列模型。如果不能马上根据专业知识或是观测量数据本身的特点确定一种最佳模型, 那么, 可以利用曲线
() , 三次y =b 0+b 1t +b 2t 2+b 3t 3指数倒数乘幂
y =b 0ex p (b 1t) y =b 0+(b 1/t)
y =b 0t b 1
ln y =ln b 0+b 1ln t ln y =ln b 0+b 1t
3 多元线性回归简介
应用曲线估计可以在众多的回归模型中选择一个简单而又比较合适的模型。当回归模型确定之后, 下一步就是求回归模型中未知的参数。对于许多非线性回归模型, 可通过变量的变换, 把非线性模型化为线性模型, 然后用最小二乘法求出参数之值。下面简单介绍一下多元线性回归分析的理论和求
#20# 造船技术 2006年第3期(总第271期) 3. 1 多元线性回归的概念
根据多个自变量的最优组合建立回归方程来预测因变量的回归分析, 称为多元回归分析。多元回归分析的模型为
^=b 0+b 1x 1+b 2x 2+, +b n x n , y
其中y ^为根据所有自变量x 计算出的估计量, b 0为常数项, b 1, b 2, , b n 称为y 对应于x 1, x 2, , , x n 的偏回归系数。偏回归系数表示, 假设在其他所有自变量不变的情况下, 某一个自变量变化引起因变量
变化的比率。
3. 2 多元线性回归中的统计指标3. 2. 1 复相关系数R
复相关系数是表示自变量x i 与因变量y 之间线性关系密切程度的指标。复相关系数使用字母R 表示, 取值范围在0~1之间。其值越接近1, 表示线性关系越强; 越接近0, 表示线性关系越差。3. 2. 2 判定系数R 2与修正判定系数
与一元回归方程相同, 多元回归也使用判定系数R 2来解释回归模型自变量的变异所占的比率。
但是, 判定系数的值随着进入回归方程的自变量的个数n (或样本容量的大小) 的增加而增大。因此, 为了消除自变量的个数以及样本量的大小对判定系数的影响, 引进了经修正的判定系数/修正R 0值(Adjusted R Square) 的概念。修正R 值的公式是:
修正R =1-2
2
2
据, 即该回归方程是否有效。利用残差分析, 确定回归方程是否违反了假设理论。对方程式中各自变量的系数进行检验。其假设是, 总体的回归方程自变量系数或常数项为0, 以便在回归方程中保留那些对该因变量y 值预测更为有效的自变量。3. 3. 1 方差分析
与一元回归方程的检验相同, 多元回归方程也采用方差分析方法对回归方程进行检验。检验的假设是, 总体的回归系数均为0或都不为0。它使用统计量F 对这个回归方程的显著性进行检验, 其原理与一元回归方程分析相同。
3. 3. 2 偏回归系数与常数项的检验
检验的假设是, 总体中回归方程各自变量偏回归系数为0, 常数项为0。检验使用统计量t 。偏回归系数和常数项的t 检验公式分别是:
偏回归系数
; t =
偏回归系数的标准差
t =
。常数项的标准差
3. 3. 3 方差齐性分析
方差齐性是指残差的分布是常数, 与自变量或因变量无关。即残差应随机地分布在一条穿过零点的水平直线的两侧。在实际应用中, 一般是绘制因变量预测值与生化残差的散点图。
3. 3. 4 残差的正态性检验
检验的方法多种多样, 其中最直观、最简单的方法是残差的直方图和累计概率图。需要指出的是, 希望残差完全服从于正态分布也是不现实的, 即使存在很理想的总体数据, 其样本的残差分布也只能是近似于正态分布。
^) /(n -k -1) (y -y , (y -y ½) /(n -1) E
2
其中k 为自变量的个数, n 为观测量数目。可以看出, 自变量大于1时, 其值小于判定系数。自变量数越多, 与判定系数的差值越大。
3. 2. 3 零阶相关系数部分相关系数与偏相关系数
在这里, 零阶相关系数(Zero O Order ) 表示各自变量与因变量之间的简单相关的系数。
部分相关系数(Part Co rrection) 表示, 在排除了其他变量的影响后, 自变量x i 与因变量y 之间的相关程度。部分相关系数小于偏相关系数。偏相关系数也可以用来作为筛选自变量的指标, 即通过比较偏相关系数的大小, 判别哪些自变量对因变量具有较大的影响力。
3. 3 多元线性回归分析的检验
建立了多元回归模型后, 需要进行显著性检验, 4 计算实例
本文以鞍形实船板的自重成形数据为例, 进行建模分析。钢板自重成形计算所考虑的主要几何工艺参数, 如板长、板宽、板厚、曲率半径, 对成形效果影响很大。
4. 1 板长与挠度之间的关系
在保证其他几何参数不变的情况下, 研究长度与挠度之间的变化规律。板的数据如表2所示。
应用表1数学模型进行曲线估计, 得出的统计量列于表3。
应用表1各数学模型所获得的板长与挠度关系
邓燕萍, 等:实验数据数学建模方法研究
表2 钢板尺寸与挠度关系
板长(m) 121086
各模型所获得的曲线
表3 板长数学模型统计量
模型名称线性二次复合增长对数三次指数倒数乘幂
复相关系数R 0. 959710. 999580. 993990. 993990. 926530. 999950. 998960. 885280. 99997
判定系数R 2
0. 921050. 999160. 988010. 988010. 858460. 999900. 997920. 783710. 99995
修正R 20. 881580. 997480. 982010. 982010. 787690. 999700. 997400. 675570. 99992
F 23. 33595. 60164. 76164. 7612. 135026. 33164. 767. 2537449. 00
显著水平0. 04030. 02900. 00600. 00600. 07350. 01000. 00600. 11470. 0000
板宽(m) 2222
厚度(m) 0. 0140. 0140. 0140. 014
曲率半径(m)
7777
#21#
挠度(m) 0. 1803800. 0837370. 0323830. 009278
从以上各模型都可以看出, 方差分析的结果:显著水平小于或等于0. 01的模型有乘幂、复合、增长、指数以及三次各模型, 这些模型均具有统计意义。
从图形比较分析:各图形符合都很好, 但乘幂的较好。
从统计量对比分析:比较模型的修正R 值。大多数模型都大于0. 9, 最好的达到0. 9999以上的只有乘幂模型。比较F 值,
F 乘幂=37449, F 三次=5026. 33, F 指数=164. 76, F 复合=164. 76, F 增长=164. 76。
由此可见, 相对更好的是乘幂模型。
综合考虑, 为了以后结合其他参数建立模型, 所以在保证准确的基础上, 尽量保证形式一致。最后选择了乘幂模型。
4. 2 各参数与挠度之间的关系
, 2
之间的关系。最终结果如表4。
表4 模型形式
几何参数模型名称板长板宽曲率半径厚度
乘幂乘幂乘幂线性
方程y =b 0t b 1y =b 0t b 1y =b 0t b 1y =b 0+b 1t
线性回归模型ln y =ln b 0+b 1ln t ln y =ln b 0+b 1ln t ln y =ln b 0+b 1ln t
4. 3 建立回归模型
选择以板厚为基准建立系列模型, 模型形式为
0L 1D 2R 3, y =A
式中 y ) ) ) 中面最大挠度, mm;
A
A
A
(1)
L ) ) ) 板长, m; D ) ) ) 板宽, m;
R ) ) ) 板的曲率半径, m;
A 0, A 1, A 2, A 3) ) ) 关系系数, A 0包含扰动误
差项。
下面利用板厚t 对各参数以及成形挠度进行无,
#22# 造船技术 2006年第3期(总第271期)
0L 01D 02R 03, y 0=A
式中 y 0=y /t,
A
A
A
(2)
2=B 2, A A 3=B 3,
L 0=L /t, D 0=D/t,
R 0=R/t 。
ln y 0=ln A 0+A 1ln L 0+A 2ln D 0+A 3ln R 0, 令 ln y 0=Y,
ln L 0=X 1,
ln D 0=X 2, ln R 0=X 3, ln A 0=B 0, A 1=B 1,
则式(2) 变为
Y =B 0+B 1X 1+B 2X 2+B 3X 3。(3)
进行多元线性回归, 可以得出模型中各待定系数, 建立以板厚为基准的系列模型。4. 4 模型计算结果
下面是以板厚为0. 018m 、曲率半径为11m 的鞍形板为例, 应用上述方法建立的回归模型
. 388-3. 4681. 844
y =t exp (-21. 010) L 40B 0R 0。(4)
表5中列举部分结果, 从数值上看, 计算结果比较准确, 误差较低, 满足工程需要。同理, 可以得到
表5 计算结果比较
板长(m) [***********]66
板宽(m) 1. 522. 531. 522. 532. 531. 51. 5
厚度(m) 0. 0180. 0180. 0180. 0180. 0180. 0180. 0180. 0180. 0180. 0180. 0180. 018
曲率半径(m)
[**************]19
数值实验(m) 0. 984510. 401040. 179400. 0898450. 341120. 130320. 057020. 0281180. 013520. 0063240. 0497150. 037351
模型计算(m) 0. 9960090. 3672620. 1693920. 090010. 3091080. 1139790. 052570. 0279340. 0124230. 0066010. 0475710. 032858
误差(%) 1. 16797-8. 42268-5. 578850. 183738-9. 38424-12. 5394-7. 80396-0. 65306-8. 111914. 384651-4. 3123-12. 0296
各个板厚的回归模型, 以此建立以板厚为基准的系列模型。相比笔者所用其他建立模型的方法, 本方法建模更科学迅速, 结果更准确, 误差更低。
差更低, 满足工程需要。本文对其他实验数据分析建模具有一定借鉴意义。
6 参考文献
1 任若恩, 王惠文. 多元统计数据分析) ) ) 理论、方法、实
例. 北京:国防工业出版社, 1990.
2 茆诗松, 丁元, 周纪芗, 等. 回归分析及其实验设计. 上
海:华东师范大学出版社, 1981.
3 刘玉君, 陈涛, 张骏, 等. 船体外板鞍形板自重成型的数
学模型. 中国造船, 2004, (6) :73
5 结论
本文采用曲线估计的方法, 能够比较准确迅速地完成影响参数的函数关系分析。在考虑各参数的函数关系的基础上, 本文选择多元线性回归方法, 建
立系列回归模型。对计算结果进行比较显示, 本方法计算结果较为准确, 而且建模过程更科学迅速, 误