葡萄酒的质量评价及影响因素分析
葡萄酒的质量评价及影响因素分析
Estimation of the Grape Wine ’s Quality and Analysis of Its Factors
袁少州阚黎
(山东大学数学学院,山东济南250100)
【摘要】本文首先计算各评酒员在所有葡萄酒样品打分与均值差的平方和来确定该评酒员的准确度,从而确定葡萄酒的分级。再利用主成分分析法、系统聚类分析法完成对酿酒葡萄的分级。最后用逐步回归法建立模型,说明了可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
【关键词】主成分分析法;系统聚类分析法;逐步回归法
【Abstract 】In order to evaluate the accuracy of the wine tasters ’, we first calculate the quadratic sum of difference between the mean score and
the score given by that wine taster, then classify the grape wine. Using principal components analysis and systematical clustering method, we classify the grape. At last, we apply the stepwise regression method to build a model, indicating that the quality of the grape wine can be evaluated by the physical and chemical indexes of the grape and the wine.
【Key words 】Principal components analysis ;Systematical clustering method ;Stepwise regression method
0引言
葡萄酒的质量一般利用对评酒员对其各项指标的打分求和进行评价,而酿酒葡萄的好坏与葡萄酒的质量有很大的关系[1]。本文利用所给数据,采用多元统计分析的方法,完成了对酿酒葡萄的分级,并建立了酿酒葡萄与葡萄酒的理化指标的联系模型和葡萄和葡萄酒的理化指标对葡萄酒质量的影响模型。
式(1)中的F i , F j (i ≠j,j=1, 2, …,s ) 相互无关,且F s 是与F 1, F 2, …, F s -1都不相关的t 1, t 2, …,t n 的所有线性组合中方差最大者。F s 称为t 1, t 2, …,t n 的第s 主成分。设t 1, t 2, …,t n 各向量的数据为t ij (i,j =1,2,…, n ) ,计算出相关系数矩阵:R =(r ij ) n ×n , 求其特征值λi (i =1,2,…, n ) ,并由大到小排序,并分别求出对应的单位特征向量e i =(e i 1, e i 2, …, e in )(i =1,2,…, n ) ,继而求出主成分F i 的贡献率h i 和累计贡献率H i ,取累计贡献率为85%~95%的s (s ≤n ) 所对应的前s 个主成分。计算主成分载荷z ij =ρ(F i , t j )=姨j ij (i =1,2,…, s ; j =1,2,…, n ) ,继而的相互各主成分的得分矩阵Z =(z ij ) n ×n ,部分结果见表2。白葡萄样品的理化指标的处理方法同上。通过累计贡献率表知,红葡萄样品和白葡萄样品的前三个主成分累计贡献率已经超过95%,因此均取s=3;将得分矩阵中的各数据值带入式(1),即可得到红葡萄样品和白葡萄样品的主成分。
表2红葡萄样品协方差矩阵特征值,特征贡献率和累计贡献率表(部分)
理化指标
矩阵pc 的特征值
方差贡献率(%)
累计贡献率(%)
1数据来源与模型假设
本文数据来源于2012年全国大学生数学建模竞赛A题[2], 根据所给数据,做出以下假设:(1)假设葡萄酒的生产加工流程相同且固定,即葡萄酒的质量只与葡萄有关;(2)假设评酒员均有一定资历,打分情况可以反映葡萄酒质量的真实水平;(3)假设评酒员打分相互独立,且各组评酒员的打分服从正态分布。
2符号系统
N 1———红葡萄酒的样品总数;N 2———白葡萄酒的样品总数;N———各组评酒员的人数;x 1ij ———第m 组评酒员号i 对红葡萄酒样品j 的评分;t i ———葡萄样本n 个一级理化指标中的第i 个指标。
[1**********]
0.22990.17070.01340.00430.00190.00160.00110.00020.00010.0001
54.311440.3263.16561.01580.44890.3780.25990.04720.02360.0236
54.311494.637497.80398.818899.267799.645699.905599.952899.9764100
3酿酒葡萄分级模型
3.1数据处理
为了对葡萄进行分级,首先对各理化指标进行归一化处理,再确定其所对应的葡萄酒的质量,而质量是由评酒员对其分类指标打分求和而确定的,故评酒员的打分直接关系到对葡萄酒的分级,由于存在个人喜好导致的偏差,通过计算各评酒员在所有葡萄酒样品打分与均值差的平方和来确定该评酒员的准确度,结果见表1。本文选取平方和最小的前十位评酒员的评分作为分级的依据,分别为:第一组的评酒员1、5、10,以及第二组的评酒员1、2、3、4、5、7、9。
表1评酒员的准确度测评表
组别一二
[1**********]
1291.1132602375.54234.2955.63573.84438.41337.421931127.5690.5894.5887.21223.2805.31558.6980.66296.512681706.8
3.3酿酒葡萄理化指标的聚类分析模型
对于上一节得到的两种葡萄样品的主成分,本文采用系统聚类法对其进行分类[3]。
假定类G 中有m 个元素,用列向量v i (i =1,2,…, m ) 表示,d ij 表示v i
与v j 的距离,定义类G K 与类G L 的距离D KL =min{d ij ∶v i ∈G K ; v j ∈G L },如果类G K 与类G L 聚成一个新类G M ,其与已有类G J 的距离D MJ =min{D KJ , D LJ },J ≠K,L ,重复进行两个最近类的合并, 直至所有的样品合并为一类,最后形成一个亲疏关系图谱,从中得出分类数量及每一类包含的样品。两种葡萄酒的聚类图如图1和图2所示。
根据以上结果将红葡萄样品分成5组:一、样品1;二、样品27;三、样品26;四、样品14;五、样品2、3、4、5、6、7、8、9、10、11、12、13、15、16、17、18、19、20、21、22、23、24、25;将白葡萄样品分成5组:一、样品1;二、样品13;三、样品14、23、27;四、样品21;五、样品2、3、4、5、
3.2
酿酒葡萄理化指标的主成分分析模型
酿酒葡萄的理化指标在不同程度上反映了研究对象的某些信息,但不同理化指标之间会有一些相关性,而且由于变量过多,在某种程度上使问题的研究变得复杂,因此,本文用主成分分析法对所研究问题进行简化处理[4]。
对于27个红葡萄样本的30个一级理化指标组成的向量依次设为t 1, t 2, …, t n , 取它们的线性组合指标为F 1, F 2, …, F s (s ≤m ) ,即
≤≤1≤≤≤2≤≤≤≤≤≤s
F =z 11t 1+z 12t 2+…+z 1n t n , F =z 21t 1+z 22t 2+…+z 2n t n , ……
F =z s 1t 1+z s 2t 2+…+z sn t n .
(1)
6、7、8、9、10、11、12、15、16、17、18、19、20、22、24、25、26、28。
通讯作者:袁少州。
Science &Technology Vision 科技视界5
图1红葡萄样品聚类图
图2白葡萄样品聚类图
3.4
酿酒葡萄的分级
根据分类结果,由假设(1)可认为酿酒葡萄的质量与所酿葡萄酒的质量有关,对葡萄酒的打分求均值,即可得出对应葡萄样品质量的评定,结果见表3。按得分由高到低的次序,将各类分为A 、B 、C 、D 、E 五个级别,其中A 级别为质量最好,E 级别为质量最差,结果见表4。
表3葡萄样品各类得分表
得分类一
类二
类三
类四
类五
红葡萄68.888971.888970.66677370.5942白葡萄
79.4
74.1
76.0333
81.7
77.1773
表4
葡萄样品分级表
分级
A B C D
E 红葡萄1427262、3、4、5、6、7、8、9、10、11、12、13、15、16、
17、18、19、20、21、22、23、24、251白葡萄21
1
14、23、27
2、3、4、5、6、7、8、9、10、11、12、15、16、17、
18、19、20、22、24、25、26、28
13
4
酿酒葡萄与葡萄酒的理化指标的联系模型
4.1
逐步回归模型
首先采用多元线性回归分析对酿酒葡萄与葡萄酒的理化指标的联系进行研究,以酿酒葡萄的理化指标为因变量,对于红葡萄样品,选出前20个样品进行研究,各一级指标依次记为t 1, t 2, …, t n ,红葡萄酒的各一级指标依次记为s 1, s 2, …, s m ,在研究红葡萄酒第q 个一级指标与红葡萄样品的理化指标的联系时,记t 1, t 2, …, t n , s q 各自的标准化变量为μ1, μ2, …, μn , μn+q,并计算t 1, t 2, …, t n , s q 的相关系数矩阵R (0)。设已经选上了K 个变量:t )
i 1, t i 2, …, t i k ,且i 1, i 2, …, i k 互不相同,R (0)经过变换后为R (k ) =(r (k i j ) ,对
(k )
j =1,2,…, k 逐一计算标准化变量μ(k )
(r i j
, (p+1) ) 2
(k )
i j 的偏回归平方和V i j =r (k )
,记V i =
i j i
j
(k )
max{V (k )
(n-k -1) V i i
j
},作F 检验F =
r , 对给定的显著性水平α,拒绝域为
(p +1(p +1))
F
,
6科技视界Science &Technology Vision
t (w )
i 2
, …, t i w
,R (0)经过变换后为R (w ) =(r i j
) ,则对应的回归方程可通过运算得y
^=b 0+b i 1
t i 1
+…+b i k
t i k
,对酿酒葡萄与葡萄酒的理化指标进行逐步回归,红
葡萄的一级指标与红葡萄酒的指标的回归系数见表5。
4.2逐步回归模型的分析
葡萄样品与葡萄酒的理化指标的回归方程的可决系数十分接近1,可知模型的自变量对因变量的解释程度很高。继而用剩余的7个红葡萄酒样品及8个白葡萄酒样品的一级指标数据对模型的正确性进行检验。将预测值与实际值进行比较,结果见表6,白葡萄酒预测的相对误差低于0.3%
的占总体的93.75%,红葡萄酒预测的最大相对误差不超过2%,说明模型具有很好地预测效果。
表5红葡萄的一级指标与红葡萄酒的指标的回归系数表(部分)
系数
花色苷
单宁
总酚
酒总黄白藜芦
酮
醇DPPH 色泽L 色泽a
氨基酸0.47930.69880.93190.1085-1.54570.8387-0.1005-1.9764蛋白质
0.13560.6918-0.39790.39472.82990.64230.10680.3967
VC 含量-0.2187
-0.3117
2.6144-0.1059
花色苷0.76520.45592.14730.2203-6.9928-0.1694-0.8475-1.4338酒石酸0.1678-0.26710.95390.4578-5.0494
-0.88060.9423
苹果酸
0.0933
-0.4895-1.66070.49936.34150.5011-0.14481.8366
柠檬酸-0.300-0.3215-0.8674-0.66733.6449-0.38430.2761
0.0705
表6各葡萄酒样品的预测结果表(部分)
白葡萄酒
红葡萄酒
实际值
观测值
误差
实际值
观测值
误差
00.0002-10.5860.58600.2120.2122-0.00090.270.2700.0390.0391-0.002611010.99990.00010.1770.17700.0920.0921-0.00110.0650.06500.1120.1110.0090.0040.00400.6640.66380.00030.1010.10100.2520.2523-0.00120.2270.22700.188
0.1881
-0.0005
0.348
0.3481
-0.0003
5葡萄和葡萄酒的理化指标对葡萄酒质量的影响模型
5.1逐步回归模型II
葡萄酒的感官质量最终是由所含的芳香物质的种类与含量及各芳香物质之间的相互作用共同决定[5],于是在考虑葡萄和葡萄酒的理化指标对葡萄酒质量的影响时将芳香物质同理化指标一同作为因变量,运用逐步回归法得出两者之间的联系。具体步骤同上小节,结果见表7。
表7影响红葡萄酒质量的因变量的回归系数表(部分)
氨基酸蛋白质
VC 花色酒石苷酸苹果酸柠檬酸多酚氧化
酶
褐变度DPPH -0.4064
00
000-0.0895000
单宁
葡萄总白藜黄酮总糖还原糖
可溶性pH 值可滴定
黄酮芦醇醇固形物酸
固酸比00-0.10000.357000.2265
果穗质百粒质果梗出汁果皮L*果皮颜果皮颜色
量量比率质量色a*b*
乙醛
丙酮
0.1990-0.10000
0000.73
5.2逐步回归模型II 的分析
回归方程的可决系数十分接近1,可知模型的自变量对因变量的
解释程度很高。本文继而用剩余的7个红葡萄酒样品(下转第71页)
综合对比可知,ITD 分解是具有优越性的,所以本文将采用半圆形态梯度滤波与ITD 结合的方法应用于齿轮故障诊断中。
3工程应用
对某油田作业区注水泵减速齿轮箱进行振动检测。输入轴转速为1500r/min。齿数分别为20和163,可知转轴频率为25Hz ,啮合频率为500Hz 。采样频率为4KHz 。3.1降噪处理
由于现场环境的干扰,采集到的信号含有大量噪声,无法进行有效地的诊断分析,如图3所示。首先对信号进行降噪处理,采用文中半圆结构形态滤波方法,并与传统小波降噪和SVD 滤波进行对比分析。
图7
齿轮磨损降噪后ITD 分解结果
由此可见,ITD 算法能够自适应地将信号分解为有限个固有旋转分量的形式,每个分量代表了信号的不同时间尺度特征,对应不同的瞬时频率,且随信号的变化而改变,反映了信号动态特征。
4结论
图3齿轮信号时频域图图4小波降噪的时频域图
本文采用半圆形态梯度滤波与ITD 结合的方法,对齿轮降噪和特征提取展开论证。首先提出半圆形态梯度滤波法。该方法降噪效果明显,失真小且算法简单易于实现;通过计算相关指标,表明该方法能够精确去除干扰的同时突出有效信号本质特征。然后利用ITD 对降噪后的信号进行分解,ITD
算法
不仅能够克服
EMD 算法的端点效应的缺陷,而且能够准确地提取出故障特征,计算速度快。结果表明本文采用的方法具有更高的准确性和效率,为对齿轮的故障诊断提供了一种新方法。S
【参考文献】
[1]林近山.基于近似熵的齿轮箱状态监测与故障诊断[J].机械传动,2013(37):
图5SVD 降噪的时频域图图6半圆形态梯度滤波的时频域图
分析降噪效果图:小波和SVD 都能很好的抑制噪声信号,但两者仅在25Hz ,250Hz 及500Hz 等低频处幅值较高,消除了信号的高频成分,不能保留其高频特征。而文中采用的降噪方法,不仅有效抑制噪声,而且在高频1500Hz 等处幅值较大,能量分布较为明显。根据齿轮故障机理研究和长期诊断经验表明图6降噪后信号特征符合齿轮磨损的特点,因此可以判定为齿轮磨损故障。3.2ITD 特征提取
将降噪后的齿轮磨损故障信号进行ITD 分解,齿轮磨损ITD 分解结果如图7所示,振动信号被分解为7个PRC 分量和一个单调的残余量r7,7个PRC 分量按照频率段从高到低的顺序从上到下排列,而处于高频阶段的PRC 分量尤其是前2个PRC 分量集中了信号的主要能量,并包含了齿轮齿面磨损故障的特征信息。
87-89.
[2]王龙, 沈艳霞, 季凌燕.基于小波降噪和EMD 方法的风力发电系统齿轮箱故障诊断[J].江南大学学报:自然科学版,2012:159-162.
[3]沈路, 杨富春, 周晓军,等.基于改进EMD 与形态滤波的齿轮故障特征提取[J].振动与冲击,2010,29(3):154-157.
[4]Goutaias and H.J.A M.Heijmans.Constructing morphological wavelets with the lifting scheme [C]//Pattern Recognition and Information Processing, Proceedings of the Fifth International Conference on Pattern Recognition and Information Processing 1999:65-72.
[5]张建成, 吴新杰.形态滤波在实时信号处理中应用的研究[J].传感技术学报,2007,20(4):828-830.
[6]李兵, 张培林, 任国全,等.基于形态梯度算子的滚动轴承故障特征提取[J].中北大学学报:自然科学版,2011,32:426-430.
[7]Fri M G, Osorio I. Intrinsic time-scale decomposition:time-frequency-energy analysis and real-time filtering of non-stationary signal[J].Proceedings of the Royal Society A, 2006;463(2078):321-342.
[8]段礼祥, 张来斌, 岳晶晶.基于ITD 和模糊聚类的齿轮箱故障诊断方法[J].中国石油大学学报:自然科学版,2013:37(4):133-139.
[责任编辑:丁艳]
(上接第6页)及8个白葡萄酒样品的一级指标数据对模型的正确性进行检验。将7个红葡萄酒样品及8个白葡萄酒样品的一级指标数据带入上一小节得到的回归函数中,将预测值与实际值进行比较,预测结果显示,红葡萄酒预测的最大相对误差不超过0.3%,白葡萄酒预测的最大相对误差不超过0.1%,说明模型具有很好地预测效果,即可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
的关系,为生产进行指导。S
【参考文献】
[1]梁学军, 诸葛宏庆, 杨华峰. 葡萄质量是决定葡萄酒质量的关键因素[J].中外葡萄与葡萄酒,2000,3(1):47-49.
[2]2012年全国大学生数学建模竞赛A题数据[EB/OL].[2012-9-7].http://www.
6结束语
首先计算各评酒员在所有葡萄酒样品打分与均值差的平方和来确定该评酒员的准确度,确定葡萄酒的分级。对葡萄分类前运用主成分分析法从众多因素中分清主次,解决了理化指标多且有相关性的问题,采用逐步回归法使回归方程的显著性更为明显。本文所用方法可以较为科学的反映葡萄酒质量与酿酒葡萄和葡萄酒的理化指标之间
mcm.edu.cn/html_cn/block/c61dfec317d7a5bd9b2b8efed81c8af3.html
[3]何正风.MATLAB 概率与数理统计分析[M].2版. 北京:机械工业出版社,2012,3. [4]韩中庚. 数学建模实用教程[M].北京:高等教育出版社,2012,3.
[5]游玲, 王涛, 李华兰. 葡萄酒芳香物质研究进展[J].四川食品与发酵,2008,2,44(2):29-33.
[责任编辑:汤静]
Science &Technology Vision 科技视界71
葡萄酒的质量评价及影响因素分析
作者:作者单位:刊名:英文刊名:年,卷(期):
袁少州, 阚黎
山东大学 数学学院,山东 济南,250100科技视界
Science & Technology Vision2014(12)
本文链接:http://d.wanfangdata.com.cn/Periodical_hqsgkj201412001.aspx