关于葡萄酒问题的数学建模
葡萄酒评价模型
摘 要 本文讨论了葡萄酒的评价问题。
对问题一,分别求出两组评酒员对各葡萄酒样品的平均评分,通过SPSS 软件对同一类酒的两组得分进行T 检验,检验结果表明两组评酒员的评价结果有显著性差异。再建立评酒员和样品葡萄酒得分的典型相关分析模型,运用MATLAB 求解,以样品葡萄的得分与评酒员的相关系数越大评分越不可信为依据,得出第二组的评分更可信的结论。
对问题二,以第二组的评分为准,对葡萄酒的质量进行排序,得出排序向量,对酿酒葡萄中各个理化指标进行排序,得出排序矩阵,排序向量与排序矩阵的各列进行点乘,得到葡萄酒质量与酿酒葡萄中各个理化指标的内积,以此内积作为葡萄酒的质量与酿酒葡萄中各个理化指标的相似度指标,选出相似度较高的五项指标作为酿酒葡萄分级的参考指标。根据参考指标对酿酒葡萄进行分级,分别得出了依香气、口感、外观进行分级的酿酒葡萄分级结果(见表五,表六) 。
对问题三,建立非线性回归模型,讨论酿酒葡萄与葡萄酒理化指标的联系。将葡萄和葡萄酒的理化指标进行无量纲化处理,利用最短距离法,选出葡萄理化指标中对葡萄酒理化指标影响最大的五项作为回归自变量,以葡萄酒的理化指标为回归因变量,运用MATLAB 求解得到酿酒葡萄与葡萄酒的理化指标之间的4次函数关系式(见表七, 表八)。
对问题四,建立酿酒葡萄的理化指标、葡萄酒的理化指标与葡萄酒质量的多重T 检验模型。应用SPSS 软件进行T 检验,通过检验结果所体现出的向量整体差异程度表明,酿酒葡萄和葡萄酒的理化指标对葡萄酒质量影响较大,故可以用酿酒葡萄和葡萄酒的理化指标评价葡萄酒质量。
关键词 理化指标;T 检验;典型相关系数;回归模型;葡萄酒评价
一、 问题重述
由于葡萄酒不仅饮用口感佳,而且还具有延缓衰老、滋补养颜、预防心脑血管病、预防癌症等功效,因而受到越来越多人的亲睐。葡萄酒厂在对葡萄酒质量进行鉴定时,一般是通过聘请一批有专业知识和资质的评酒员对葡萄酒进行品评。每名评酒员品评后会根据评判标准对所品葡萄酒进行打分,然后求其所有评酒员的打分之和,从而确定葡萄酒的质量。酿酒行业很多人把葡萄园作为葡萄酒厂的第一车间,这个比喻充分说明了原料质量对成品质量的重要性,所以说酿酒葡萄的好坏直接影响着葡萄酒的质量。葡萄酒和酿酒葡萄的理化指标在一定程度上反映了葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。根据记录的数据,通过数学模型完成如下问题:
问题一:分析附件1中两组评酒员的评价结果有无明显差异,如果有差异,进一步讨论哪一组结果更可信。
问题二:根据酿酒葡萄的理化指标和葡萄酒的质量的对应关系,对这些酿酒葡萄进行分级。
问题三:根据不同酒样分析酿酒葡萄与葡萄酒的理化指标之间的联系。 问题四:分别分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。并以此判断能否利用酿酒葡萄和葡萄酒的理化指标判断葡萄酒的好坏。
二、 问题分析
针对问题一,为比较分析两组评酒员的评价结果有无显著性差异,需先分别求出每组中各葡萄酒质量的平均值。再将所求的第一组红葡萄酒质量的平均值与第二组红葡萄酒质量的平均值、第一组白葡萄酒质量的平均值与第二组白葡萄酒质量的平均值分别进行T 检验,进而可确定两组评酒员的评价结果是否存在显著差异。
确定哪一组结果更可信问题。由于影响各葡萄酒评分大小的因素主要有评酒员打分差异与葡萄酒自身质量。根据实际可知可信度越高的组别,其打分与评酒员的相关关系越小,故以评酒员编号与该评酒员所打分数做为变量,可建立典型相关分析模型。然后根据模型计算出每组评酒员编号与所得分的相关系数,判断其可信度。
针对问题二,由于酿酒葡萄的分级与其自身各项理化指标的大小有关,而酿酒葡萄中各项理化指标大小对酿酒葡萄的影响会在葡萄酒质量的好坏中体现,所以本文将根据葡萄酒质量的好坏来判断酿酒葡萄中各理化指标的大小,而后以葡萄中对葡萄影响较大的理化指标为酿酒葡萄分级的依据。用问题一中更可信一组的评分对葡萄酒的质量进行排序,得出排序向量,对酿酒葡萄各理化指标进行排序得到排序矩阵,用排序向量和排序矩阵各列的点乘值表示相似度,相似度越高则该理化指标对酿酒葡萄的影响越大。将按照相似度的大小对酿酒葡萄受各项理化指标的影响程度进行排序,选出排在前面5个理化指标作为酿酒葡萄分级的依据,从而进行分级。
针对问题三,由于酿酒葡萄和葡萄酒的理化指标的量纲不同,所以为讨论酿酒葡萄与葡萄酒的理化指标之间的联系,需将原始表格中各数据转化为无量纲,进而得到一组新数据表,再运用最短距离法将新葡萄酒数据表中每一组数据与新
酿酒葡萄的数据求差的平方和,平方和越小,两组数据近似度大,进而将得到一个关于差平方和的9⨯27阶矩阵P ,对矩阵中每一列按从大到小进行排序,取前五行数据进行拟合,建立非线性回归模型,从而可确定酿酒葡萄与葡萄酒的理化指标之间的联系。
针对问题四,酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响, 可先将酿酒葡萄、葡萄酒的理化指标与葡萄酒质量无量纲化,可利用SPSS 软件,对酿酒葡萄和葡萄酒的各项理化指标与葡萄酒质量进行T 检验,可进一步分析与葡萄酒质量存在显著性差异的理化指标数目。从而确定根据酿酒葡萄与葡萄酒是否能判断葡萄酒质量。
三、基本假设
1.假设葡萄酒的质量基本服从正态分布; 2.原始数据真实可靠;
3.未被测量出来的指标对葡萄酒质量的影响忽略不计。
四、符号表示
五、模型建立与求解
葡萄酒评价结果受多方面因素影响,葡萄酒的质量与原材料酿酒葡萄有直接影响,酿酒葡萄和葡萄酒的理化指标确定着葡萄酒的质量,以及影响葡萄酒最终评价结果的因素是多方面,现就针对酿酒葡萄好坏与葡萄酒质量以及酿酒葡萄和葡萄酒的理化指标之间的关系,来讨论题目中的四个问题。 5.1 两组评酒员评价的选择
首先分析两组评酒员的评价结果有无显著差异,再进行可信度分析,选可信度高的一组为葡萄酒质量的评判标准。
5.1.1分析两组评酒员的评价结果有无显著性差异
为分析两组评酒员的评价结果有无显著性差异,本文首先运用EXCEL 求得每组中各红葡萄酒的平均分(见附录一)以及白葡萄酒的平均分(见附录一),而后运用T 检验方法进行双重比较。这种方法为比较第一组与第二组平均数,即
检验
H 0:μ1=μ2
方法采用配对样本均值T 检验
-
-
t =
x 1-x 2
6x +6x -2γσx 1σx 2
21
22
n -1
由于本题中两组数据来自于相同样本,所以,γ=1。 再利用SPSS 软件对问题进行求解得到如下数据结果:
在T 检验中,当Sig 大于等于0.05时,即Sig ≥0. 05,两者间无显著性差异;反之,当Sig 小于0.05时,即Sig ≤0. 05,两者间有明显的显著性差异。
由表三的数据可知,第一组红葡萄酒与第二组红葡萄酒之间的样本检验结果
Sig =0. 018
评价结果有显著性差异。第一组白葡萄酒与第二组白葡萄酒之间的检验结果的
Sig =0. 033
评酒员的评价结果仍有显著性差异。 5.1.2确定哪一组结果更可信问题
在大量的实际问题中,葡萄酒样品的得分与该葡萄酒的质量、评分员的自身因素有关。判断可信度可转化为判断评分与评分人的相关系数大小。
将27种葡萄酒样品看成27次观测,由葡萄酒的得分与评分员编号作为变量,建立典型相关分析模型:
设有两组变量X =(x 1, x 2,.. x p ) ' 和Y =(y 1, y 2,... y q ) ' ,分别进行了n 次观测,构成样本矩阵(X , Y ):
⎛x 11
x 21
(X , Y ) =
... x ⎝n 1
... x 1p ... x 2p ... ... ... x np
y 11... y 1p ⎫
⎪
y 21... y 2p ⎪
(1)
... ... ... ⎪
⎪
y n 1... y np ⎪⎭
其中,p =q =10, n =27。
首先,将样本数据的元素进行标准化处理,利用离差标准化后所得内积为相关系数得相关矩阵R :
⎛R 11R = R
⎝21R 12⎫⎪ ⎪R 22⎭
-1-1
再由分块矩阵,得到矩阵乘积:R 12R 22R 21和R 21R 11R 12,而后又可得到特征方程,进而求得特征向量,此时的特征向量即为所求的典型相关系数,对典型相关系数的检验本文采用χ2检验法进行显著性检验,从而选出有应用意义的相关系数。相关系数越小,评分越公平,可信度越高。本题以第一组红葡萄酒为例进行求解:
将原始数据记为矩阵形式,标准化之后计算出相关矩阵。根据相关矩阵R 得出特征根λi (i =1 10)。
利用χ2检验法进行显著性检验,方法是求其Q i 2的最大值,进而确定与Q i 2最大值对应的特征根。下表表四中给出针对λi ,其中i =1, 2... 10.
对第i 个典型相关系数λi 进行显著性检验时,先假设H 0:λi =0,令:
∧i =∏(1-λ2j )
j =i
k
1⎛⎫
在U 和V 的情况下,统计数Q 2=- n -i -(p +q +1) ⎪ln ∧i
2⎝⎭
如果λi 通过了显著性检验,则表明第i 个典型相关系数λi 显著,或称为第i 对
典型变量U i , V i 有显著相关[1]。
运用MATLAB 求出对应的∧i 和Q i 2(见下表四)。
由表四可知,Q 最大值为93.4279时,对应10的值。同理可以利用相同的
办法,分别求第一组白葡萄酒,第二组红葡萄酒以及白葡萄酒当Q 2取的值最大时,所对应的λ值。通过求解得到第一组白葡萄酒Q 2=66.6751,λ=3. 3723;第二组红葡萄酒Q 2=82.7456,λ=4. 6115;第二组白葡萄酒Q 2=65.7723,λ=10. 0523。对于同一颜色的葡萄酒,λ值越大,说明显著性差异越大,可信度越低,综上所述,第二组的评分较第一组更可信。
5.2酿酒葡萄的理化指标和葡萄酒质量对酿酒葡萄分级。
本文将先对葡萄酒的质量依照问题一中更可信的一组的评分进行从大到小排序,由第一问的结果知第二组的评分更可信,所以本题将采用第二组的数据(见题目附录一)作为原始数据来对酿酒葡萄进行分级。
设有向量φ=(φ1, φ2,..., φm ) ,ϕ=(ϕ1, ϕ2,..., ϕh ) m ⨯h ,其中φ表示第二组红葡萄酒评分的平均值按从大到小以此排列,ϕ表示酿酒葡萄中各成分依次排列,m =27, h =30。B =φ⨯ϕ。葡萄酒质量与酿酒葡萄中各个理化指标排序的相似度:其中,B 为一个1⨯30向量。
现按照B 向量中元素的大小对酿酒葡萄受各项理化指标的影响程度进行从大到小的排序,
具体排序结果见附录二。然后选出排在前面5个理化指标作为酿酒葡萄分级的依据。酿酒葡萄分级方法为:对酿酒葡萄分别就其外形、香气、口感进行分级,其中,当某种酿酒葡萄的该5个理化指标均排在所有样品酿酒葡萄的前5名时,该酿酒葡萄为一级酿酒葡萄,若只有4个理化指标排在所有样品酿酒葡萄的前5名时,该酿酒葡萄为二级酿酒葡萄,依次类推,共分六级。白葡萄酒的酿酒葡萄等级划分与红葡萄一致,以下为对红、白酿酒葡萄分级结果:
为讨论酿酒葡萄与葡萄酒的理化指标之间的联系,首先将题目中附录2的原始数据统一量纲。
本题将原始数据转化为无量纲化的方法为: p ij =
x ij -x j
x j
-
-
其中,i =1, 2..., 9, j =1, 2..., 27.
转化后得到一个新数据表(见源程序),而后运用最小距离法求方差和
w ij =∑(x is -x js )
s =1
27
2
其中,i =1, 2..., 9, j =1, 2,..., 9.
将新表格中的元素看成一个矩阵,并对新表格的数据进行排序,进而可得到
一9⨯27阶矩阵P 而后取矩阵的前五行,具体见下表七:
从图中可得出对红葡萄酒各类理化指标影响最大的5种葡萄理化指标,而后
对表七中数据按每列分别进行拟合,建立线性回归模型来分析酿酒葡萄与葡萄酒的理化指标之间的联系。
这里以红葡萄酒为例,分析酿酒葡萄与葡萄酒的理化指标之间的联系,白葡萄酒与酿酒葡萄的理化指标与红葡萄酒方法类似。
假设,x 1, x 2, x 3, x 4, x 5为每列各理化指标的影响指标。首先,我们建立
x 1, x 2, x 3, x 4, x 5之间线性模型,即
y =a 1x 1+a 2x 2+a 3x 3+a 4x 4+a 5x 5+ε (2) 此时,利用MATLAB 统计工具箱的命令REGRESS 求解,得到检验统计量R 2=0. 1396,即因变量可由模型确立的百分比太小,此时不符合实际情况。再考虑当自变量之间有相互影响时,在(2)式的基础之上,再加上x 1, x 2, x 3, x 4, x 5之间的交互项,这时,重新建立x 1, x 2, x 3, x 4, x 5之间二次模型,即
y =b 1x 1x 2+b 2x 1x 3+b 3x 1x 4+b 4x 1x 5+a 1x 1+a 2x 2+a 3x 3+a 4x 4+a 5x 5+ε (3) 此时,利用MATLAB 统计工具箱的命令REGRESS 求解,得到检验统计量R 2=0. 0. 3067,此时还是不符合实际情况。在(3)式的基础上,再考虑
2222
项的影响,得到如下模型 x 12, x 2, x 3, x 4, x 5
2222
y =c 1x 12+c 2x 2+c 3x 3+c 4x 4+c 5x 5+b 1x 1x 2+b 2x 1x 3+b 3x 1x 4+b 4x 1x 5+a 1x 1
+a 2x 2+a 3x 3+a 4x 4+a 5x 5+ε (4)
利用MATLAB 软件求解,得到检验统计量R 2=0. 7693,此时依然不符合实
33333
际情况。在(4)式的基础上,再考虑x 1项的影响,得到如下回归模, x 2, x 3, x 4, x 5型
333332222
y =d 1x 1+d 2x 2+d 3x 3+d 4x 4+d 5x 5+c 1x 12+c 2x 2+c 3x 3+c 4x 4+c 5x 5+b 1x 1x 2
+b 2x 1x 3+b 3x 1x 4+b 4x 1x 5+a 1x 1+a 2x 2+a 3x 3+a 4x 4+a 5x 5+ε (5)
利用MATLAB 软件对模型进行求解,得到检验统计量R 2=0. 8584,此时仍
4444
旧与实际情况不相符。在(5)式的基础上,再考虑x 14, x 2项的影响,, x 3, x 4, x 5得到如下回归模型
444433333
y =e 1x 14+e 2x 2+e 3x 3+e 4x 4+e 5x 5+d 1x 1+d 2x 2+d 3x 3+d 4x 4+d 5x 5+ 2222
c 1x 12+c 2x 2+c 3x 3+c 4x 4+c 5x 5+b 1x 1x 2+b 2x 1x 3+b 3x 1x 4+b 4x 1x 5+
a 1x 1+a 2x 2+a 3x 3+a 4x 4+a 5x 5+ε (6)
利用MATLAB 软件对模型进行求解,得到检验统计量R 2=0.. 9650,与实际
问题相符。故可以选择不同指数综合考虑的回归模型,具体的拟合曲线的系数如下表八:
1415c 1~c 5表示二次项系数,d 1~d 5表示三次项系数,e 1~e 5表示四次项系数。
从表中可得出红葡萄酒理化指标与5种对葡萄酒理化指标最具影响力的葡萄理化指标之间的函数关系,由于这其余的葡萄理化指标对红葡萄酒的某一指标影响不大,故该函数关系基本可以描述葡萄的所有理化指标与红葡萄酒某一指标的关系。
5.4酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响问题
算出酿酒葡萄与葡萄酒的各理化指标与其平均值之比,可将理化指标无量纲化,得到各个指标的新数据。利用第二组所打分数,计算每瓶葡萄酒的最终得分与其平均分的比值。为了找出理化指标与葡萄酒质量的关系,建立酿酒葡萄和葡萄酒的理化指标序列、葡萄酒质量序列两个向量K [k 1, , k i , k p ]与
L =[l 1, l j , l q ],其中p 为样品数,q 为理化指标编号,l j 为第j 个理化指标关于p 个样品的向量。建立多重T 检验模型,即比较K 与第L j 组平均数,即检验
H 0:μK =μl j ,j =1, , q .
采用两个正态总体均值的T 检验,取检验统计量
k -l j
t Kj =, j =1, , q
MS E (1/p +1/q )
当H 0成立时,t Kj ~t (p -r ), 所以当t Kj >t 2(p -r ) 时,说明μK 与μj 差异显
α
著。定义相应的P 值为
p Kj =P t (p -r ) >t Kj 。
{}
即服从自由度为p -r 的t 分布的随机变量大于t Kj 的概率。若P 值小于指定的α值,则认为μK 与μj 有显著差异[2]。
应用SPSS 软件通过分别判断向量X 和Y j 之间出是否存在显著差异,以红葡萄酒的理化指标为例,将理化指标做为其中一个变量,红葡萄酒的质量为另一变量,求解结果如下表:
分析表中数据,并计算红葡萄的理化指标对红葡萄酒质量的显著性,白葡萄与白葡萄酒的理化指标对白葡萄酒质量显著性的计算过程与红葡萄酒一致,得到如下结果:
1. 红葡萄的各项理化指标与红葡萄酒的质量均无显著性差异,红葡萄的单宁含量对红葡萄酒质量影响最大;
2. 红葡萄酒的氨基酸含量与红葡萄酒的质量有显著性差异,其余各项均不显著,红葡萄酒的酒总黄酮含量对红葡萄酒的质量影响最大;
3. 白葡萄的Vc 、果穗质量、出汁率与果皮质量的含量有显著性差异,其余
各项均不显著,白葡萄的总黄酮与总糖含量对白葡萄酒质量影响最大;
4. 白葡萄的色泽与白葡萄酒的质量有显著性差异,其余各项均不显著,白葡萄的酒总黄酮含量对白葡萄酒的质量影响最大。
通过以上分析可得,与葡萄酒质量有显著性差异的指标数目远小于无显著差异的指标数目,故可以用葡萄和葡萄酒的理化指标来衡量葡萄酒的质量。
六、模型评价与推广
模型评价:
模型一中第一问应用了T 检验方便易操作,同时也因忽略数据的细微差别不够精确;第二问将可信度转化为相关性,分析问题较为明了。
模型二中通过排名序列相似度的比较,确定各项理化指标对葡萄酒总质量的影响,思路简单,易于理解。
模型三中先将葡萄的理化指标进行筛选,依据其对葡萄酒理化指标影响程度,使得数据更易处理;回归分析时对数据进行了多次拟合,使得结果更为合理可信;但回归分析的自变量过多,不易清晰的看出某个自变量与因变量的对应关系。
模型四中运用多重T 检验,将复杂问题清晰化,问题明了。 模型推广:
绿色食品是现在热门食品,对于食品原料的分类也显得尤为重要,模型二是对样品酿酒葡萄的等级划分,所以,模型二可以推广至对食品等原料的等级划 分。
参考文献
[1] 李春喜,王文林,生物统计学[M],北京:科学出版社,1997,209,227—230. [2] 薛毅,数学建模基础[M],北京:科学出版社,2011,399.
[3] 姜启源,谢金星,叶俊,数学模型[M],北京:高等教育出版社,2011. [4] 韩忠庚,数学建模方法及其应用[M],北京,:高等教育出版社,2005.
11
附录一:
12
13
14
附录二:
15
附录三:
1.1 求出各组评分与评酒员编号的相关系数:
xdiyi ydiyi r=[x,y]; a=zscore(r); R=cov(a)
p=10;q=10;n=27;%p,q为X,Y 的列数,n 为行数
R11=R(1:p,1:p);R12=R(1:p,p+1:p+q);R22=R(p+1:p+q,p+1:p+q);R21=R(p+1:p+q,1:p); [v1,d1]=eig(R11), [v2,d2]=eig(R22)
p1=inv(v1*sqrt(d1)*v1'); p2=inv(v2*sqrt(d2)*v2');
T1=p1*R12*inv(R22)*R21*p1; T2=p2*R21*inv(R11)*R12*p2; [va,da]=eig(T1),[vb,db]=eig(T2), A1=p1*va, B1=p2*vb, r=sqrt(sum(da))
3.1 找出对葡萄酒理化指标影响最大的部分葡萄酒指标:
azhi bzhi czhi
x=cat(1,a',b',c'); yzhi z=y';
for i=[1,2,3,4,5,6,7,8,9,16] for j=1:9
t(j)=sum((x(i)-z(j)).^2) end end
3.2 葡萄理化指标对葡萄酒理化指标拟合(以红葡萄酒的花色苷指标为例):
azhi bzhi czhi
x=cat(1,a',b',c');
16
yzhi z=y';
x=cat(2,x(:,5),x(:,2),x(:,3),x(:,6),x(:,4),x(:,5).^2,x(:,2).^2,x(:,3).^2,x(:,6).^2,x(:,4).^2, x(:,5).*x(:,2), x(:,5).*x(:,3),x(:,5).*x(:,6),x(:,5).*x(:,4),x(:,5).^3,x(:,2).^3,x(:,3).^3,x(:,6).^3,x(:,4).^3,x(:,5).^4,x(:,2).^4,x(:,3).^4,x(:,6).^4,x(:,4).^4); y=z(1,:)';
[b,bint,r,rint,stats]=regress(y,x)
17