葡萄酒理化指标分析与质量评价
2014-08-20 23:35阅读:
葡萄酒理化指标分析与质量评价
摘要
现行的确定葡萄酒质量的一般方法是通过评酒员评分判定,本文在分析评酒员评分差异性和可靠性基础上,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,分析酿酒葡萄与葡萄酒的理化指标之间的联系以及对葡萄酒质量的影响,最后尝试用葡萄和葡萄酒量化的理化指标来评价葡萄酒的质量。从而得到了一种基于葡萄和葡萄酒量化的理化指标而非基于人的感官评定的新的葡萄酒质量评价方法。
对于问题一,首先采用T检验评酒员评分进行显著性差异检验,t检验是戈斯特为了观测酿酒质量而发明的。用QQ图和KS检验验证评酒员评分符合正态分布,基于此前提采用双总体配对样本T检验,发现红白葡萄酒评分显著性水平小于0.05,说明两组评分都存在显著性差异。基于置信区间长度与可信度成负相关关系进行评分可靠性检验,利用MATLAB中的T检验函数求取置信区间长度,无论是对红葡萄还是白葡萄的评分,第二组评酒员评分的置信区间都明显小于第一组评酒员,说明第二组评酒员的评分更为可信。
对于问题二,酿酒葡萄的理化指标众多,进行数据处理时,应先进行主成分分析,利用降维后的结果进行聚类。根据葡萄理化指标采用k均值法对葡萄聚类,再根据此类别葡萄酒平均得分进行等级判定。最终建立了一个以葡萄酒评分为主、葡萄理化指标为辅的葡萄分级模型。最终确定了红葡萄分为四个等级,白葡萄分为5个等级,分级结果见表十、表十一。
对于问题三,可分为分析酿酒葡萄与葡萄酒的相同理化指标之间、不同理化指标之间以及芳香物质之间的联系三部分。通过曲线拟合可知相同理化指标明显呈正相关关系。第二问主成分分析已得出红葡萄理化指标中的总酚、花色苷、单宁三种成分起主要作用,红葡萄酒指标中总酚、花色苷、酒总黄酮、DPPH
半抑制面积、单宁、色泽(
L*)起主要作用。白葡萄理化指标中的干物质含量、可溶性固形物、总糖三种起主要作用,白葡萄酒指标中单宁、总酚、
DPPH半抑制体积起主要作用。应用这些筛选出的起主要作用的理化指标进行相关关系分析,得到的相关系数表,发现红葡萄与红葡萄酒不同指标之间相关性较强,白葡萄与白葡萄酒不同指标之间相关性较差,葡萄及葡萄酒中抽取的起主要作用的芳香物质不相同,由此我们可以推测可能是葡萄酿制葡萄酒时芳香物质发生了化学变化。
对于问题四,建立多元线性回归分析模型分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,应当先剔除酿酒葡萄中与葡萄酒指标相关性强的指标,利用逐步进入法得到红白葡萄酒的线性回归方程见(18)(19)
,葡萄酒质量80.3%可由葡萄与葡萄酒理化指标解释,说明葡萄和葡萄酒的理化指标能够在80.3%的程度上评价葡萄酒的质量。
关键词:配对样本T检验
主成分分析 k均值聚类 多元线性回归
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1.
分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、问题分析
(1)针对问题一,要对评酒员的评价结果进行显著性差异检验可以采用T检验,T检验是戈斯特为了观测酿酒质量而发明的,由于T检验的前提是样本数据符合正态分布,所以首先进行葡萄酒评分的正态分布检验。可采用QQ图检验,并利用KS检验验证,若得到葡萄酒评分数据符合正态分布,接下来,利用双总体配对T检验进行两组评分的差异性检验,在统计学中,可取显著水平α=0.05.若P>0.05,则差异不显著;若P<0.05,则差异显著。然后进行两组评分的可靠性分析,置信区间长度与可信度成负相关关系。利用matlab中的T检验函数求取置信区间长度,则置信区间长度短的一组更为可信。
(2)针对问题二,要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,可采用逆向思维,利用葡萄酒的质量(即葡萄酒的评分)对葡萄分级,同时必须综合葡萄理化指标对葡萄分级,因此,我们应建立一个综合葡萄酒评分、葡萄理化指标两个因素的葡萄分级模型。首先,根据葡萄理化指标采用k均值法对葡萄聚类,划分为合适的类别,再根据此类别葡萄酒平均得分进行等级判定。
酿酒葡萄的理化指标众多,进行数据处理时,应先进行主成分分析,利用降维后的结果进行聚类。同时可根据主成分分析出的成分矩阵,可得出葡萄理化指标影响较大的指标,为下一步的分析做铺垫。
(3)针对问题三,分析酿酒葡萄与葡萄酒的理化指标之间的联系,可分为分析酿酒葡萄与葡萄酒的相同理化指标之间、不同理化指标之间以及芳香物质之间的联系三部分。选取影响较大的典型理化指标,对葡萄与葡萄酒相同理化指标的相关关系分析,做出拟合曲线,观察相同理化指标是否明显呈正相关关系。对于不同理化指标,应用第二问筛选出的其主要作用的理化指标进行相关关系分析,得到的相关系数即可反映酿酒葡萄与葡萄酒的不同理化指标之间的联系。此外还应对葡萄和葡萄酒芳香物质理化关系进行研究,芳香物质数据量大,首先进行数据预处理,进行主成分分析,选出对第一主成分影响较大的芳香物质指标,然后进行相关关系分析。
(4)要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,应当先剔除酿酒葡萄中与葡萄酒指标相关性强的指标,因为这些指标涵义是重复的,接下来进行多元线性回归分析。
三、模型假设与约定
1.
假设题目给出的各组数据真实可信,不考虑人为因素,具有统计、预测意义;
2.
假设两组评酒师评分相互独立;
3.
从作为原材料的葡萄到品酒师手里的酒需经过工艺酿造等过程,可能出现好葡萄酿不出好酒的情况;
4.
芳香物质未检测到说明该物质含量为0
四、符号说明及名词定义
符号名称
|
符号涵义
|
第一问
|
n
|
样本含量
|
σ
|
总体标准差
|
,
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
两样本平均数
|
,
|
两样本方差
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
相关样本的相关系数
|
α
|
显著水平
|
sig
|
显著性值
|
第二问主成分分析
|
,
…
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
相关性指标
|
p
|
相关性指标个数
|
,
…
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
不相关的指标(主成分)
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
主成分个数
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
相关系数
|
R
|
相关系数矩阵
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
相关系数矩阵特征值
|
|
特征向量
|
第二问聚类分析
|
k
|
中心个数
|
n
|
对象个数
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
簇的平均值点
|
p
|
给定的数据点
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
簇
|
第四问
|
y
|
因变量(被解释变量)
|
,
,…
|
自变量(解释变量)
|
k
|
自变量个数
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
回归常数
|
…
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
回归系数
|
SSE
|
残差平方和
|
残差平方和
|
回归平方和
|
SST
|
总离差平方和
|
R
|
负相关系数
|
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
|
判定系数
|
五、 模型建立与模型求解
问题一
由于T检验的前提是样本数据符合正态分布,所以首先进行葡萄酒评分的正态分布检验。
5.1.1葡萄酒评分的正态分布检验
针对葡萄酒的正态分布我们采用Q-Q图检验,得到葡萄酒评分数据符合正态分布,并利用KS检验验证,结果与Q-Q图检验结果一致。
Q-Q图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图.
要利用QQ图鉴别样本数据是否近似于正态分布,只需看Q-Q图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.
用Q-Q图还可获得样本偏度和峰度的粗略信息.
本文利用SPSS中Q-Q图检验得到:
图一
第一组品酒师对红葡萄酒评分正态QQ-图
图二
第二组品酒师对红葡萄酒评分正态Q-Q图
![葡萄酒理化指标分析与质量评价 葡萄酒理化指标分析与质量评价]()
图三
第一组品酒师对白葡萄酒评分Q-Q图
图四
第二组品酒师对白葡萄酒评分Q-Q图
由图可知,QQ图上的点是否近似地在一条直线附近,说明葡萄酒评分数据符合正态分布。
KS检验结果如下:
表一
红葡萄酒KS检验结果
表二
白葡萄酒KS检验结果
利用KS检验验证,结果与QQ图检验结果一致,说明葡萄酒评分数据确实符合正态分布。
5.1.2显著性差异检验[1]
本文采用T检验进行显著性差异检验,T检验,亦称student
t检验,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。t检验是戈斯特为了观测酿酒质量而发明的。针对本题,应采用双总体配对样本t检验。
T检验公式为:
(1)
,
为两样本平均数,
,
为两样本方差,
为相关样本的相关系数。
在统计学中,可取显著水平α=0.05.若P>0.05,则差异不显著;若P<0.05,则差异显著。
利用SPSS,配对样本t检验得到:
表三 红葡萄酒成对样本t检验
表四
白葡萄酒成对样本t检验
由表三可知,对于红葡萄酒的评价,表中均值为2.5407,第一组评分均值要高于第二组评分均值,sig为0.021<0.05。说明有显著性差异。
由表四可知,对于白葡萄酒的评价,表中均值为-2.2714,第一组评分均值要低于第二组评分均值,sig为0.038<0.05。说明有显著性差异。
5.1.3可靠性分析
置信区间长度与可信度成负相关关系。利用matlab中的T检验函数求取置信区间长度,得到的结果如下表所示
项目
|
置信区间
|
置信区间长度
|
第一组对红葡萄酒的评分
|
(70.1509
75.9602)
|
5.8093
|
第二组对红葡萄酒的评分
|
(68.9412
72.0885)
|
3.1473
|
第一组对白葡萄酒的评分
|
(72.2439
76.2775)
|
4.0336
|
第二组对白葡萄酒的评分
|
(75.3026
77.7617)
|
2.4591
|
表五 两组评酒师评分置信区间表
由表五得,无论是对红葡萄还是白葡萄的评分,第二组评酒员评分的置信区间都明显小于第一组评酒员,说明第二组评酒员的评分更为可信。
问题二
酿酒葡萄的理化指标众多,进行数据处理时,应先进行主成分分析。
5.2.1主成分分析[2]
基本原理
主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
设F1表示原变量的第一个线性组合所形成的主成分指标,即
,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1,
F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2……XP第一、第二、……、第m个主成分。
(2)
根据以上分析得知:
(1)
Fi与Fj互不相关,即Cov(Fi,Fj)
=
0,并有Var(Fi)=ai’Σai,其中Σ为X的协方差阵
(2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,……,即Fm是与F1,F2,……,Fm-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。
F1,F2,…,Fm(m≤p)为构造的新变量指标,即原变量指标的第一、第二、……、第m个主成分。
计算步骤如下:
样本观测数据矩阵为:
(3)
第一步:对原始数据进行标准化处理
(4)
其中
(5)
第二步:计算样本相关系数矩阵
(6)
为方便,假定原始数据标准化后仍用
表示,则经标准化处理后的数据的相关系数为:
(7)
第三步:用雅克比方法求相关系数矩阵
的特征值(
)和相应的特征向量
。
第四步:选择重要的主成分,并写出主成分表达式
主成分分析可以得到
个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取
个主成分,而是根据各个主成分累计贡献率的大小选取前
个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即
贡献率=
(8)
贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数
的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。
第五步:计算主成分得分
根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下。
(9)
模型求解与分析:
对于红葡萄品种,选定32个一级理化指标。利用spss进行主成分分析,得到8个主成分,累计贡献率可达82.601%,对于白葡萄品种,选定30个一级指标,利用spss进行主成分分析,得到10个主成分,累计贡献率可达83.516%,选定解释总方差如下:
表六 红葡萄主成分分析解释总方差
成分分类
|
成分一
|
成分二
|
成分三
|
成分四
|
成分五
|
成分六
|
成分七
|
成分八
|
方差%
|
23.421
|
14.713
|
12.227
|
9.523
|
7.698
|
5.902
|
4.961
|
4.156
|
累计贡献率%
|
23.421
|
38.134
|
50.361
|
59.884
|
67.582
|
73.484
|
78.445
|
82.601
|
表七 白葡萄主成分分析解释总方差
成分分类
|
成分一
|
成分二
|
成分三
|
成分四
|
成分五
|
成分六
|
成分七
|
成分八
|
成分九
|
成分十
|
方差的%
|
19.434
|
16.422
|
12.102
|
6.935
|
6.297
|
5.516
|
5.077
|
4.266
|
4.127
|
3.340
|
累计贡献率%
|
19.434
|
35.856
|
47.958
|
54.893
|
61.190
|
66.705
|
71.782
|
76.049
|
80.175
|
83.516
|
表八 红葡萄第一成分主要影响指标
第一主成分中的主要影响指标
|
总酚
|
花色苷
|
单宁
|
影响系数
|
0.861
|
0.848
|
0.735
|
表九 白葡萄第一主成分主要影响指标分布表
第一主成分中的主要影响指标
|
干物质含量
|
可溶性固形物
|
总糖
|
影响系数
|
0.835
|
0.802
|
0.756
|
由表八得,红葡萄中第一主成分中总酚、花色苷、单宁系数分别0.861、0.848、0.735,为系数最大的前三种指标,说明红葡萄理化指标中的总酚、花色苷、单宁三种成分起主要作用。
用分析出来的8种主成分代替原来的32个指标,即对数据进行了降维处理。
由表九得,白葡萄中第一主成分中干物质含量、可溶性固形物、总糖系数分别0.835、0.802、0.756为系数最大的前三种指标,说明白葡萄理化指标中的干物质含量、可溶性固形物、总糖三种成分起主要作用。
用分析出来的10种主成分代替原来的30个指标,即对数据进行了降维处理。
5.2.2聚类分析
本文采用K-平均算法对葡萄理化指标进行聚类分析,根据降维后的指标值聚类,然后,根据葡萄聚类结果综合本类葡萄对应的评酒师评酒得分,进行等级评定。
k-平均算法以 k
为参数,把 n
个对象分为 k 个簇,
使簇内具有较高的相似度,
而簇间的相似度较低,
相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行。[]
K均值法工作原理如下:
1) 随机选择 k
个对象,
他们分别代表一个簇的平均值或中心.
2) 计算每个对象与 k
个中心距离,
然后将它们划到距离最近的簇.
3) 计算每个簇的平均值,
重新确定每个簇的中心
4)
重复步骤2和步骤3,直到准则函数收敛
k-平均算法尝试找到是平方误差函数值最小的 k
个划分.
它对处理大数据是相对可伸缩的和高效率的, 它的复杂度为
O(nkt)。
k-平均算法的准则函数通常采用平方误差函数:
(10)
其中p是给定的数据点,
是簇
的平均值点(重心).
模型求解与分析
我们查阅资料,发现酿酒葡萄等级划分没有一般性的公认的标准,也就说明是本题等级数要根据红白葡萄的理化指标的实际情况进行划分。我们参考其他领域等级划分原则发现,等级划分必须反映事物梯度,有较好的区分度,同时,作为一般性的面向公众的标准,划分等级不能过于繁琐,也就是说等级数不宜过多,结合本题红白葡萄27、28个样本,我们将等级数限定在3、4、5个。
我们分别比较了等级划分为3、4、5个时,红白葡萄酒的分类结果,最终选定了红葡萄酒划分为4类,白葡萄酒划分为5类,如下表:
等级
|
红葡萄样品序号
|
平均值
|
最大值
|
最小值
|
等级A
|
1、5、14、16、20、21、22、23、26
|
72.37777
|
77.1
|
68.1
|
等级B
|
2、3、9、11
|
72.1
|
78.2
|
61.6
|
等级C
|
4、6、7、8、12、13、15、17、18、19、24、27
|
68.925
|
74.5
|
65.3
|
等级D
|
10、25
|
68.5
|
68.8
|
68.2
|
表十 红葡萄酒等级划分表
等级
|
白葡萄样品序号
|
平均值
|
最大值
|
最小值
|
等级A
|
4、9、11、17、22、23、26、28
|
77.4625
|
80.4
|
74.3
|
等级B
|
27
|
77
|
77
|
77
|
等级C
|
1、5、10、13、16、20、21
|
76.6
|
81.5
|
67.3
|
等级D
|
6、7、8、14、18、24、25
|
75.9143
|
79.5
|
72.3
|
等级E
|
2、3、12、15、19
|
75.72
|
78.4
|
72.4
|
表十一 白葡萄酒等级划分表
对于红葡萄样品,根据我们的聚类结果,我们可以将红葡萄样品分成四个等级,分别为等级A、B、C、D,每个等级的平均值、最大值、最小值差异较为明显,其中平均值成显著性的上升趋势,表现出明显的优劣状况,平方误差函数值为94.17,较为理想,所以我们以此为依据将红葡萄样品分级,等级A中的红葡萄最好,等级D中的红葡萄最差,分级效果较为理想。
根据葡萄的理化指标进行聚类,再根据葡萄酒的得分进行等级评定,也就是说分类综合了葡萄的理化指标与葡萄酒的得分情况,在一定程度上保持一致,但葡萄的理化指标与葡萄酒的得分并不是一一对应的,这也验证了假设3从作为原材料的葡萄到品酒师手里的酒需经过工艺酿造等过程,可能出现好葡萄酿不出好酒的情况。