模糊协方差学习矢量量化的茶叶品种分类研究

李 晓, 陈 勇, 梅武军, 武小红*, 冯亚杰, 武 斌

1. 江苏大学卓越学院, 江苏 镇江 212013 2. 江苏大学电气信息工程学院, 江苏 镇江 212013 3. 浙江大学台州研究院, 浙江 台州 317700 4. 滁州职业技术学院信息工程学院, 安徽 滁州 239000

茶叶作为全球的最受欢迎饮品之一, 在人们生活中占有重要地位。

茶叶具有丰富的营养成分, 如:
茶多酚、 茶色素、 茶多糖、 茶氨酸等, 应用于食品、 医学、 化工等多个领域。

从茶叶中提取的茶多酚具有良好的抗氧化性和抑菌活性, 利用这一特点可以用于食品保鲜领域, 满足健康绿色的发展理念[1]。

绿茶加工产生的黄酮醇和多糖等副产品可以阻止轻微细胞的脂质肠吸收和积累[2];

普洱茶里的碳水化合物通过抑制葡糖糖苷酶有降低血糖的功效。

随着茶叶市场的不断扩大, 出现了鱼龙混杂的现象。

此外, 目前鉴别茶叶主要是感官鉴别和化学分析法。

感官鉴别的评价者是根据自己的经验和判断来辨别茶叶的质量, 然而感觉器官容易受到外界的干扰, 主观性较强, 鉴别准确率有一定的局限性。

化学分析方法会对检测样本造成破坏且费时费力。

因此为了维护消费者的利益, 找到一种简单快速的鉴别方法尤为重要。

目前, 国内外诸多学者在茶叶检测方面取得了一定的研究成果。

Lin等提出利用多通道发光二极管诱导荧光系统, 并结合卷积神经网络的方法对茶叶品种进行分类[3];

通过电子鼻和电子舌收集的信息可以直接拼接融合进行定性和定量分析茶叶质量等级[4];

利用高效液相色谱-二极管阵列检测方法快速定量分析西湖龙井样本的十个主要成分[5];

王丽等利用高效液相色谱法建立不同种类的茶叶的指纹图谱, 采用指纹图谱的相似度软件对数据进行分析, 结果表明不同品种的茶叶样本能够有效的区分[6];

Li等采用荧光高光谱成像技术, 结合优化的支持向量机(support vector machines, SVM)模型进行快速无损的茶叶鉴别[7];

武小红等采用模糊非相关鉴别C均值聚类算法, 并结合近红外光谱技术实现快速有效的茶叶品种鉴别[8]。

Mishara等利用高光谱成像数据中的空间信息实现茶叶品种分类[9];

Bakhshipour等基于模糊决策树的计算机视觉系统, 将多种茶叶的图像信息引入到分类器中用于实现茶叶分类, 准确率高达95.0%[10]。

近些年来, 红外光谱技术因具有快速无损、 安全高效等特点, 在食品检测应用较为广泛[11-12]。

大多数化合物的基频吸收带出现在中红外区, 因此可以通过中红外光谱的吸收强度、 吸收峰值信息进行食品鉴别。

结合多种分类方法, 例如:
K近邻、 SVM、 人工神经网络、 决策树等进行食品的产地溯源、 真伪鉴定、 品种鉴定、 品质检测等。

Adenan等利用中红外衰减全反射结合数据处理有效地筛选出食用燕窝的结构掺杂物[13]。

Wei等提出氧化石墨烯的中红外光谱与化学计量学相结合的分类方法, 对12种普洱茶的品种进行鉴别, 可实现100%的品种分类准确率[14]。

本文提出了一种模糊协方差学习矢量量化, 采用基于模糊协方差矩阵的自适应距离测度, 对三类茶叶的中红外光谱数据进行分类, 并与模糊C均值聚类算法(fuzzy C-means clustering, FCM)[15], GK聚类[16], 模糊Kohonen聚类网络(fuzzy Kohonen clustering, FKCN)[17]算法的分类结果进行对比。

1.1 茶叶光谱数据采集

1.1.1 材料

试验样本均在四川省乐山市当地茶叶市场上购买, 包括峨眉山茶叶、 优质竹叶青茶叶、 劣质竹叶青茶叶, 每类样本各32份, 共96份。

1.1.2 光谱仪器与分析软件

采用配有高灵敏度DLATGS检测器和多层镀膜溴化钾分束器的FTIR-7600型傅里叶红外光谱分析仪。

开机预热1 h, 扫描32次, 扫描波数4 001~401 cm-1, 扫描间隔为1.928 cm-1, 分辨率为4 cm-1。

将购买的茶叶经研磨粉碎, 再用40目筛进行过滤后, 各取0.5 g分别与溴化钾1∶100均匀混合;

每个样本取混合物1 g进行压膜, 然后用光谱仪扫描3次, 为减小误差, 取3次的平均值作为样本光谱数据。

采集光谱时环境温度和相对湿度保持相对稳定, 最终得到三类茶叶样本, 每类含32个傅里叶中红外光谱数据, 共96个样本。

1.1.3 光谱数据处理

由于样本颗粒不均匀以及样本大小、 仪器的噪声等都会对采集到的光谱数据产生一定的影响, 因此利用多元散射校正(multiplicative scattering correction, MSC)对采集到的数据进行相应处理。

茶叶数据维数较高, 包含大量的冗余信息, 通过主成分分析(principal component analysis, PCA)提取其大量有效信息, 从而减小建模的难度。

在PCA处理之后, 为了提高数据之间的区分度, 使不同种类的数据投影点尽可能远离, 故采用线性判别分析(linear discriminant analysis, LDA)对数据进一步处理。

1.2 模糊协方差学习矢量量化(fuzzy covariance learning vector quantization, FCLVQ)

在GK聚类和学习向量量化(learning vector quantization, LVQ)的基础上设计了一种模糊协方差学习矢量量化, 该算法步骤描述如下:

(1) 初始化参数:
设置品种数c=3;

初始权重指数m0=2;

最大迭代数rmax=100;

误差上限值ε=0.005 ;

测试样本数n2=66;

初始类中心设置为FCM算法运行后的聚类中心VFCM, 并将样本与该聚类中心的欧式距离进行式(1)运算, 求得初始模糊隶属度矩阵U0

(1)

式(1)中,uik, 0表示算法开始运行时第k(k=1, 2, …,n2)个样本xk对第i(i=1, 2, …,c)类的模糊隶属度,Dik, 0表示样本xk到第i类聚类中心的初始欧氏距离。

(2) 计算第i类数据的模糊协方差矩阵Sfi, r

(2)

式(2)中,r为迭代次数;
mr-1为第r-1次迭代的权重指数,uik, r-1表示算法第r-1次迭代时样本xk对第i类的模糊隶属度,vi, r-1表示第r-1次迭代时第i类的类中心。

(3) 计算第i个聚类中心的范数矩阵Ai, r

(3)

式(3)中,d为测试样本的维数。

(4) 计算第r次迭代时的距离范数Dik, r

(4)

(5) 给定权重指数的变化量

(5)

(6) 更新第r次迭代时的权重指数mr

mr=m0-rΔm

(6)

(7) 更新模糊隶属度值uik, r

(7)

(8) 计算学习速率αik, r

αik, r=(uik, r)mr

(8)

(9) 更新聚类中心vi, r

(9)

(10) 定义迭代误差限Er

Er=‖vi, r-vi, r-1‖

(10)

(11) 当Er<ε或r>rmax时, 停止迭代, 并记录最终模糊聚类中心Vf与模糊隶属度矩阵Uf;

否则令Vr-1=Vr,Ur-1=Ur, 返回步骤(2)继续迭代运算。

当迭代停止后, 根据最终的模糊隶属度uik, r, 若uik为uk中最大值, 则判定样本xk属于第i类。

2.1 中红外光谱数据的预处理

将96个样本分为训练集与测试集。

训练集共3类, 每类10个样本;

测试集共3类, 每类22个样本。

在采集茶叶样本的光谱数据时, 散射水平的差异以及周围的环境因素将产生光谱噪声、 基线漂移等。

为了有效地消除噪声影响, 增强与组分含量相关的光谱吸收信息, 利用MSC对得到的初始中红外光谱数据进行预处理。

由于不同类别光谱数据特征信息的区分度直接体现在光谱的吸收率上, 最终发现不同类别的茶叶光谱吸收率上存在明显差异, 故有效利用该差异提取茶叶光谱数据的特征鉴别信息对于茶叶分类有重要意义。

2.1.1 中红外光谱的主成分分析

由于中红外光谱数据维数为1 868, 包含大量的冗余信息和噪声, 大大增加了建模的难度, 因此采用主成分分析对数据进行降维, 降维后数据的主成分得分图如图2。

根据主成分个数不同, 计算出其累计贡献率大小, 图1指出当数据维数降至14维时, 14个主成分的贡献率达到了99.74%。

图1 主成分的累计贡献率Fig.1 Cumulative contribution rate of principal components

图2 主成分得分图Fig.2 Principal component score plot

由主成分得分图可以看出三种茶叶重叠度较高, 难以仅根据图像进行分类, 因此采用线性判别分析对数据提取特征鉴别信息。

2.1.2 中红外光谱的线性判别分析

由于测试集数据用于最终准确率的计算, 故此处对训练集数据进行LDA算法提取鉴别信息。

在使用LDA提取特征的过程中, 选取两个特征鉴别向量, 使得各类样本在特征空间中的投影满足类间距离最大, 类内距离最小, 以提高数据分类的准确率。

将测试集数据投影到二维特征空间后样本分布如图3所示。

三类茶叶区分度较高, 为后续茶叶品种的识别奠定了良好的基础。

图3 线性判别分析后的数据Fig.3 Data processed by LDA

2.2 聚类分析

2.2.1 模糊聚类相关参数的初始化

通过主成分分析和线性判别分析对数据处理后, 分别采用FCM, GK, FKCN和FCLVQ算法对66个测试样本进行聚类, 比较其准确率。

由于四种聚类算法均为迭代运算, 故对参数进行初始化:
设置类别数c=3;

初始权重指数m0=2;

最大迭代次数rmax=100;

误差上限值ε=0.005。

首先运行FCM算法得到其最优聚类中心VFCM与模糊隶属度矩阵UFCM, 将VFCM作为FKCN与FCLVQ的初始聚类中心, 同时将VFCM代入式(1)求得矩阵U0作为GK, FCLVQ算法的初始模糊隶属度矩阵。

2.2.2 模糊隶属度值的计算与分类结果

分别运行FCM, GK, FKCN和FCLVQ算法, 在满足迭代停止条件后终止计算, 得到模糊隶属度矩阵UFCM,UGK,UFKCN,UFCLVQ。

根据模糊隶属度判断样本所属类别, 例如:
若uik, FCLVQ为uk, FCLVQ中最大值, 则FCLVQ算法将样本xk归属于第i类。

FCM, GK与FKCN算法的分类准确率分别为90.91%, 90.91%, 92.42%;

而FCLVQ算法的分类准确率达到了95.45%。

模糊隶属度值如图4所示, 其中(a), (b), (c), (d)分别表示FKCN, GK, FCM和FCLVQ算法。

图4 四种模糊聚类算法的模糊隶属度值Fig.4 Fuzzy membership values of four fuzzy clustering algorithms

2.2.3 权重指数m对算法准确率的影响

当权重指数m发生变化时模糊聚类的准确率也会发生变化。

对权重指数m进行从2变到8时的变化, 从表1中可以发现当m由2变为3时, FCM、 GK聚类、 FKCN三种算法准确率均得到了改善;

当m由3变化到6时, 四种聚类算法的准确率均没有发生变化, FCM和FKCN两种算法的准确率均保持92.42%, GK聚类和FCLVQ两种算法准确率保持在95.45%;

当m继续增大至8时, 除了FKCN之外的三种算法的准确率均有所下降。

特别地, 当m从7增大到8时, FCM和FCLVQ两种算法的准确率发生骤然下降, 说明当m值增大到一定值时, 算法的误差就会增大, 所以m的取值对于样本种类的识别起着重要的作用。

当m在2~7之间变化时, 四种算法的准确率均基本高于90%, 模糊协方差学习矢量量化的准确率高达95.45%, 说明主成分分析与线性判别分析结合四种聚类算法是一种比较好的鉴别茶叶种类的方法, 可以有效地实现茶叶品种的分类。

表1 不同m时各算法分类准确率Table 1 Classification accuracy of each algorithm at different m-values

2.2.4ε值对算法准确率的影响

在程序运行的过程当中, 随着误差上限ε约束的松弛程度不同, 算法的迭代次数也会相应发生变化, 从而导致模糊隶属度的变化。

研究了ε介于0.000 05~0.001 65之间, 步长为0.000 1情况下FCM, GK, FKCN, FCLVQ算法的分类准确率的变化, 其结果参见图5。

图5 不同ε时各算法分类准确率Fig.5 Classification accuracy of each algorithm at different ε-values

获取三类不同品种茶叶的光谱数据后, 先后使用MSC, PCA, LDA对数据进行预处理, 较好地对数据进行了降噪, 降维与特征鉴别信息提取。

最后选择了合适的初始化参数后, 利用提出的FCLVQ聚类算法对数据进行聚类分析, 并与FCM聚类, GK聚类, FKCN聚类算法的分类效果进行对比。

结果表明:
MSC, PCA, LDA结合FCLVQ算法有着更好的分类效果。

例如:
在权重指数m=2,ε=0.005的情况下对茶叶中红外光谱数据的分类准确率为95.45%, 故FCLVQ算法可以被用来进行茶叶的品种鉴别。

猜你喜欢协方差红外光谱基于三维Saab变换的高光谱图像压缩方法北京航空航天大学学报(2022年8期)2022-08-31网红外卖环球时报(2022-05-23)2022-05-23闪亮的中国红外『芯』金桥(2021年4期)2021-05-21TS系列红外传感器在嵌入式控制系统中的应用电子制作(2019年7期)2019-04-25用于检验散斑协方差矩阵估计性能的白化度评价方法雷达学报(2017年3期)2018-01-19多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性华东师范大学学报(自然科学版)(2017年1期)2017-02-27基于快速递推模糊2-划分熵图割的红外图像分割光学精密工程(2016年3期)2016-11-07二维随机变量边缘分布函数的教学探索考试周刊(2016年54期)2016-07-18不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器自动化学报(2016年8期)2016-04-16星载近红外高光谱CO2遥感进展中国光学(2015年5期)2015-12-09

推荐访问:协方差 矢量 量化