ICA的近红外光谱分析软件的研制
第21卷第1期2010年3月
中国计量学院学报
JournalofChinaUniversityofMetrologyVol.21No.1Mar.2010
=文章编号> 1004-1540(2010)01-0042-04
ICA的近红外光谱分析软件的研制
方利民,林 敏
(中国计量学院计量测试工程学院,浙江杭州310018)
=摘 要> 研制了基于独立分量分析方法的近红外光谱分析软件.该软件包括光谱解析、光谱建模和未知成分含量测定三个模块,使用了小波分析、ICA和BP神经网络等数据处理方法.将这种软件用于实测的玉米近红外光谱分析,所得结果令人满意.使用LabVIEW与MATLAB软件混合编程,充分利用了各软件的优点,不仅程序简单,而且界面友好.
=关键词> 独立分量分析;近红外光谱;神经网络;软件研制=中图分类号> O657.33 =文献标识码> A
Developmentofnear-infraredspectroscopyanalysissoftware
basedonindependentcomponentanalysis
FANGL-imin,LINMin
(CollegeofMetrologyandMeasurementEngineering,ChinaJiliangUniversity,Hangzhou310018,China)
Abstract:Anear-infraredspectroscopy(NIR)analysissoftwarebasedonthealgorithmofindependentcomponentanalysis(ICA)wasdeveloped.Thesoftwarewasconsistedofthreemainmodules,whichwerethespectrumresolution,themodelingandthepredictingofthecontentofingredientsinunknownsamples.Thedataprocessingmethodsofwaveletanalysis,ICAandBPneuralnetworkswereusedinthesoftwareforNIRanalysis.ThesoftwarewasusedtoanalyzethemeasuredNIRdataofcornsamples,andtheresultsweresatisfactory.ThemethodofmixedprogrammingusingLabVIEWandMATLABisadoptedforthefulluseoftheadvantagesofthem,andthesoftwarehassimpleprocedureswithafriendlyinterface.
Keywords:independentcomponentanalysis;nearinfraredspectroscopy;neuralnetwork;softwaredevelopment
近红外光谱分析具有快速、无损、便携、现场、多组分同时分析的特点,涉及农业、食品品质安全、化工、石油、药学、环境、生物等多领域中的应用.软件是近红外光谱技术的重要组成部分,通常
=收稿日期> 2009-08-27
由仪器控制软件和化学计量学软件组成.其中仪
器控制软件负责控制仪器的硬件,进行光谱采集、查看和简单的信号处理.化学计量学软件则负责建立化学计量学模型,将光谱与组成(性质)数据
第1期方利民,林 敏:ICA的近红外光谱分析软件的研制43
关联起来,一般化学计量学软件具备光谱数据预处理、校正模型的建立与未知样品的预测等几个部分功能[1].
现行常用的化学计量学方法主要包括多元线性回归法(MLR)、偏最小二乘法(PLS)、主成分回归(PCR)、人工神经网络法(ANN)等[2],已在功能齐全、各具特色的商品化学计量学软件中广泛应用,包括通用的化学计量学软件(如CAMO公司的Unscrambler等)和专用的化学计量学软件(如Foss公司的WINSI,ThermoNicolet的TQAnalyst等)
[1]
A=MI(3)
ICA根据此模型,将每个样品的近红外光谱作为m个独立成分的线性组合.Al@n是l个样品在n个波长处的近红外光谱数据矩阵,Im@n是独立成分矩阵,在理想的分解状态下相当于纯物质的光谱数据矩阵,Ml@m是混合系数矩阵(也叫贡献度矩阵),它与纯物质在混合样品中的浓度有关.
ICA算法应用于NIR的解析可归结为以下几个过程:
1)对光谱数据矩阵进行ICA分解.使用ICA算法(如FastICA,JADE等[15])计算独立成分矩阵Ic和相应的混合系数矩阵Mc.
2)校正模型的建立.建立C与Mc之间的数学模型,可分为线性方法和非线性方法.线性方法即使用多元线性回归,类似与PCR,即:C=McB,
+
计算回归系数B=M+cC,Mc为Mc的pseudo逆.
.鉴于近红外光谱本身的解析
难点,如包含信息强度低等,越来越多新兴的化学
计量学方法正被应用于光谱的解析、建模[3-6].
独立分量分析(independentcomponentana-lysis,ICA)是近年发展起来的一种全新的数据分析工具,是解决盲源分离问题的一种有效的方法.自20世纪90年代出现,ICA方法已经在特征提取、生物医学信号处理、语音信号处理、图像处理及人脸识别等方面得到了广泛的应用,在分析化学领域也逐渐显示了它的强大作用[7-13].常见通用的和专用的化学计量学软件已经把一些基本的化学计量学方法对于一些新出现的方法还没能够加以整合开发.本文对ICA方法的基本理论和在近红外光谱分析应用进行说明,并在此基础上开发基于ICA的近红外光谱分析软件。
若系统本身具有非线性特征,则需进行非线性回归,常用的有神经网络方法、支持向量机等.
3)预测集样本浓度Cp的预测.首先,由Ic和Ap计算预测集样本数据的混合矩阵Mp=ApI+c,I+c为Ic的pseudo逆.其次,将Mp作为(3)所建模型的输入,计算Ap所对应的浓度信息Cp.比如线性方法所预测浓度Cp=MpB=MpMcC.
4)相应评价指标的建立.常用的评价指标有校正集标准偏差(SEC),预测集标准偏差(SEP),预测均方根误差(RMSEP)和相关系数(R)等.
ICA分解的化学含义:混合光谱矩阵A经分解后,所得I的每一行相当于一种统计独立成分(ICi)的光谱,该独立成分在混合光谱中的相对浓度信息,在混合矩阵M中得以体现,即M的每一列可以被认为是某一独立成分(IC)光谱在混合光谱中的权重大小,代表该IC对整个采样样品NIR光谱的贡献.因此,混合矩阵M与浓度矩阵C之间存在一定的函数关系.1.3 基于神经网络的建模分析
在实际工作中,近红外吸收光谱参数与样品含量化学测定值之间具有一定的非线性,特别是当样品的含量范围较大时,其非线性较明显.另外,由于体系中各组分的相互作用、仪器的噪声及基线漂移等原因,也会引起非线性现象.因此,必须针对分析,.+
1 基于ICA的NIR分析
1.1 ICA原理
不考虑噪声项n(t),ICA的基本模型为:x=As(1)
它表示被观察到的数据x是由独立成分sj(j=1,,,N)混合而产生的.独立成分sj是隐藏的变量,意味着它不能直接被观察到,而且混合矩阵也是未知的.所有能观察到的仅仅只是随机向量x,必须估计出A和s,而且必须在尽量少的假设条件下完成它.
ICA是实现盲源分离的其中一种,也是被应用最为广泛的方法.如果能计算出A的逆W,这样独立成分s的估计y可由下式得到:y=Wx
1.2 基于ICA的NIR模型
[14]:
(2)
44中 国 计 量 学 院 学 报第21卷
工神经网络方法(artificialneuralnetworks,ANN)是很好的选择,本文考虑使用三层BP神经网络,建立ICA-NNR近红外分析软件。
VIEW中使用MATLAB强大的数值计算功能,但
这种方法不能脱离MATLAB的环境,而只是将它在后台执行.
将核心算法程序,包括小波压缩、ICA算法(FastICA、JADE)、神经网络算法等在MATLAB中实现,写入脚本节点,在LabVIEW中调用实现.该系统包括三个主要模块:近红外光谱解析、光谱建模分析和成分含量预测分析,详细的功能划分,如图1.
2 软件的开发
2.1 LabVIEW和MATLAB
LabVIEW是美国国家仪器公司(nationalinsturment,NI)的软件产品,是一种基于图形编程语言(G语言)的开发环境[16].从简单的仪器控制、数据采集到工程控制和工业自动化系统,LabVIEW都得到了广泛的应用.将LabVIEW软件平台应用到光谱仪器的设计中,加速了仪器的开发,便于仪器的升级改造.
化学计量学方法的实现往往比较复杂,其数据对象通常是矩阵和向量,具体计算涉及到矩阵的乘积、转置、求逆等.MATLAB是Mathworks公司开发的一种主要用于数值计算及可视化图形处理的高级计算语言[17].它将数值分析、矩阵计算、图形、图象处理和仿真等诸多功能集成在一个极易使用的交互式环境之中,为科学研究、工程设计及数据处理和数值计算提供了一种高效率的编程工具.因此,如果把LabVIEW设计软件平台与MATLAB相结合使用,充分利用LabVIEW图形化设计语言的优点和MATLAB的强大数据处理能力,无疑将使开发的虚拟仪器具有功能更强大的数据处理能力.这也正是光谱分析软件所需要的.
2.2 软件的开发
本文采用LabVIEW8.2和MATLABR2008a软件开发基于盲信号处理技术的近红外光谱分析仪.盲信号核心算法的实现用MATLAB来完成,再用LabVIEW来做虚拟仪器的界面,从而完成基于盲信号处理技术的快速近红外光谱分析软件.该系统由近红外光谱解析、光谱建模分析和成分含量预测分析三大功能模块构成,主要实现基于盲信号的ICA-NNR算法用于近红外光谱的解析与建模.
LabVIEW提供了MATLAB脚本节点(MatlabScriptNode)来调用MATLAB语言编写的程序,以实现LabVIEW和MATLAB的接口,这实际上就是使用ActiveX控件与Matlab
图1 软件功能划分Figure1 Functionofsoftware
3 实测数据处理
将本软件用于实测数据的分析,所用数据为
Cargill公司提供的80个玉米样品的近红外光谱数据及其对应的淀粉、水、脂肪和蛋白质含量值.光谱范围为1100~2498nm,波长点数700.将80个玉米样品划分为训练样品集、验证样品集和测试样品集,其中验证样品集和测试样品集从80个样品中均匀选取1/8而生成,余下的60个作为训练样品集.
所用3层BP神经网络的传递函数分别用tansig函数和purelin函数,优化学习算法选用的是Levevberg-Marquardt学习算法.模型预测过程中,以均方根误差(RMSEP)和相关系数(R)的大小作为模型预测准确度的评价.RMSEP的数值越小,R越大,模型的预测准确度越高.软件相关参数的设置和相应的结果指标如表1.软件分析的三个主界面,如图2.
[14]
第1期方利民,林 敏:ICA的近红外光谱分析软件的研制
表1 软件用于玉米中成分分析的参数设置和结果指标
45
Table1 Parametersettingsandresultindexesofthesoftwareforanalyzingtheingredientsincornsample
参数设置
被分析成分数小波分解层数小波母函数ICA分解的独立成分数BP网络中间隐层神经元数
43db2107
小波分解RMS/%
相关系数R预测均方根误差RMSEP未知样品预测残差
结果指标0.1880.9890.0550.003
0.8790.0830.006
0.9470.1590.023
0.9470.2650.056
4 结 语
本文提出的基于ICA的近红外光谱分析方法结合多种现代数据处理方法,不仅能够从样品光谱中分解出主要成分的光谱信息,而且能实现样品成分的测定;用该方法提取出的独立分量与实际光谱之间更为接近,更能体现光谱的真实情况.ICA方法已经成为化学计量学的新兴方法之一,研制相应的分析软件也是必要的.本文研制的基于ICA的近红外光谱分析软件弥补了这一空白,并成功应用于实测数据的分析,结果令人满意.实验证明,本文使用LabVIEW和MATLAB软件混合编程,充分利用了各软件的优点,不仅程序简单,而且界面也友好.
=参 考 文 献>
[1] 陆婉珍.现代近红外光谱分析技术[M].2版.北京:中国石
化出版社,2007:35-125.
[2] 许 禄,邵学广.化学计量学方法[M].2版.北京:科学出版
社,2004:54-69.
[3] CHENJ,WANGXZ.Anewapproachtonear-infraredspec-traldataanalysisusingindependentcomponentanalysis[J].JChemInfComputSci,2001,41:992-1001.
[4] SANGJOOHH,GILWONY.Identificationofpurecom-ponentspectrabyindependentcomponentanalysisinglu-cosepredictionbasedonmid-infraredspectroscopy[J].Ap-pliedOptics,2006,45(32):8374-8380.
[5] 林 敏,毛谦敏,吕 进,等.最优小波包变换的化学模式特
征选择方法[J].中国计量学院学报,2005,16(3):182-187.[6] 林 敏,吕 进,徐立恒,等.茶叶近红外光谱数据的离散余
弦变换压缩方法[J].中国计量学院学报,2003,14(4):268-270.
[7] PASADAKISN,KARDAMAKISAA.Identifyingconstitu-entsincommercialgasolineusingFouriertransform-infraredspectroscopyandindependentcomponentanalysis[J].AnalChimActa,2006,578:250-255.
(下转第81页)
第1期赵 琼,韩亚洲:Heisenberg群上次拉普拉斯不等方程弱解的不存在性
189-220.
81
由Young不等式,得到
qC
Q+2q
Iv[Iu+C1R22
2
Iu[
CIv+C2RQ+q2q
p11
2
[3] BIRINDELLII,MITIDIERIE.Liouvilletheoremsforel-lipticinequalitiesandapplications[J].Proceedingsofthe
(18)
RoyalSocietyofEdinburgh,1998,128:1217-1247.[4] PHOZAEVSI,VERONL.Nonexistenceresultsofsemilinear
differentialinequalitiesontheHeisenberggroup[J].Manu-scriptaMath,2000,102:85-99.
[5] DpAMBROSIOL.CriticaldegenerateinequalitiesontheHeisen-
其中C1,C2与R无关.
由式(18)得到Iu+Iv[2C1R
CR
qCp2
qC
Q+2q
22
qC
Q+2q
11
+2C2R
qCp1
1
=
(19)
berggroup[J].ManuscriptaMath,2001,232:240-259.[6] BIRINDELLII,CAPUZZODOLCETTAI,CUTRIA.L-i
ouvilletheoremsforsemilinearequationsontheHeisenberggroups[J].AnnIHP,1997,14:295-308.
[7] BIRINDELLII,CAPUZZODOLCETTAI,CUTRIA.In-definitesem-ilinearequationsontheHeisenberggroup:aprioriboundsandexistence[J].ComminPDE,1998,23:1123-1157.
[8] 罗学波,钮鹏程,韩亚洲.拟线性偏微分算子的分析[M].西
安:西北工业大学出版社,2007:138-165.
[9] FOLLANDGB.Subellipticestimatesandfunctionspaces
onnilpotentLiegroups[J].ArkMath,1975,13:161-207.[10] MITDIERIE,POHOZAEVSI.Absenceofglobalpos-i
tivesolutionsofquasilinearellipticinequalities[J].DoklAkadNauk,1998,359:456-460.
[11] 韩亚洲.与向量场相关的Liouville型定理、Hardy-Sobolev
型不等式及其应用[D].西安:西北工业大学,2005.
Q+2q
2
+R
Q+2q
iii
当Ci
2qi[0,i=1,2.后面的证明如定理1情况下的证明.定理证毕.
=参 考 文 献>
[1] MITDIERIE,POHOZAEVSI.Nonexistenceofpositive
solutionsforquasilinearellipticproblemsonRN[J].Pro-ceedingsoftheSteklovInstituteofMathematics,1999,227:1-32.
[2] MITDIERIE,POHOZAEVSI.Nonexistenceofweakso-lutionsforsomedegenerateellipticandparabolicproblemsonRN[J].JournalofEvolutionEquations,2001,1(2):
(上接第45页)
[8] SHAOXG,WANGGQ,WANGSF,etal.Extraction
ofmassspectraandchromatographicprofilesfromoverlap-pingGC/MSsignalwithbackground[J].AnalChem,2004,76:5143-5148.
[9] WANGGQ,CAIWS,SHAOXG.Aprimarystudyon
resolutionofoverlappingGC-MSsignalusingmean-fieldap-proachindependentcomponentanalysis[J].ChemomIntellLabSyst,2006,82:137-144.
[10] LEEJM,YOOC,LEEIB.Statisticalmonitoringofdy-namicprocessesbasedondynamicindependentcomponentanalysis[J].ChemEngSci,2004,59:2995-3006.
[11] 毕 贤,李通化,吴 亮.独立组分分析在近红外光谱分析
中的应用[J].高等学校化学学报,2004,25(6):1023-1027.
[12] 侯振雨,姚树文,谷永庆,等.连续小波变换-独立成分回
归算法及其在多组分分析中的应用[J].理化检验-化学分册,2006,42(7):517-520.
[13] 侯振雨,王 伟,蔡文生,等.基于独立成分的局部建模方
法及其在近红外光谱分析中的应用研究[J].计算机与应用化学,2006,23(3):224-226.
[14] 方利民,林 敏.近红外光谱数据处理的独立分量分析方
法研究[J].中国计量学院学报,2008,19(2):137-141.[15] ANDRZEJC,SHUN-ICHIA.AdaptiveBlindSignaland
ImageProcessing[M].NewYork:JohnWiley&Sons,2002:1-156.
[16] 胡立志,张树生,董 莲.LabVIEW在时间频率计量测试
中的应用[J].中国计量学院学报,2008,19(2):133-136.[17] 周 娟,蒋登峰.基于Matlab的ADC自动测试系统开发[J].
中国计量学院学报,2008,19(3):219-224.