羞羞漫画漫画免费_囯产伦精品一区二区三区视频_少妇中文无码综合_国产黄色毛片网站_欧美日韩亚洲中出_娇小娇小与黑人TUBEVIDEOS_美女扒开尿口和胸洗澡_成熟丰满毛茸茸_青青草原热播精品在线_日韩无码有码偷拍

文章詳情

基于高光譜技術(shù)結(jié)合化學(xué)計量學(xué)方法的茶多酚無損檢測模型

日期:2024-11-22 15:05
瀏覽次數(shù):185
摘要:基于高光譜技術(shù)結(jié)合化學(xué)計量學(xué)方法的茶多酚無損檢測模型

背景

茶多酚是茶葉的重要組成部分,也是生物活性化學(xué)物質(zhì)的重要來源,具有抗氧化、**、**、**和抗動脈硬化的能力,在醫(yī)藥和食品工業(yè)中發(fā)揮著重要作用。高光譜成像技術(shù)是基于大量窄波段的圖像數(shù)據(jù)技術(shù)。它將成像技術(shù)與光譜技術(shù)相結(jié)合,檢測目標(biāo)的二維幾何空間和一維光譜信息,已被廣泛應(yīng)用于農(nóng)產(chǎn)品質(zhì)量檢測。

基于高光譜技術(shù)建立的模型結(jié)果受多種因素的影響。特征數(shù)據(jù)預(yù)處理方法是影響分析結(jié)果的主要因素。常見的光譜數(shù)據(jù)預(yù)處理方法包括正交信號校正(OSC)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)、多元散射校正(MSC)、標(biāo)準正態(tài)變量變換(SNVT)、Savitzky-Gola濾波(SG)。結(jié)果表明,這些方法可以減少外界因素的影響,在一定程度上提高檢測的準確性。

光譜特征波段的選擇是影響模型結(jié)果的另一個重要因素。有效地選擇特征波段可以節(jié)省計算資源,提高模型性能。近年來,研究人員提出了許多特征波段選擇方法,如區(qū)間偏*小二乘(iPLS)、協(xié)同區(qū)間偏*小二乘(siPLS)、后向區(qū)間偏*小二乘(biPLS)。這些特征選擇算法將所有特征劃分為若干個區(qū)間,然后通過迭代選取區(qū)間中效果較好的一小部分作為特征集合。然而,通過這種“捆綁”方法選擇的光譜特征可能會遺漏一些重要特征。

為了避免手動數(shù)據(jù)分割引起的偏差,有許多計算方法可用于樣本選擇,如隨機選擇(RS),Kennard-Stone(KS)或基于聯(lián)合x-y距離(SPXY)的樣本集分割算法。

本研究旨在探討基于高光譜圖像技術(shù)的茶多酚含量快速無損在線檢測的可行性。采用不同的數(shù)據(jù)預(yù)處理方法對采集到的茶葉高光譜數(shù)據(jù)進行處理。本文通過建立模型并對建模結(jié)果進行分析,選擇了*佳的預(yù)處理方法。

試驗設(shè)計

四川農(nóng)業(yè)大學(xué)康志亮團隊共選出三個級別的雅安藏茶,獲取其茶多酚含量后,用SPXY算法對數(shù)據(jù)集進行劃分(表1)。利用江蘇雙利合譜公司研制的GaiaSorter高光譜分選儀獲得了藏茶的高光譜數(shù)據(jù),其有效光譜范圍為387 ~ 1035nm,光譜分辨率為2.8 nm,光譜通道為256條。把茶葉均勻地鋪在一個容器里(大約65厘米 × 65厘米)。高光譜采集系統(tǒng)如圖1所示。由于暗電流的影響,*終420 ~ 1010 nm波段被保留作為原始光譜數(shù)據(jù)。

表1 基于 SPXY 算法的茶多酚含量統(tǒng)計及樣品分配結(jié)果

圖1 高光譜成像系統(tǒng)示意圖

隨機噪聲通常是在獲取光譜時由外界環(huán)境、儀器響應(yīng)和其他與被測樣品性質(zhì)無關(guān)的因素產(chǎn)生的,并且光譜數(shù)據(jù)出現(xiàn)無序波動。因此,本文采用了SG、MSC、SNVT、FD、SD和Z分數(shù)標(biāo)準化(ZSS)六種預(yù)處理算法來消除原始光譜數(shù)據(jù)中的噪聲。

本研究使用的SPXY算法是由KS(Kennard-Stone)算法發(fā)展而來。KS算法將所有樣本看作校準集的候選樣本,并選擇進入校準集的歐幾里得度量*大的兩個樣本。然后,通過計算剩余樣本與校準集中已知樣本之間的歐幾里得度量,選擇*接近選定樣本的兩個樣本并將其放入校準集中,重復(fù)上述步驟,直到樣本數(shù)達到設(shè)定值。在SPXY計算樣本距離時,同時考慮了樣本標(biāo)號(Y)和樣本特征(X)。

所獲得的高光譜數(shù)據(jù)往往包含大量冗余信息,這將對*終建模的準確性和效率產(chǎn)生一定的影響。本研究使用六種方法,梯度提升(GB)、自適應(yīng)提升(AdaBoost)、隨機森林(RF)、分類提升(CatBoost)、LightGBM和XgBoost來選擇高光譜特征波段。模型中使用了隨機森林回歸(RFR)、分類提升回歸(CatBoostR)、LightGBM回歸(LightGBMR)、XGBoost回歸(XGBoostR)和模型集成策略用于預(yù)測茶多酚。

結(jié)論

梯度提升回歸(GBR)用于建模和預(yù)測原始數(shù)據(jù)和預(yù)處理的光譜數(shù)據(jù)?;诓煌A(yù)處理算法和不同樣本劃分算法的建模結(jié)果如圖2所示。如圖2a所示,校準集的R2均大于0.96。RAW-KS-GBR模型效果*好。FD-KS-GBR模型校準集R2*大的,為0.9857,但測試集R2*小,僅為0.6490,表明FD-KS-GBR模型存在嚴重的過擬合問題。圖2b是基于SPXY劃分數(shù)據(jù)集的建模結(jié)果。通過FD和SD預(yù)處理光譜數(shù)據(jù)建立的模型校準集在0.98以上,但測試集R2不超過0.88。

圖2 不同輸入下GBR模型的預(yù)測結(jié)果?;贙S劃分數(shù)據(jù)集的建模結(jié)果(a)、基于SPXY劃分數(shù)據(jù)集的建模結(jié)果(b)。

KS算法比SPXY算法建立的模型更容易出現(xiàn)過擬合,因此SPXY-GBR模型總體上優(yōu)于KS-GBR模型。基于圖2,比較兩種不同的數(shù)據(jù)集劃分方法和六種不同的預(yù)處理算法建模結(jié)果,效果較好的模型是RAW-KS-GBR、SG-SPXY-GBR和SNVT-SPXY-GBR。SG-SPXY-GBR具有*高的測試集R2,為0.9365,其校準集R2也達到0.9563。這表明,以SG為預(yù)處理算法,SPXY為樣本分割法建立的模型不僅精度高,而且具有更好的魯棒性。綜上所述,*終選擇SG算法對藏茶原始高光譜數(shù)據(jù)進行預(yù)處理。原始光譜曲線RAW和SG預(yù)處理后的光譜曲線如圖3所示。

圖3 藏茶光譜曲線。原始數(shù)據(jù)(a);通過SG算法預(yù)處理的數(shù)據(jù)(b);(c)圖為(a)中紅框的放大視圖;(d)圖為(b)中紅框的放大視圖。

SG算法預(yù)處理后的數(shù)據(jù)噪聲有了一定程度的改善,但數(shù)據(jù)中仍有大量與茶多酚含量預(yù)測無關(guān)的信息。如果不進一步提取特征,高維數(shù)據(jù)無疑會影響模型的準確性和魯棒性。本研究采用GB、AdaBoost、RF、CatBoost、LightGBM和XGBoost這六種算法選擇前30個*重要光譜特征(圖4)。RF和CatBoost以522.66 nm波長為**重要特征,而XGBoost以564.55 nm波長為*一重要特征,在GB中僅排名第五,在AdaBoost中排名第四,在RF中排名第七。不同算法提取的特征波長大多分布在420 ~ 700 nm之間。試驗結(jié)果表明,不同算法提取的特征波長不同,但也有一定的共性。上述六種算法提取的特征將作為后續(xù)回歸預(yù)測算法的輸入。

表2展示了不同模型的全波段預(yù)測結(jié)果。CatBoostR模型具有*高的準確度,在校準和測試集上的R2分別為0.9578和0.9493。RFR模型預(yù)測效果較差,校準R2僅為0.9040。

本研究以RFR、LightGBM和XGBoostR為三個基礎(chǔ)學(xué)習(xí)模型,以CatBoostR為元學(xué)習(xí)模型,建立了一個新的stacking預(yù)測模型(圖5)。表3展示了不同模型的預(yù)測結(jié)果。與全波段建模結(jié)果相比,即使特征維數(shù)降低,模型性能也沒有相應(yīng)降低。優(yōu)選特征在一定程度上提高了建模精度,并進一步提高了模型魯棒性。CatBoostR模型的預(yù)測精度普遍可以接受,RMSEC小于0.35,RMSEP小于0.45。CatBoost + CatBoostR模型的RMSEC和RMSEP值*接近。因此,該模型被認為是四個獨立模型中*好的。本文建立的stacking模型中以CatBoost算法提取的特征作為輸入的模型效果*優(yōu)。圖6a是CatBoost + stacking模型對藏茶茶多酚含量的預(yù)測結(jié)果。由于茶多酚含量在7%左右的樣本數(shù)量較少,SPXY沒有在該值附近分配測試集。因此,在SPXY劃分的數(shù)據(jù)集中,選擇對應(yīng)于校準集中茶多酚含量為7.2671%的樣品作為測試樣本之一,選擇對應(yīng)于測試集中茶多酚含量為8.7892%的樣品作為校準樣本之一。如果替換的數(shù)據(jù)被輸入到CatBoost + stacking模型中,校準集R2為0.9686,RMSEC為0.2833,測試集R2為0.9577,RMSEP為0.3703。

綜上結(jié)果表明,新建立的stacking預(yù)測模型比個體回歸模型性能更優(yōu),可實現(xiàn)藏茶茶多酚含量的準確預(yù)測。

圖4 由不同算法選擇的特征波段。GB(a);AdaBoost(b);RF(c);CatBoost(d);LightGBM(e)和XGBoost(f)。

表2 基于全波段的預(yù)測結(jié)果

圖5 用于茶多酚預(yù)測的stacking回歸模型流程

圖6 基于CatBoost + stacking模型的茶多酚預(yù)測結(jié)果。更換樣本前的預(yù)測結(jié)果(a)和更換樣本后的預(yù)測結(jié)果(b)。

作者信息

康志亮,博士,四川農(nóng)業(yè)大學(xué)機電學(xué)院教授,博士生導(dǎo)師。

主要研究方向:信號與信息處理、傳感器與檢測技術(shù)、自動控制。

參考文獻:

Luo, X., Xu, L.j., Huang, P., Wang, Y.c., Liu, J., Hu, Y., Wang, P., & Kang, Z.l. (2021). Nondestructive Testing Model of Tea Polyphenols Based on Hyperspectral Technology Combined with Chemometric Methods. Agriculture, 11:673-687.

https://doi.org/10.3390/agriculture11070673

川公網(wǎng)安備 51011202000202號