Processing math: 12%

Search

Article

x

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

Application of terahertz spectroscopy in identification of transgenic rapeseed oils: A support vector machine model based on modified mayfly optimization algorithm

Chen Tao Li Xin

Chen Tao, Li Xin. Application of terahertz spectroscopy in identification of transgenic rapeseed oils: A support vector machine model based on modified mayfly optimization algorithm. Acta Phys. Sin., 2024, 73(5): 058701. doi: 10.7498/aps.73.20231569
Citation: Chen Tao, Li Xin. Application of terahertz spectroscopy in identification of transgenic rapeseed oils: A support vector machine model based on modified mayfly optimization algorithm. Acta Phys. Sin., 2024, 73(5): 058701. doi: 10.7498/aps.73.20231569

Application of terahertz spectroscopy in identification of transgenic rapeseed oils: A support vector machine model based on modified mayfly optimization algorithm

Chen Tao, Li Xin
cstr: 32037.14.aps.73.20231569
Article Text (iFLYTEK Translation)
PDF
HTML
Get Citation
  • To achieve rapid and accurate identification of genetically modified (GM) and non-GM rapeseed oils, a support vector machine (SVM) model based on an improved mayfly optimization algorithm and coupled with the terahertz time-domain spectroscopy, is proposed. Two types of GM rapeseed oils and two types of non-GM rapeseed oils are selected as research subjects. Their spectral information is acquired by using the terahertz time-domain spectroscopy. The observations show that GM rapeseed oils exhibit stronger terahertz absorption characteristics than non-GM rapeseed oils. However, their absorption spectra are highly similar, making direct differentiation difficult through visual inspection alone. Therefore, SVM is used for spectral recognition. Considering that the classification performance of SVM is significantly affected by its parameters, the mayfly optimization algorithm is combined to optimize these parameters. Furthermore, adaptive inertia weight and Lévy flight strategies are introduced to enhance the global search capability and robustness of the mayfly optimization algorithm, thus addressing the issue of easily becoming trapped in local optima in the optimization process. Moreover, principal component analysis is used to reduce the dimensionality of the absorbance data in a 0.3–1.8 THz range, aiming to extract critical features, thereby enhancing modeling efficiency and reducing redundancy in spectral data. Experimental results demonstrate that the improved mayfly optimization algorithm effectively identifies the optimal parameter combination for SVM, thereby enhancing the overall performance of the identification model. The proposed SVM model, in which the improved mayfly optimization algorithm is used, can achieve a recognition accuracy of 100% for the four types of rapeseed oils, surpassing the 98.15% accuracy achieved by the SVM model with the original mayfly optimization algorithm. Thus, this study presents a rapid and effective new approach for identifying GM rapeseed oils and offers a valuable reference for identifying other genetically modified substances.
      PACS:
      87.50.U(Millimeter/terahertz fields effects)
      87.64.-t(Spectroscopic and microscopic techniques in biophysics and medical physics)
      07.57.-c(Infrared, submillimeter wave, microwave and radiowave instruments and equipment)
      Corresponding author: Chen Tao, tchen@guet.edu.cn
    • Funds: Project supported by the National Natural Science Foundation of China (Grant Nos. 62261012, 61841502).

    菜籽油是世界上第三大植物油品种, 其富含不饱和脂肪酸、维生素E和多种矿物质, 有助于心血管健康, 维持皮肤健康, 为人体提供重要的营养成分和能量来源. 据农业生物技术应用国际服务机构统计, 2019年, 全球油菜中有27%是转基因作物[1]. 转基因油菜是全球四大转基因作物之一, 其主要用途是生产菜籽油. 虽然转基因菜籽油已成为生活中常见的食用油, 但截至目前还没有任何研究能够彻底否认其潜在危害[2]. 在消费市场上, 不注明转基因标示或将转基因产品标识为非转基因的情况屡见不鲜. 因此, 基于对公众食品安全的考虑, 对转基因菜籽油的鉴别具有重要的现实意义. 目前常见的转基因产品检测方法有两种: 一种是基于脱氧核糖核酸(deoxyribonucleic acid, DNA)的方法[3], 另一种是基于蛋白质的检测技术[4]. 由于转基因菜籽油中DNA和蛋白质含量极低, 采用上述两种方法均存在提取过程繁琐、耗时较长、会损坏原有物质和非专业人员难以胜任等问题. 因此, 寻找一种快速无损和操作便捷的转基因菜籽油检测方法显得尤为重要.

    太赫兹(terahertz, THz)波是指频率在0.1—10 THz范围的一段电磁波, 是宏观电子学和微观光子学的交叉研究领域, 具有很大的应用价值和学术价值[5,6]. 理论研究表明, 许多生物分子(如DNA、蛋白质和脂肪等)的振动和转动能级正好处于THz频带范围内[7,8]. 因此, 应用太赫兹时域光谱(terahertz time-domain spectroscopy, THz-TDS)技术探测生物样品产生共振吸收峰, 并通过THz光谱来识别生物样品成为了可能[9]. 目前, 利用THz光谱进行转基因食用油的检测识别已较多. 文献[10]报道了THz-TDS在检测转基因大豆油上的应用, 文献[11]报道了THz-TDS在检测转基因玉米油上的应用, 文献[12]报道了THz-TDS在检测转基因山茶油上的应用.

    然而, 通过对文献[1012]的分析可知, 同种转基因和非转基因植物油的THz光谱极为相似, 难以直接从光谱上对它们进行准确区分, 需要结合一些模式识别方法才能实现对它们的准确区分. 因此, 本文应用支持向量机(support vector machine, SVM)方法对转基因和非转基因菜籽油进行鉴别. 由于SVM对参数较为敏感, 选取合适的参数才可较好提升其性能[13], 因此SVM常与优化算法结合使用. 蜉蝣优化算法(mayfly optimization algorithm, MOA)与其他传统优化算法相比, 有着较好的求解精度和较快的收敛速度, 但也由于较快的收敛速度, 其在寻优过程中容易陷入局部最优解, 全局搜索能力较弱[14], 因此为了提升MOA的整体搜索性能和精度, 本文引入自适应惯性权重(adaptive inertia weight, AIW)以及Lévy飞行两种策略来改进MOA(命名为ALMOA). 本文将ALMOA应用于SVM重要参数的寻优过程中, 从而得到一种基于改进蜉蝣优化算法的支持向量机模型(ALMOA-SVM), 来实现对转基因和非转基因菜籽油的快速准确鉴别.

    本文采用的实验设备为美国Zomega公司生产的Z-3 THz-TDS系统, 该系统主要由超快飞秒光纤激光器、THz辐射产生装置、THz辐射探测装置和延时控制装置四部分组成, 系统原理图如图1所示. 该系统激光的中心波长为780 nm, 脉冲宽度低于100 fs, 信噪比高于70 dB. 整个实验在室温下进行, 为避免潮湿空气中水分对THz波吸收的影响, 实验前在样品实验舱中充满干燥的氮气, 使其内部密闭空间的相对湿度小于2%, 以保证实验数据的准确性.

    图 1 THz-TDS系统原理图\r\nFig. 1. Schematic diagram of THz-TDS system.
    图 1  THz-TDS系统原理图
    Fig. 1.  Schematic diagram of THz-TDS system.

    实验选取的样品为在市面上容易获取的4种不同品牌的转基因和非转基因菜籽油, 样品信息如表1所示. 所有油样均为具有国家质量监督检验检疫认证的合格产品. 实验样品在实验前都在低温避光环境下储存以防止变质和氧化. 实验样品架选择窗片材料为聚四氟乙烯薄膜的可拆卸液体池, 由于聚四氟乙烯在THz波段具有较低的吸收特性, 所以不会对待测样品产生干扰. 可拆卸液体池的厚度为0.5 mm, 中心为面积为270 mm2的椭圆孔. 在制样时, 采用5 mL的一次性医用注射器吸取约2 mL的油样, 沿液体池壁轻压注射器, 使油样缓慢注入液体池中, 以避免气泡的产生. 每种菜籽油制作90个样本, 共计360个, 其中每种菜籽油随机选取70%的样本作为训练集, 剩余的30%作为测试集.

    表 1  实验样品信息
    Table 1.  The information of experimental sample.
    标识符 品牌 类型 样本数
    训练集 测试集
    Non-GMO1 道道全 非转基因 63 27
    Non-GMO2 鲁花 非转基因 63 27
    GMO1 金龙鱼 转基因 63 27
    GMO2 鄉佬坎 转基因 63 27
    下载: 导出CSV 
    | 显示表格

    在太赫兹时域光谱中, 获取的信息较为有限, 为进一步研究转基因和非转基因菜籽油在THz波段的吸收特性, 对实验测得的太赫兹时域参考信号和样品信号进行快速傅里叶变换, 得到各自的频域信号, 然后通过(1)式计算获得样品的吸光度, 以此来表征4种菜籽油对THz波的吸收程度.

    A(ω)=log10|Eref(ω)Esam(ω)|2, (1)

    其中, Eref(ω)为频域参考信号, Esam(ω)为频域样品信号, ω为角频率.

    为了更好地对分类鉴别模型的性能进行评估, 采用查准率P、查全率R和精度A作为模型评价指标, 计算公式如下:

    P=TPTP+FP, (2)
    R=TPTP+FN, (3)
    A=TP+TNTP+FP+FN+TN, (4)

    其中, TP为真正类, 即模型正确地将某类物质(设为正类)预测为该类物质(正类)的个数; FP为假正类, 即模型错误地将其他类物质(设为负类)预测为该类物质(正类)的个数; TN为真负类, 即模型正确地将其他类物质(负类)预测为其他类物质(负类)的个数; FN为假负类, 即模型错误地将该类物质(正类)预测为其他类物质(负类)的个数.

    SVM是一种基于统计学习理论的有监督学习方法[15,16]. 其核心原理在于将数据映射到高维空间, 以寻找一个能够最大化不同类别数据间边界距离的超平面, 从而实现对数据的有效分类. 通过引入核函数, SVM可以处理非线性分类问题, 将其转化为在高维特征空间中的线性分类任务. 同时, SVM以结构风险最小化为原则, 通过在特征空间中找到最优超平面来解决分类问题, 具有较强的泛化能力和对噪声的抵抗能力.

    在实际的应用中, 合适的SVM参数选择将决定模型的泛化能力和分类性能优劣, 本文选择径向基函数(radial basis functions, RBF)作为SVM的核函数, 因此该模型的分类能力主要取决于正则化参数c和径向基函数g两个参数, 本文进一步采用蜉蝣优化算法(MOA)对SVM的参数进行寻优.

    MOA是2020年由Konstantinos等[17]根据蜉蝣的飞行和繁衍行为提出的启发式算法, 用于解决复杂的函数优化问题. 算法的工作原理如下: 最初, 随机生成两组蜉蝣, 分别代表雄性和雌性种群. 将每个蜉蝣随机放置在问题空间中, 作为由d维向量 {\boldsymbol{x}} = \left( {{x_1}, {x_2}, {x_3}, \cdots , {x_d}} \right) 表示的候选解, 并在预先定义的适应度函数f\left( x \right)上评估其性能. 蜉蝣的速度{\boldsymbol{v}} = \left( {{v_1}, {v_2}, {v_3}, \cdots , {v_d}} \right)定义为其位置的变化, 每只蜉蝣的飞行方向是个体和社会飞行经验动态交互作用. 雄性通过全局最优位置和自身历史最优位置移动, 雌性则是向优于自己的配偶移动, 若配偶弱于自己则自行局部搜索, 移动结束后, 雌性和雄性蜉蝣进行交配并产生后代, 子代有较小的概率产生变异, 最后淘汰子代和亲代中适应度较差的个体, 维持种群整体数量不变, 重复上述过程.

    3.3.1   引入自适应惯性权重

    惯性权重对解的搜索精度和收敛次数有着良好的指导性作用, 较大的惯性权重有利于全局搜索, 较小的惯性权重则有利于局部搜索. 由于MOA采用的是线性的惯性权重, 其全局和局部搜索能力一般, 为了更好地发挥算法的全局搜索以及局部搜索能力, 本文采用一种自适应非线性惯性权重[18,19], 使之在迭代初期缓慢减小, 主要发挥算法的全局搜索能力, 从而达到圈定最优解范围的目的, 在迭代后期, 惯性权重减小加快, 从而快速增强算法的局部搜索能力, 精准锁定最优解位置. 这里, 定义自适应非线性惯性权重 w 如(5)式所示:

    w = {w_{{\text{max}}}} - {\left( { {t}/{{{t_{{\text{max}}}}}}} \right)^3}\left( {{w_{{\text{max}}}} - {w_{{\text{min}}}}} \right), (5)

    其中, {w_{{\text{max}}}}{w_{{\text{min}}}}分别为最大和最小惯性权重, 分别取值0.8和0.4; {t_{{\text{max}}}}为最大迭代次数; t为当前迭代次数.

    将惯性权重 w 引入MOA中, 雄性蜉蝣个体的速度更新为

    {v}_{ij}^{t+1}=\left\{\begin{aligned} &w{v}_{ij}^{t}+{a}_{1}{\text{e}}^{-\beta {r}_{\text{p}}^{2}}\left({p}_{\text{best}}{}_{ij}-{x}_{ij}^{t}\right)+{a}_{2}{\text{e}}^{-\beta {r}_{\text{g}}^{2}}\left({g}_{\text{best}j}-{x}_{ij}^{t}\right),&f\left({x}_{i}\right) > f\left({g}_{\text{best}}\right),\\ &w{v}_{ij}^{t}+dr,&f\left({x}_{i}\right)\leqslant f\left({g}_{\text{best}}\right),\end{aligned} \right. (6)

    其中, x_i^t为在第t次迭代时雄性蜉蝣i在搜索空间中的当前位置; v_i^{t + 1}为在第t + 1次迭代时蜉蝣i的速度; v_{ij}^t为第t次迭代时蜉蝣ij维上的速度; x_{ij}^t为在第t次迭代时雄性蜉蝣ij维上的位置; {g_{{\text{best}}}}为全局最优位置; {p_{{\text{best}}}}为自身历史最优位置; {a_1}{a_2}为蜉蝣游动行为的吸引系数; \beta 为能见度系数, 用于控制蜉蝣的能见范围; {r_{\text{p}}}为当前位置x_i^t{p_{{\text{best}}}}的距离; {r_{\text{g}}}为当前位置x_i^t{g_{{\text{best}}}}的距离; d为舞蹈系数; r \in \left[ { - 1, 1} \right], 是一个随机值.

    雌性蜉蝣个体的速度更新如(7)式所示:

    v_{ij}^{t + 1} = \left\{ {\begin{aligned} &wv_{ij}^t + {a_2}{{\text{e}}^{ - \beta r_{{\text{mf}}}^2}} ( {x_{ij}^t - y_{ij}^t} ),&f ( {{y_i}} ) > f ( {{x_i}} ), \\ & wv_{ij}^t + {c_{{\text{fl}}}}r,& f ( {{y_i}}) \leqslant f( {{x_i}} ), \end{aligned}} \right. (7)

    其中, y_i^t为在第t次迭代时雌性蜉蝣i在搜索空间中的当前位置; {r_{{\text{mf}}}}为雌雄蜉蝣之间的笛卡尔距离; {c_{{\text{fl}}}}为随机游走系数.

    3.3.2   融合Lévy飞行策略

    针对MOA容易陷入局部最优的问题, 利用Lévy飞行的跳跃能力来增强其跳出局部最优的能力[20]. Lévy飞行策略模拟自然界中动物的随机觅食行走, 假设种群中的蜉蝣均存在一定的概率不直接沿着最优路径移动, 而是根据Lévy飞行策略在最优路径附近进行随机游走, 从而达到跳出当前局部最优位置, 扩大全局搜索能力的目的. 同时为了避免在迭代后期, 蜉蝣一直在全局最优位置周围游走, 而不收敛于全局最优位置, 为Lévy飞行增加步长调整参数\delta [21]:

    \delta = {\delta _{{\text{max}}}} - \left[ {\frac{{{\delta _{{\text{max}}}} - {\delta _{{\text{min}}}}}}{{{\text{arctan}}\left( b \right)}}} \right] \times {\text{artan}}\left[ {b{{\left( {\frac{t}{{{t_{{\text{max}}}}}}} \right)}^a}} \right], (8)

    其中, {\delta _{{\text{max}}}}{\delta _{{\text{min}}}}分别为最大和最小步长调整参数, 分别取值1和0; a, b为常数, 分别取值4和20.

    通过上述参数的取值, 此时\delta \in \left[ {0, 1} \right), 在迭代前期, \delta 从1开始缓慢减小, 发挥Lévy飞行的全局游走优势, 增强算法的全局搜索能力, 在迭代中期\delta 开始迅速减小, 并至迭代后期逐渐趋于零, 目的是为了保证算法在迭代后期主要进行局部搜索, 从而快速收敛于全局最优位置.

    雄性和雌性蜉蝣个体的位置更新为

    x_i^{t + 1} = x_i^t + v_i^{t + 1} + \delta L\left( \alpha \right), (9)
    y_i^{t + 1} = y_i^t + v_i^{t + 1} + \delta L (\alpha ), (10)

    其中, L\left( \alpha \right)符合Lévy分布, 稳定参数\alpha = 1.

    通过上述两种策略的改进, 相比于MOA, ALMOA在迭代前期具有更强的全局搜索能力, 在迭代后期具有更强的局部搜索能力. 由此构建得到的ALMOA-SVM模型, 解决了MOA在SVM参数寻优过程中容易陷入局部最优解的问题, 增强了SVM最优参数的搜索精度, 提升了模型的整体性能.

    通过实验获取4种菜籽油共计360个样本的THz时域光谱如图2所示, 实验设置的扫描窗口长度为30 ps, 光谱分辨率约为33.3 GHz, 图中Reference表示参考信号, 为实验舱中样品架空载时的测量值. 由图2可见, 同种菜籽油不同样本的时域波形之间存在一定的差异, 不同菜籽油样本的时域波形之间存在一定的交叉重叠. 为了更清楚地观测到转基因与非转基因菜籽油存在的差异, 对每种菜籽油90个样本的THz时域光谱数据求平均, 得到4种菜籽油的THz平均时域光谱如图3所示. 可以看出, 所有菜籽油的谱线相对于参考信号, 在幅值上均呈现一定程度的衰减, 在时间上均呈现一定的时延, 表明菜籽油对THz光谱具有一定的吸收特性. 其中, Non-GMO1油样的相位延迟最长, GMO2油样的振幅衰减最多. 总体上看, 转基因菜籽油样品相对于非转基因菜籽油样品, 在相位上延迟更少, 在幅值上衰减更大.

    图 2 360个菜籽油样本的THz时域光谱\r\nFig. 2. THz time-domain spectra of 360 rapeseed oil samples.
    图 2  360个菜籽油样本的THz时域光谱
    Fig. 2.  THz time-domain spectra of 360 rapeseed oil samples.
    图 3 4种菜籽油及参考信号的THz时域光谱\r\nFig. 3. THz time-domain spectra of four types of rapeseed oils and reference signal.
    图 3  4种菜籽油及参考信号的THz时域光谱
    Fig. 3.  THz time-domain spectra of four types of rapeseed oils and reference signal.

    为了进一步研究转基因和非转基因菜籽油在THz波段内各频率的变化特性, 将平均时域光谱补零后进行快速傅里叶变换得到其平均频域谱, 如图4所示. 可见, 所有样品信号相对于参考信号, 在0.3 THz之后均开始出现一定程度的衰减, 同时在1.8 THz之后参考信号和样品信号均开始出现明显的振荡现象, 表明在1.8 THz之后信号受噪音影响加剧. 从整体上看, 在0.3—1.8 THz波段, 转基因菜籽油样品相对于非转基因菜籽油样品, 在幅值上呈现出更大的衰减趋势. 通过上述分析可知, 转基因菜籽油样品相对于非转基因菜籽油样品, 在THz波段表现出更强的吸收特性.

    图 4 4种菜籽油及参考信号的THz频域光谱\r\nFig. 4. THz frequency-domain spectra of four types of rapeseed oils and reference signal.
    图 4  4种菜籽油及参考信号的THz频域光谱
    Fig. 4.  THz frequency-domain spectra of four types of rapeseed oils and reference signal.

    通过(1)式计算4种菜籽油在0.3—1.8 THz频段内的太赫兹吸光度, 获得360个菜籽油样本的太赫兹吸光度谱如图5所示. 可见, 所有菜籽油样本在0.3—1.8 THz波段呈现出相似的波形和相近的幅值, 无显著差异. 通过对每种菜籽油90个样本的吸光度取平均, 计算得到4种菜籽油样品的平均吸光度谱如图6所示. 可以看出转基因菜籽油样品相对于非转基因菜籽油样品, 在THz波段的吸光度更高, 说明转基因菜籽油样品在THz波段具有更强的吸收特性[10,11], 与频域谱中观测到的结果相一致, 这可能是由于转基因油菜中引入了外源基因, 如高油酸基因、亚麻酸合成基因等, 改变了菜籽油的脂肪酸组成含量, 从而使转基因菜籽油在太赫兹波段具有更强的吸收特性[22,23]. 同时可以清楚地发现转基因和非转基因菜籽油样品的波形极为相似, 吸收峰所处频率位置也基本一致, 这可能是由于转基因和非转基因菜籽油的成分极为相似所致, 而波形存在差异的原因之一可能是由于不同来源菜籽油中相似成分的含量存在差异, 从而导致它们与太赫兹共振吸收峰在光谱上呈现出一定的差异, 因此, 采用直接观察的方式很难对它们进行准确的鉴别.

    图 5 360个菜籽油样本在0.3—1.8 THz波段内的吸光度谱\r\nFig. 5. Absorption spectra of 360 rapeseed oil samples in the 0.3—1.8 THz range.
    图 5  360个菜籽油样本在0.3—1.8 THz波段内的吸光度谱
    Fig. 5.  Absorption spectra of 360 rapeseed oil samples in the 0.3—1.8 THz range.
    图 6 4种菜籽油在0.3—1.8 THz波段内的平均吸光度谱\r\nFig. 6. Average absorption spectra of four types of rapeseed oils in the 0.3–1.8 THz range.
    图 6  4种菜籽油在0.3—1.8 THz波段内的平均吸光度谱
    Fig. 6.  Average absorption spectra of four types of rapeseed oils in the 0.3–1.8 THz range.

    由于菜籽油样品的吸光度数据维数过高, 若将其直接输入到鉴别模型中, 计算量较大且十分耗时, 这将会对模型性能产生负面影响. 因此, 为了减少光谱数据的冗余, 提高建模效率, 采用主成分分析(principal component analysis, PCA)对菜籽油吸光度谱中0.3—1.8 THz波段的原始数据(330维)进行降维, 得到各主成分的方差贡献率变化条形图如图7所示. 可以看出, 前3个主成分占据了原始数据的绝大部分信息, 其累计方差贡献率达到了98.27%, 图8给出了前3个主成分的三维(3D)散点图, 从图8可以看出, 4种菜籽油的主成分在三维空间中呈现出了不同的聚集区域, 但也存在一些交叉重叠的地方, 如Non-GMO1的主成分分布较为分散, 与其他3种油样的主成分均有部分区域重叠; 而Non-GMO2, GMO1和GMO2的主成分则分布则较为集中, 但它们聚集区域的边缘位置也存在部分区域相互重叠. 因此仅通过PCA不足以对样本进行完全正确的分类, 但也说明了PCA能够有效提取不同菜籽油吸光度谱中的特征信息. 从图7可以看出, 前9个主成分的累积方差贡献率超过了99.8%, 可以近似解释所有原变量, 因此采用这9个新变量代替原始光谱数据来进行后续建模处理.

    图 7 吸光度的主成分方差贡献率变化条形图\r\nFig. 7. Bar chart of variance contribution rates for absorbance’s principal components.
    图 7  吸光度的主成分方差贡献率变化条形图
    Fig. 7.  Bar chart of variance contribution rates for absorbance’s principal components.
    图 8 吸光度前3个主成分的3D散点图\r\nFig. 8. 3D scatter plot of the first three principal components of absorbance.
    图 8  吸光度前3个主成分的3D散点图
    Fig. 8.  3D scatter plot of the first three principal components of absorbance.

    在训练集中分别用MOA和ALMOA对SVM进行参数寻优, 寻找最佳的正则化参数c和径向基函数g参数, 寻优过程如图9所示, 寻优结果如表2所示. 从图9(a)可以看出, MOA的收敛速度很快, 在迭代前期便快速取得了最佳适应度97.22%(最佳参数(c, g)=(12.42, 0.79)), 同时平均适应度也几乎同步增长至最佳适应度附近, 但在迭代中期和迭代后期, 最佳适应度一直稳定不变, 平均适应度也仅在最佳适应度下略微起伏, 这说明MOA在迭代前期快速取得较高的局部最佳适应度后, 迭代中期至迭代后期一直在局部最佳适应度附近进行寻优, 未能跳出局部最优解扩大全局搜索范围. 经多次实验发现, MOA常常在参数寻优的迭代前期便陷入了不同的局部最优解, 说明MOA较为依赖雌雄蜉蝣初始的随机位置, 全局搜索能力较差. 从图9(b)可以看出, ALMOA在迭代前期也快速取得了局部最佳适应度97.62%, 但由于该算法在迭代前期具有较强的全局搜索能力, 在图中具体表现为其平均适应度在迭代前期有较大的波动, 因此其顺利跳出了当前的局部最优解, 并在迭代中期再次跳出了局部最优解, 最终取得了全局最佳适应度98.41% (最佳参数(c, g)=(84.62, 0.12)). 同时, 从图9(b)中的平均适应度曲线变化可以发现, 其波动幅度大致随着迭代次数增加而缓慢较小, 且曲线整体上呈现上升趋势, 并在迭代后期收敛于全局最佳适应度曲线附近, 说明ALMOA在迭代前期发挥了较强的全局搜索能力, 在迭代后期发挥了较强的局部搜索能力, 达到了预期的优化效果.

    图 9 两种算法下SVM参数寻优过程中的适应度变化曲线 (a) MOA; (b) ALMOA\r\nFig. 9. Fitness evolution curves during SVM parameter optimization process for two algorithms: (a) MOA; (b) ALMOA.
    图 9  两种算法下SVM参数寻优过程中的适应度变化曲线 (a) MOA; (b) ALMOA
    Fig. 9.  Fitness evolution curves during SVM parameter optimization process for two algorithms: (a) MOA; (b) ALMOA.
    表 2  两种算法的SVM参数寻优结果
    Table 2.  Results of SVM parameter optimization under two algorithms.
    优化算法最佳适应度/%参数
    cg
    MOA97.2212.420.79
    ALMOA98.4184.620.12
    下载: 导出CSV 
    | 显示表格

    将MOA和ALMOA的最佳参数寻优结果分别代入SVM中, 并对测试集进行识别, 最终得到MOA-SVM模型和ALMOA-SVM模型的分类结果混淆矩阵如图10所示, 模型的性能评价如表3所示. 可见, 采用MOA-SVM模型的识别精度为98.15%, 其预测结果中存在两个误判, 分别将两个Non-GMO2样品, 一个误判为Non-GMO1样品, 另一个误判为GMO1样品, 所得Non-GMO2的查全率为92.59%, Non-GMO1的查准率为96.43%, GMO1的查准率为96.43%. 采用ALMOA-SVM模型的识别精度为100%, 所有菜籽油样品均被正确识别. 由此可见, ALMOA有效避免了参数寻优过程中陷入局部最优解的情况, 增强了其全局搜索能力, 从而使鉴别模型的分类性能得到了较好提升.

    图 10 两种模型的分类结果混淆矩阵 (a) MOA-SVM模型; (b) ALMOA-SVM模型\r\nFig. 10. Confusion matrices of the classification results for the two models: (a) MOA-SVM model; (b) ALMOA-SVM model.
    图 10  两种模型的分类结果混淆矩阵 (a) MOA-SVM模型; (b) ALMOA-SVM模型
    Fig. 10.  Confusion matrices of the classification results for the two models: (a) MOA-SVM model; (b) ALMOA-SVM model.
    表 3  MOA-SVM模型与ALMOA-SVM模型的性能评价
    Table 3.  Performance evaluation of the MOA-SVM model and ALMOA-SVM model.
    模型样品查全率/%查准率/%精度/%
    MOA-SVMNon-GMO110096.4398.15
    Non-GMO292.59100
    GMO110096.43
    GMO2100100
    ALMOA-SVMNon-GMO1100100100
    Non-GMO2100100
    GMO1100100
    GMO2100100
    下载: 导出CSV 
    | 显示表格

    本文采用THz-TDS技术研究了两种转基因和两种非转基因菜籽油的THz光谱, 发现转基因菜籽油相对于非转基因菜籽油在THz波段具有更强的吸收特性. 通过对0.3—1.8 THz范围内的菜籽油吸光度谱进行主成分分析, 选取累积方差贡献率超过99.8%的前9个主成分替代原始光谱数据, 降低了数据维度, 提升了后续建模效率. 在SVM参数寻优过程中, 针对MOA容易陷入局部最优解的问题, 引入自适应惯性权重和Lévy飞行两种改进策略, 提出了ALMOA. 结果表明, 相比于MOA, ALMOA在迭代前期具备更强的全局搜索能力, 在迭代后期也具有较为出色的局部搜索能力, 对SVM参数的搜索精度更高; 基于本文实验获取的菜籽油吸光度数据集, ALMOA-SVM模型对4种菜籽油的识别精度为100%, 优于MOA-SVM模型获得的98.15%的识别精度. 因此, THz-TDS技术结合ALMOA-SVM模型为转基因菜籽油的分类鉴别提供了一种快速有效的新方法, 同时也为其他转基因物质的检测提供了方法参考.

    [1]

    国际农业生物技术应用服务组织 2021 中国生物工程杂志 41 114

    ISAAA 2021 China Biotechnol. 41 114

    [2]

    Kumar K, Gambhir G, Dass A, Tripathi A K, Singh A, Jha A K, Yadava P, Choudhary M, Rakshit S 2020 Planta 251 91Google Scholar

    [3]

    Demeke T, Dobnik D 2018 Anal. Bioanal. Chem. 410 4039Google Scholar

    [4]

    Gampala S S, Wulfkuhle B, Richey K A 2019 Transgenic Plants 1864 411Google Scholar

    [5]

    彭晓昱, 周欢 2021 物理学报 70 240701Google Scholar

    Peng X Y, Zhou H 2021 Acta Phys. Sin. 70 240701Google Scholar

    [6]

    Mittleman D M 2017 J. Appl. Phys. 122 230901Google Scholar

    [7]

    Sun L, Zhao L, Peng R Y 2021 Mil. Med. Res. 8 28Google Scholar

    [8]

    胡颖, 王晓红, 郭澜涛, 张存林, 刘海波, 张希成 2005 物理学报 54 4124Google Scholar

    Hu Y, Wang X H, Guo L T, Zhang C L, Liu H B, Zhang X C 2005 Acta Phys. Sin. 54 4124Google Scholar

    [9]

    陈涛 2016 量子电子学报 33 392

    Chen T 2016 Chin. J. Quantum Electron. 33 392

    [10]

    张文涛, 李跃文, 占平平, 熊显名 2017 红外与激光工程 46 1125004Google Scholar

    Zhang W T, Li Y W, Zhan P P, Xiong X M 2017 Infrared Laser Eng. 46 1125004Google Scholar

    [11]

    Liu J J 2017 Microw. Opt. Technol. Lett. 59 654Google Scholar

    [12]

    Liu J J, Fan L L, Liu Y M, Mao L L, Kan J Q 2019 Spectrochim. Acta A Mol. Biomol. Spectrosc. 206 165Google Scholar

    [13]

    Gu Q H, Chang Y X, Li X H, Chang Z Z, Feng Z D 2021 Expert Syst. Appl. 165 113713Google Scholar

    [14]

    Guo L, Xu C, Yu T H, Tuerxun W 2022 IEEE Access 10 36335Google Scholar

    [15]

    Cortes C, Vapnik V 1995 Mach. Learn. 20 273Google Scholar

    [16]

    Tuerxun W, Xu C, Guo H Y, Jin Z J, Zhou H J 2021 IEEE Access 9 69307Google Scholar

    [17]

    Zervoudakis K, Tsafarakis S 2020 Comput. Ind. Eng. 145 106559Google Scholar

    [18]

    Ding Y H, You W B 2020 IEEE Access 8 207089Google Scholar

    [19]

    Nickabadi A, Ebadzadeh M M, Safabakhsh R 2011 Appl. Soft Comput. 11 3658Google Scholar

    [20]

    Syama S, Ramprabhakar J, Anand R, Guerrero J M 2023 Results Eng. 19 101274Google Scholar

    [21]

    Liu N, Luo F, Ding W C 2019 2019 IEEE Symposium Series on Computational Intelligence (SSCI) Xiamen, China, December 6–9, 2019 p3104

    [22]

    Pan P Y, Xing Y H, Zhang D W, Wang J, Liu C L, Wu D, Wang X Y 2023 J. Food Sci. 88 3189Google Scholar

    [23]

    Elahi N, Duncan R W, Stasolla C 2016 Plant Physiol. Biochem. 100 52Google Scholar

    期刊类型引用(1)

    1. 陈涛,谢光翀,张绍荣. 太赫兹融合光谱结合改进Fused Lasso模型在转基因菜籽油鉴别中的应用. 光学精密工程. 2024(20): 3006-3016 . 百度学术

    其他类型引用(2)

  • 图 1  THz-TDS系统原理图

    Figure 1.  Schematic diagram of THz-TDS system.

    图 2  360个菜籽油样本的THz时域光谱

    Figure 2.  THz time-domain spectra of 360 rapeseed oil samples.

    图 3  4种菜籽油及参考信号的THz时域光谱

    Figure 3.  THz time-domain spectra of four types of rapeseed oils and reference signal.

    图 4  4种菜籽油及参考信号的THz频域光谱

    Figure 4.  THz frequency-domain spectra of four types of rapeseed oils and reference signal.

    图 5  360个菜籽油样本在0.3—1.8 THz波段内的吸光度谱

    Figure 5.  Absorption spectra of 360 rapeseed oil samples in the 0.3—1.8 THz range.

    图 6  4种菜籽油在0.3—1.8 THz波段内的平均吸光度谱

    Figure 6.  Average absorption spectra of four types of rapeseed oils in the 0.3–1.8 THz range.

    图 7  吸光度的主成分方差贡献率变化条形图

    Figure 7.  Bar chart of variance contribution rates for absorbance’s principal components.

    图 8  吸光度前3个主成分的3D散点图

    Figure 8.  3D scatter plot of the first three principal components of absorbance.

    图 9  两种算法下SVM参数寻优过程中的适应度变化曲线 (a) MOA; (b) ALMOA

    Figure 9.  Fitness evolution curves during SVM parameter optimization process for two algorithms: (a) MOA; (b) ALMOA.

    图 10  两种模型的分类结果混淆矩阵 (a) MOA-SVM模型; (b) ALMOA-SVM模型

    Figure 10.  Confusion matrices of the classification results for the two models: (a) MOA-SVM model; (b) ALMOA-SVM model.

    表 1  实验样品信息

    Table 1.  The information of experimental sample.

    标识符 品牌 类型 样本数
    训练集 测试集
    Non-GMO1 道道全 非转基因 63 27
    Non-GMO2 鲁花 非转基因 63 27
    GMO1 金龙鱼 转基因 63 27
    GMO2 鄉佬坎 转基因 63 27
    DownLoad: CSV

    表 2  两种算法的SVM参数寻优结果

    Table 2.  Results of SVM parameter optimization under two algorithms.

    优化算法最佳适应度/%参数
    cg
    MOA97.2212.420.79
    ALMOA98.4184.620.12
    DownLoad: CSV

    表 3  MOA-SVM模型与ALMOA-SVM模型的性能评价

    Table 3.  Performance evaluation of the MOA-SVM model and ALMOA-SVM model.

    模型样品查全率/%查准率/%精度/%
    MOA-SVMNon-GMO110096.4398.15
    Non-GMO292.59100
    GMO110096.43
    GMO2100100
    ALMOA-SVMNon-GMO1100100100
    Non-GMO2100100
    GMO1100100
    GMO2100100
    DownLoad: CSV
  • [1]

    国际农业生物技术应用服务组织 2021 中国生物工程杂志 41 114

    ISAAA 2021 China Biotechnol. 41 114

    [2]

    Kumar K, Gambhir G, Dass A, Tripathi A K, Singh A, Jha A K, Yadava P, Choudhary M, Rakshit S 2020 Planta 251 91Google Scholar

    [3]

    Demeke T, Dobnik D 2018 Anal. Bioanal. Chem. 410 4039Google Scholar

    [4]

    Gampala S S, Wulfkuhle B, Richey K A 2019 Transgenic Plants 1864 411Google Scholar

    [5]

    彭晓昱, 周欢 2021 物理学报 70 240701Google Scholar

    Peng X Y, Zhou H 2021 Acta Phys. Sin. 70 240701Google Scholar

    [6]

    Mittleman D M 2017 J. Appl. Phys. 122 230901Google Scholar

    [7]

    Sun L, Zhao L, Peng R Y 2021 Mil. Med. Res. 8 28Google Scholar

    [8]

    胡颖, 王晓红, 郭澜涛, 张存林, 刘海波, 张希成 2005 物理学报 54 4124Google Scholar

    Hu Y, Wang X H, Guo L T, Zhang C L, Liu H B, Zhang X C 2005 Acta Phys. Sin. 54 4124Google Scholar

    [9]

    陈涛 2016 量子电子学报 33 392

    Chen T 2016 Chin. J. Quantum Electron. 33 392

    [10]

    张文涛, 李跃文, 占平平, 熊显名 2017 红外与激光工程 46 1125004Google Scholar

    Zhang W T, Li Y W, Zhan P P, Xiong X M 2017 Infrared Laser Eng. 46 1125004Google Scholar

    [11]

    Liu J J 2017 Microw. Opt. Technol. Lett. 59 654Google Scholar

    [12]

    Liu J J, Fan L L, Liu Y M, Mao L L, Kan J Q 2019 Spectrochim. Acta A Mol. Biomol. Spectrosc. 206 165Google Scholar

    [13]

    Gu Q H, Chang Y X, Li X H, Chang Z Z, Feng Z D 2021 Expert Syst. Appl. 165 113713Google Scholar

    [14]

    Guo L, Xu C, Yu T H, Tuerxun W 2022 IEEE Access 10 36335Google Scholar

    [15]

    Cortes C, Vapnik V 1995 Mach. Learn. 20 273Google Scholar

    [16]

    Tuerxun W, Xu C, Guo H Y, Jin Z J, Zhou H J 2021 IEEE Access 9 69307Google Scholar

    [17]

    Zervoudakis K, Tsafarakis S 2020 Comput. Ind. Eng. 145 106559Google Scholar

    [18]

    Ding Y H, You W B 2020 IEEE Access 8 207089Google Scholar

    [19]

    Nickabadi A, Ebadzadeh M M, Safabakhsh R 2011 Appl. Soft Comput. 11 3658Google Scholar

    [20]

    Syama S, Ramprabhakar J, Anand R, Guerrero J M 2023 Results Eng. 19 101274Google Scholar

    [21]

    Liu N, Luo F, Ding W C 2019 2019 IEEE Symposium Series on Computational Intelligence (SSCI) Xiamen, China, December 6–9, 2019 p3104

    [22]

    Pan P Y, Xing Y H, Zhang D W, Wang J, Liu C L, Wu D, Wang X Y 2023 J. Food Sci. 88 3189Google Scholar

    [23]

    Elahi N, Duncan R W, Stasolla C 2016 Plant Physiol. Biochem. 100 52Google Scholar

  • [1] WANG Yurong, QU Weiwei, LI Guilin, DENG Hu, SHANG Liping. An optimization method for terahertz metamaterial absorber based on multi-objective particle swarm optimization. Acta Physica Sinica, 2025, 74(5): 057801. doi: 10.7498/aps.74.20241684
    [2] Ju Xue-Wei, Zhang Lin-Feng, Huang Feng, Zhu Guo-Feng, Li Shu-Jin, Chen Yan-Qing, Wang Jia-Xun, Zhong Shun-Cong, Chen Ying, Wang Xiang-Feng. Reverse design and optimization of digital terahertz bandpass filters. Acta Physica Sinica, 2024, 73(6): 060702. doi: 10.7498/aps.73.20231584
    [3] Liu Quan-Cheng, Yang Fu, Zhang Qi, Duan Yong-Wei, Deng Hu, Shang Li-Ping. Research on vibrational features of CL-20/MTNP cocrystal by terahertz spectroscopy. Acta Physica Sinica, 2024, 73(19): 193201. doi: 10.7498/aps.73.20240944
    [4] Feng Long-Cheng, Du Chen, Yang Sheng-Xin, Zhang Cai-Hong, Wu Jing-Bo, Fan Ke-Bin, Jin Biao-Bing, Chen Jian, Wu Pei-Heng. Research on terahertz real-time near-field spectral imaging. Acta Physica Sinica, 2022, 71(16): 164201. doi: 10.7498/aps.71.20220131
    [5] Wang Zhi-Quan, Shi Wei. Holographic detection of pulsed terahertz waves in terahertz time-domain spectroscopy. Acta Physica Sinica, 2022, 71(18): 188704. doi: 10.7498/aps.71.20220983
    [6] Wang Chen, Xia Wei, Suo Peng, Wang Wei, Lin Xian, Guo Yan-Feng, Ma Guo-Hong. Quasi-two-dimensional van der Waals ferromagnetic semiconductor CrGeTe3 studied by THz spectroscopy. Acta Physica Sinica, 2022, 71(23): 237303. doi: 10.7498/aps.71.20221586
    [7] Suo Peng, Xia Wei, Zhang Wen-Jie, Zhu Xiao-Qing, Guo Jia-Jia, Fu Ji-Bo, Lin Xian, Guo Yan-Feng, Ma Guo-Hong. Quasi-two-dimensional van der Waals semiconducting magnet CrSiTe3 studied by using THz spectroscopy. Acta Physica Sinica, 2020, 69(20): 207302. doi: 10.7498/aps.69.20200682
    [8] Lian Yu-Xiang, Dai Ze-Lin, Xu Xiang-Dong, Gu Yu, Li Xin-Rong, Wang Fu, Yang Chun, Cheng Xiao-Meng, Zhou Hua-Xin. Terahertz spectrum study of organic electro-optic crystal 4-N, N-dimethylamino-4'-N'-methyl-stilbazolium tosylate. Acta Physica Sinica, 2017, 66(24): 244211. doi: 10.7498/aps.66.244211
    [9] Yan Wei, Ma Miao, Dai Ze-Lin, Gu Yu, Zhu Hong-Zhao, Liu Yu-Tong, Xu Xiang-Dong, Han Shou-Sheng, Peng Yong. Experimental and theoretical study on terahertz spectra of all-trans -carotene. Acta Physica Sinica, 2017, 66(3): 037801. doi: 10.7498/aps.66.037801
    [10] Song Dan, Fan Xiao-Ping, Liu Zhong-Li. An immune memory optimization algorithm based on the non-genetic information. Acta Physica Sinica, 2015, 64(14): 140203. doi: 10.7498/aps.64.140203
    [11] Lu Wen-Liang, Lou Shu-Qin, Wang Xin, Shen Yan, Sheng Xin-Zhi. False-color terahertz imaging system based on terahertz time domain spectrocsopy. Acta Physica Sinica, 2015, 64(11): 114206. doi: 10.7498/aps.64.114206
    [12] Sun Yi-Wen, Zhong Jun-Lan, Zuo Jian, Zhang Cun-Lin, Dan Guo. Principal component analysis of terahertz spectrum on hemagglutinin protein and its antibody. Acta Physica Sinica, 2015, 64(16): 168701. doi: 10.7498/aps.64.168701
    [13] Liang Mei-Yan, Zhang Cun-Lin. Improvement in the range resolution of THz radar using phase compensation algorithm. Acta Physica Sinica, 2014, 63(14): 148701. doi: 10.7498/aps.63.148701
    [14] Zhang Kai-Yun, Du Hai-Wei, Chen Min, Sheng Zheng-Ming. Studies on the optimization of terahertz emission based on the field ionization current model. Acta Physica Sinica, 2012, 61(16): 160701. doi: 10.7498/aps.61.160701
    [15] Zhang Rong, Guo Xu-Guang, Cao Jun-Cheng. Simulation and optimization of grating optical coupling of terahertz quantum well photodetector. Acta Physica Sinica, 2011, 60(5): 050705. doi: 10.7498/aps.60.050705
    [16] Chen Yang, Jia Li-Ping, Zhang Tai-Ning, Guo Peng, Wang Xiang-Hui, Chang Sheng-Jiang. A classification method for nonlinear fluorescent spectra based on edges matching. Acta Physica Sinica, 2010, 59(1): 271-280. doi: 10.7498/aps.59.271
    [17] Fu Pei-Zhen, Hou Bi-Hui, Wang Li, Zhong Ren-Bin, Wang Ya-Li, Zhang Er-Pan, Jian Yan-Zhen. Terahertz spectra and soft optical phonons of PbB4O7 crystal. Acta Physica Sinica, 2010, 59(7): 4640-4645. doi: 10.7498/aps.59.4640
    [18] Wang Wei-Ning. Terahertz and Raman spectra of L-threonine. Acta Physica Sinica, 2009, 58(11): 7640-7645. doi: 10.7498/aps.58.7640
    [19] Wang Wei-Ning, Li Yuan-Bo, Yue Wei-Wei. Vibrational spectrum of histidine and arginine in THz range. Acta Physica Sinica, 2007, 56(2): 781-785. doi: 10.7498/aps.56.781
    [20] Yue Wei-Wei, Wang Wei-Ning, Zhao Guo-Zhong, Zhang Cun-Lin, Yan Hai-Tao. THz spectrum of aromatic amino acid. Acta Physica Sinica, 2005, 54(7): 3094-3099. doi: 10.7498/aps.54.3094
  • 期刊类型引用(1)

    1. 陈涛,谢光翀,张绍荣. 太赫兹融合光谱结合改进Fused Lasso模型在转基因菜籽油鉴别中的应用. 光学精密工程. 2024(20): 3006-3016 . 百度学术

    其他类型引用(2)

Metrics
  • Abstract views:  3706
  • PDF Downloads:  51
  • Cited By: 3
Publishing process
  • Received Date:  27 September 2023
  • Accepted Date:  22 November 2023
  • Available Online:  13 December 2023
  • Published Online:  05 March 2024

/

返回文章
返回