基于 Blending 集成学习模型的污染物气体定量分析算法研究论文

首页 > 学术论文库 > 理工论文基于 Blending 集成学习模型的污染物气体定量分析算法研究论文

2026-03-26 14:46:19 来源：作者：xuling

摘要：为满足有色金属冶炼过程中二氧化硫排放的精准监测需求（排放限值12.25ppm）,本研究针对实际光谱信号中存在的噪声干扰与标定样本稀缺问题,提出了一种融合预处理优选、数据增强与集成学习的分析框架。

　　摘要：为满足有色金属冶炼过程中二氧化硫排放的精准监测需求（排放限值12.25ppm）,本研究针对实际光谱信号中存在的噪声干扰与标定样本稀缺问题,提出了一种融合预处理优选、数据增强与集成学习的分析框架。实验设定SO2浓度范围10~25ppm,覆盖排放限值以验证方法适用性。该框架首先对比了多种预处理方法,筛选出最优去噪策略以提升信号质量；其次,构建带梯度惩罚的Wasserstein生成对抗网络（WGAN-GP）模型,在有限样本下实现高质量光谱数据生成,并同步从判别器提取深度光谱特征；最后,基于XGBoost、SVM与KNN构建Blending集成回归模型,融合多算法优势以提升预测鲁棒性。实验结果显示,集成模型决定系数达0.954,较最优单一模型提升超过9%,验证了所提框架在小样本条件下对SO2浓度监测的有效性与先进性。

　　关键词：光声光谱；气体检测；生成对抗网络；集成学习

　　0引言

　　有色金属冶炼过程中排放的二氧化硫（SO2）是我国大气污染治理的重点对象[1]。为严格控制排放,我国将冶炼烟气中SO2的最低允许排放浓度限定为12.25ppm,这对监测技术的精确性提出了更高要求。传统SO2检测方法如电化学法和非分散红外法存在明显局限性。电化学传感器易受交叉气体干扰[2],使用寿命有限；非分散红外法对水分和粉尘敏感[3],在冶炼恶劣环境中难以保证精度。这些方法抗干扰能力弱、维护需求高,无法满足现代冶炼监测的需求。光声光谱技术具有高灵敏度、强抗干扰能力和结构紧凑的优势,为工业气体监测提供了新的解决方案。然而,该技术在实际应用中仍面临浓度标定所需的标准气体样本稀缺的问题。为解决这个问题,本研究提出了一种融合预处理优选、数据增强与集成学习的分析框架。通过筛选最优预处理方法抑制噪声,构建WGAN-GP模型实现小样本条件下的数据生成与特征提取,并设计Blending集成模型提升预测稳健性。该研究为复杂工业环境下SO2的精准监测提供了可行的技术路径。

　　1数据获取和方法设计

　　1.1数据集的构建及预处理

　　实验以高纯氮气为背景气体,配置浓度为10~25ppm的二氧化硫目标气体,模拟工业现场样本稀缺条件。在每个浓度点采集1条光谱数据,共获得151个浓度梯度、总计151条光谱的数据集。实验在统一环境条件下进行,截取前2000个数据点作为包含完整光声信号特征的有效序列,利用多种预处理方法对原始数据进行去噪处理,对比不同方法进行最优选择。

　　1.2 WGAN-GP模型开发

　　1.2.1数据扩充及特征提取

　　为解决去噪后样本稀缺仍制约模型训练的问题,引入具有双重功能的Wasserstein生成对抗网络（WGAN-GP）[4,5]。该模型不仅能基于有限真实样本生成高保真合成数据以扩充数据集,其判别器在对抗训练中学习到的深度特征亦可作为优化后的表征用于后续回归任务。该模型的结构与数据流如图1所示,其完整的训练过程可分为一个初始化阶段与三个核心循环阶段。

　　第一阶段为特征提取与判别器前向传播过程,真实数据样本与生成器合成的数据样本被同时输入判别器网络,该网络由三层卷积下采样层构成,用于提取数据的多层次特征,并通过全局平均池化层与全连接层输出一个标量主评分,以此作为Wasserstein距离度量的基础；与此同时,一个结构相同的并行特征提取子网络同步运作,为后续生成器优化提供多尺度语义特征支持。

　　第二阶段聚焦于生成器的优化与样本生成。系统首先从先验分布采样得到噪声向量,经全连接层投影后,通过三层次反卷积层进行上采样重建,其间引入残差通路与加权融合机制,将中间层特征进行融合增强,最终输出与真实数据维度一致的生成样本。

　　第三阶段核心在于判别器的梯度惩罚优化。为严格满足1-Lipschitz连续性约束,在真实样本与生成样本的连线区间随机采样插值点,计算判别器对该插值样本的梯度并施加约束其范数趋近于1的惩罚项,结合Wasserstein距离损失共同优化判别器参数。如式（1）所示：

　　在模型训练达到稳定后,对原始数据中每个唯一的浓度条件,生成9条对应的合成光谱,使原始151条光谱的数据集扩展至1510条,规模扩大为原来的10倍。扩充后的数据集按7∶2∶1的比例随机划分为训练集、验证集和测试集,其中测试集在所有训练阶段均被严格隔离,以确保评估的无偏性。

　　特征提取在模型训练完成后进行,模型固定判别器的参数,将其作为特征提取器。特征提取阶段,利用判别器的中间层作为特征编码器。具体提取位置为最后一层卷积输出。通过对该层输出的特征图应用全局平均池化,将其聚合为256维特征向量。此方法将高维光谱数据转换为低维的深度特征表示,保留了关键光谱信息。如式（2）所示：

　　在Blending融合模型中,单个预测模型的预测能力和不同模型的组合预测效果决定了整体模型的预测性能。为优化集成效果,本研究并未使用全部候选基学习器,而是引入了一种基于性能与多样性的筛选策略,其目标是选择出“好而不同”的模型子集。选择学习能力较强的基学习器对集成模型整体预测效果的提升有一定帮助,同时,选择差异度较大的算法进行集成学习能够体现出不同算法的优势,进而提高模型的预测性能。因此,本文使用Pearson相关系数计算各个模型的误差差异度,其计算方法如式（3）所示：

　　在四种去噪方法中,小波变换（db8）取得了最佳性能,其信噪比（SNR）最高（19.96dB）,且平均绝对百分比误差（MAPE）最低（9.49%）,后续分析都在此数据基础上进行。

　　2.3生成对抗网络进行数据扩充与特征提取

　　对训练过程的深入分析是理解模型行为的关键环节。本文对WGAN-GP训练过程中的损失曲线（如图3所示）进行了分析。损失曲线直观反映了模型的收敛速度、稳定预测以及训练过程中的潜在问题。

　　损失曲线显示,WGAN-GP的训练过程呈现出典型的对抗学习动态。训练初期,生成器与判别器损失均处于合理探索阶段,随着迭代进行,判别器损失迅速收敛并保持稳定,生成器损失亦整体下降,体现出良好的持续优化能力。整个过程平稳有序,验证了WGAN-GP在梯度惩罚机制下的训练稳定性。

　　2.4 Blending集成模型结果分析

　　对不同基学习器的相关性进行分析,可以发现,LightGBM、XGBoost、GB、RF与Bagging等树模型与集成方法之间误差相关性较高,因其决策机制相似,不利于集成模型的多样性,易引发过拟合。相比之下,XGBoost、SVM与KNN三者误差相关性较低,分别基于梯度提升、结构风险最小化与局部近邻推断,从不同角度建模,具备良好的误差互补性。为构建一个兼具高精度与强泛化能力的Blending集成模型,本研究选取XGBoost、SVM与KNN作为Blending集成模型的基学习器,兼顾性能与多样性。

　　为进一步验证本文Blending融合模型的优越性,将单一模型与本文模型的预测效果进行对比,结果如图4所示。

　　Blending集成模型的预测精度显著优于各基学习器,其决定系数达到0.954,较最优单一模型LightGBM提升超过9%。

　　3结语

　　基于WGAN-GP数据增强与Blending集成学习的光声光谱分析框架成功实现了冶炼烟气中二氧化硫的高精度浓度反演。通过采用梯度惩罚机制稳定生成对抗训练,并结合多源基学习器的异质融合策略,模型显著提升了小样本条件下的预测鲁棒性。实验结果表明,该方案在决定系数与误差指标上均显著优于传统方法及单一机器学习模型,验证了其在工业小样本场景下的有效性与先进性。本研究为复杂工况下气体污染物的精准监测提供了创新的技术路径,下一阶段的研究核心是构建网络化实时监测系统。

参考文献

　　[1]许文,杨庆榜,张玥,等.我国有色金属冶炼行业产排污系数修订更新的思考及建议[J].有色金属(冶炼部分),2025(10):82-89.

　　[2]倪旭光,雷小强,严桂林,等.CO对窑尾污染源SO2测定的影响与分析[J].水泥,2024(12):46-48.

　　[3]吴晓凤,王德发,吴海,等.SO2和NO混合标准气体在生态环境监测实验室比对中的应用[J].计量学报,2023,44(5):810-817.

　　[4]刘程浩,姚超,刘向东.结合三维重建与机器学习预测上颌中切牙宽度的研究[J/OL].工程科学学报,1-13[2025-11-25].

　　[5]吕朋蓬,卜强生,郭野,等.基于梯度惩罚生成对抗网络的配电网缺失数据修复方法[J].太阳能学报,2025,46(5):185-192.

　　[6]XU X,GUAN L,WANG Z,et al.A Double-layer Forecasting Model for PV Power Forecasting Based on GRU-Informer-SVR and Blending Ensemble Learning Framework[J].Applied Soft Computing,2025,172.

　　[7]CHEN D,LI W,FANG J.Blending-based Ensemble Learning Low-voltage Station Area Theft Detection[J].Energies,2024,18(1):31.

上一篇：基于 5GCPE 的综采工作面网络数据传输时延优化方法论文

下一篇：基于 Linux 的 MySQL 数据库的部署与优化研究论文