基于特征金字塔深度森林网络的工业控制流量异常识别论文
2026-05-11 17:08:39 来源: 作者:xuling
摘要:为解决工业控制系统流量异常检测中特征表达不足和小样本分类难题,本研究提出了一种融合特征金字塔网络与深度森林的异常识别方法。
摘要:为解决工业控制系统流量异常检测中特征表达不足和小样本分类难题,本研究提出了一种融合特征金字塔网络与深度森林的异常识别方法。该方法采用改进孤立森林进行数据预处理,结合特征金字塔网络提取多尺度流量特征,利用深度森林进行分层异常识别。在SWaT和UNSW-ICS数据集上的实验结果显示,本方法准确率分别达到98.45%和96.78%,F1分数均超过0.97,表明多尺度特征融合与级联森林结构的结合能够有效提升工业控制流量异常检测的准确性和鲁棒性。
关键词:工业控制系统;异常检测;特征金字塔网络
0引言
随着工业4.0和智能制造的快速发展,工业控制系统面临着日益严峻的网络安全威胁,流量异常检测成为保障系统安全运行的关键技术。然而,现有方法在处理高维异构流量数据时存在特征表达能力不足、小样本学习效果差以及实时性难以保证等问题,难以满足工业场景的复杂需求。本文提出基于特征金字塔深度森林网络的工业控制流量异常识别方法,通过多尺度特征融合与级联森林结构实现高精度异常检测。本研究旨在构建适用于工业控制系统的高效、鲁棒的异常检测模型,提升关键基础设施的安全防护能力。
1基于特征金字塔深度森林网络的工业控制流量异常识别方法
1.1工业控制流量数据预处理
工业控制系统(ICS)流量数据具有高维、异构和含噪的特点。为确保后续特征提取的质量,需要进行系统的数据预处理[1]。
首先,进行数据噪声检测与清洗。设原始ICS流量数据集为D={x1,x2,...,xn},其中xi∈Rd表示第i条流量数据的原始特征向量,d为特征维度。采用孤立森林(Isolation Forest)进行异常点检测,其异常度得分计算如式(1)所示:



现毫秒级的检测延迟,满足ICS秒级响应需求。
2实验分析
2.1实验环境
本研究采用两个权威ICS流量数据集进行验证[5]。首先使用安全水处理系统数据集(SWaT),包含41天的连续运行流量,共1456930条记录,正常流量占93.5%,攻击流量占6.5%,涵盖八类典型ICS攻击场景。其次采用UNSW-ICS数据集,包含2540044条记录,涵盖九种攻击类型。SWaT数据集按8∶1∶1的比例划分为训练集、验证集和测试集;UNSW-ICS数据集按70%∶15%∶15%的比例划分。所有流量数据提取33维特征,包括包长分布、协议类型、时间间隔、功能码、寄存器地址等Modbus/TCP特有属性。
实验在Linux操作系统(Ubuntu 20.04 LTS)上进行,开发环境为Python 3.8.10。核心依赖库包括scikit-learn 0.24.2、TensorFlow 2.5.0、gcForest库和matplotlib 3.3.4。特征提取基于dpkt库进行PCAP文件解析,数据预处理采用scikit-learn的Pipeline机制。实验运行在工作站上。主要设备为NVIDIA RTX 3090 GPU(24GB显存)和Intel Xeon W-2145 CPU(18核36线程),内存256GB DDR4。特征提取在CPU上执行(约2小时),模型训练在GPU上执行(约30分钟)。
为验证所提方法的有效性,选择四个基准方法进行对比。随机森林(RF)使用33维特征,100棵决策树、深度15;孤立森林(IF)树数100,污染因子为数据集实际异常比例;CNN-LSTM包含一个卷积层(64个3×3滤波器)、一个LSTM层(128个单元)和两个全连接层,学习率0.001,训练50个epoch;BiGAN使用对称的编码器-生成器结构,学习率0.0002,训练100个epoch。本文方法采用FPN特征金字塔(四个尺度P2-P5)和深度森林(三层级联结构,每层4个基学习器)。所有方法采用5折交叉验证,评估指标包括准确率和F1分数。所有实验重复5次取平均值与标准差,训练过程使用早停策略防止过拟合。
2.2实验结果
本文方法与四个对比方法在SWaT和UNSW-ICS两个数据集上的性能指标对比如表1所示。

由表1可知,本文方法与四个对比方法在SWaT和UNSW-ICS两个数据集上的准确率对比如表2所示。本文方法(FPN-DF)在SWaT数据集上的准确率达到98.45%,相比最好的基线方法CNN-LSTM提升2.37个百分点;在UNSW-ICS数据集上的准确率达到96.78%,提升1.85个百分点。传统随机森林的准确率仅为92%左右,孤立森林不足80%,而CNN-LSTM达到96%以上。本文方法在两个数据集上均表现出最优的准确率和最强的稳定性。
3结语
本文针对工业控制系统流量异常检测问题,提出了融合特征金字塔网络与深度森林的识别方法,通过多尺度特征提取和级联森林分类实现了高精度异常检测。实验结果表明,该方法在SWaT和UNSW-ICS数据集上的准确率分别达到98.45%和96.78%,显著优于传统机器学习和深度学习方法,且具有更强的鲁棒性和泛化能力。未来研究应进一步优化模型的实时性能,探索联邦学习框架下的分布式异常检测机制,并扩展至更多工业协议场景,以适应日益复杂的工业网络安全需求。
参考文献
[1]郑湘辉,张雪冰.基于无监督机器学习的通信网络流量异常检测方法[J].北部湾大学学报,2025,40(6):44-51.
[2]方慧婷.网络安全背景下大规模网络攻击流量异常行为识别研究[J].信息化研究,2025,51(4):54-62+68.
[3]田博宇.无线通信网络异常流量动态检测方法研究[J].无线互联科技,2025,22(10):106-110.
[4]张力.网络流量异常监测中监测模型的应用[J].中国信息化,2024(11):115-116.
[5]张光勇.基于哈希算法的分布式校园网络流量异常检测方法[J].信息技术与信息化,2024(10):170-174.