基于 LSTM-PCA 的网络入侵检测技术研究

首页 > 学术论文库 > 理工论文基于 LSTM-PCA 的网络入侵检测技术研究

2026-05-09 17:22:39 来源：作者：liunanfang

摘要：当前, 传统的入侵检测系统在面对高维度、冗余性强的数据时, 检测效率和准确性受到限制。

摘要：当前, 传统的入侵检测系统在面对高维度、冗余性强的数据时, 检测效率和准确性受到限制。为此, 本文提出了一种基于长短期记忆网络的网络入侵检测方法。首先, 利用 PCA 对原始数据进行降维, 提取主要特征,减少数据冗余；其次,将降维后的数据输入 LSTM 模型,进行训练和分类。实验结果表明,该方法在二分类和多分类任务中均取得了优异的检测性能,准确率分别达到 99.44% 和 99.36%,有效提升了入侵检测的准确性和效率。

关键词：网络入侵检测；长短期记忆网络；主成分分析

0 引言

近年来,深度学习技术在各个领域取得了显著成果,特别是长短期记忆网络（Long Short-Term Memory, LSTM）在处理时间序列数据方面展现出了独特优势 [1]。数据的高维性和冗余性是影响检测性能的重要因素, 主成分分析（Principal Component Analysis, PCA）作为一种有效的降维方法,能够提取主要特征,减少数据冗余 [2]。因此,本文提出将 PCA 与 LSTM 相结合,构建高效的网络入侵检测模型,以期提升检测的准确性和实时性。

1 相关基础理论

1.1 LSTM 网络

LSTM 是一种改进的循环神经网络（Recurrent Neural Network, RNN）,通过引入门控结构, 能够在时间步长上灵活控制信息的保留与遗忘, 从而捕获长期依赖关系并提高模型的学习能力。

LSTM 网络结构如图 1 所示。

在 LSTM 中,核心是单元状态 Ct,它在每个时间步通过门控机制进行更新。首先,遗忘门ft 决定了前一时刻的单元状态中哪些信息需要被舍弃,其计算公式如式（1）所示：

ft = σ (Wf .[ht −1, xt ] + bf ) （1）

式中, xt 表示当前输入；ht-1 表示前一时刻的隐藏状态；Wt 和 bt 分别为遗忘门的权重和偏置；σ 为 Sigmoid激活函数,用于输出 0 到 1 之间的数值。其次,输入门it 确定当前时刻有多少新信息需要加入到单元状态中,其计算公式如式（2）所示：

it = σ (Wi .[ht −1, xt ] + bi ) （2）

通过这些计算,新单元状态 Ct 可以更新,如式（4）所示：

Ct = ft ·Ct −1 + it Ct （4）

式中, · 表示逐元素乘法。这样, LSTM 能够在保留旧信息的同时引入新信息,从而形成长期记忆。最后,输出门 ot 决定了当前单元状态中哪些部分将用于计算隐藏状态 ht,公式如式（5）所示：

ot = σ (Wo .[ht −1, xt ] + bo ) （5）
最终的隐藏状态确定公式如式（6）所示：

ht =ot ·tanh(Ct) （6）

通过以上门控机制, LSTM 实现了在序列数据中的信息选择性传递,不仅有效缓解了梯度消失的问题,而且显著提升了对长序列数据依赖关系的建模能力。

1.2 特征选择与学习

本研究采用 PCA 和互信息（Mutual Information, MI）两种方法对数据集进行降维处理。

PCA 是一种常用的降维方法,特别适用于特征维度较高且变量之间存在一定相关性的情况。该方法通过构造新的不相关变量（即主成分）,最大程度地保留数据的方差信息,以减少特征空间的维度。具体而言, PCA首先对数据进行标准化处理,然后通过计算数据的协方差矩阵获取特征值和特征向量,如式（7）所示：

式中, n 表示数据集中样本的总数；xi 表示数据样本；xi 是均值向量；C 为协方差矩阵。其次,将特征值按降序排列,并选取前 k 个特征值对应的特征向量构建投影矩阵 Pk（其中 k ＜ d, d 为原始特征维数）。最后,原始数据X 通过投影矩阵进行变换,得到降维后的特征子空间,如式（8）所示：

Z=XPk （8）

这一过程不仅降低了计算成本,还减小了参数估计的误差,提高了模型的训练效率。

MI 的核心思想是计算一个随机变量包含关于另一个随机变量的信息量,并基于此为每个特征分配一个重要性评分。设 X 和 Y 为两个离散随机变量, 其 MI 定义如式（9）所示：

式中, p(x,y) 为X 和 Y 的联合概率分布；p(x) 和p(y) 分别是X 和 Y 的边际概率分布。MI 值越大,表示变量之间的相关性越强,反之则表明变量之间的独立性较高。因此,在特征选择过程中,可以利用 MI 度量挑选与目标变量高度相关的特征,从而去除冗余信息,提高模型的预测能力。

2 基于 LSTM-PCA 的网络入侵检测算法

2.1 算法流程

本研究构建了一个基于 LSTM-PCA 的网络入侵检测算法,整体的算法处理流程如图 2 所示。首先,通过网络捕获工具（如 Sniﬀer）从实际网络环境中获取大量连接数据,并提取出原始特征信息 [3]。数据预处理模块对这些数据进行清洗和标准化,将字符型数据转换为数值型数据,并对数据进行归一化操作,形成统一的输入向量,确保后续处理的一致性和有效性 [4]。

经过预处理的原始数据随后被送入 PCA 模块。PCA在这一阶段的作用是筛选出最能描述数据变化的主要特征,同时剔除冗余信息,显著降低数据的维度。利用这种方法,能够获得一个紧凑而高效的特征子集,为接下来的分类任务奠定坚实的数据基础。

降维后的数据被输入 LSTM 网络中。系统根据不同的实验模式分为训练和测试两个阶段。在训练阶段, LSTM模型不断迭代学习, 通过不断更新网络参数实现最佳的特征表征能力,并将训练好的模型参数存入事件日志库；在测试阶段,模型接收新的输入数据并进行实时判断,输出最终的分类结果,并对被检测为攻击行为的事件触发相应的响应机制。整个过程通过自动与手动控制模式的结合,实现了对网络连接异常状态的准确识别和及时处理。

通过对原始数据的精细预处理、特征降维和 LSTM 分类检测,系统成功地捕捉到网络流量中的关键模式,并在面对动态变化和多种干扰时,依然保持较好的识别性能。

2.2 数据集及预处理

在数据集方面,本研究使用了 KDDCUP’99 数据集进行实验。原始训练数据经过预处理后约包含 500 万条连接记录,每条连接记录均由 53 个特征描述,攻击类别包括 DoS（拒绝服务攻击）、Probe（监视和探测活动）、U2R（普通用户对本地超级用户权限的非法访问）、R2L（远程到本地攻击）以及正常连接五类,其中四类攻击进一步细分为 22 种不同攻击类型。数据中攻击记录数量远大于正常记录,直接使用会导致模型训练时出现不平衡问题,因此,本文采用数据采样技术对数据进行平衡处理。在二元分类任务中,将数据标签分为正常和攻击两类,通过随机抽样分别选取 104000 条正常记录和 105000 条攻击记录；而在多分类任务中, 将攻击分为三类（即 Normal、DoS和 R2L）, 并分别从原始数据中抽样得到 135000、105000和 105000 条记录以构建均衡数据集。

2.3 特征降维与相关性分析

本研究采用 PCA 对原始数据进行降维处理,以减少高维特征空间对模型训练效率和准确性的影响。通过计算 53 个特征的解释方差百分比发现,在二元分类任务中,前两个主成分就能解释超过 72% 的数据方差,而在多分类任务中,这一比例甚至超过 75%。利用仅包含两个或三个主成分的简化数据集,对分类模型进行测试,结果表明降维后数据依然能充分表达原始信息,同时大大降低了计算成本和模型复杂度。

此外,本研究使用 MI 方法评估每个特征与目标变量之间的统计相关性 [5]。在二元分类任务中,特征 21、3、 2 和 4 的 MI 得分最高,表明这些特征对于减少数据不确定性起到了关键作用；尽管大约 10 个特征的得分较高,但剩余特征对整体分类性能的影响较小。基于这一评估,分别采用 4 个和 10 个特征作为输入,对模型进行了验证,并对多分类任务中的相同数量特征也开展了实验,从而证明了所选特征集在提高模型判别能力方面的有效性。

3 实验结果及分析

3.1 实验配置

本文利用 Keras 框架在 Google Colab 平台上实现了一个 LSTM 模型。预处理后的数据集按照 60% 用于训练、20% 用于验证以及 20% 用于测试的比例进行划分。该 LSTM 模型的整体架构如图 3 所示,各项参数设置如表 1 所示。模型评估采用准确率、召回率、精确率和 F1 分数指标,以全面衡量模型的检测效果。

3.2 实验结果及分析

本研究分别对二分类和多分类问题进行了实验,并采用 PCA 和 MI 方法对数据进行降维,再利用 LSTM进行分类。实验结果如表 2 所示, LSTM-PCA 方法在所有评价指标上均取得了最佳性能,这表明 PCA 在降噪、去除冗余特征以及降低维度方面的优势极大地促进了分类器对特征的学习。虽然 LSTM 在二分类任务中表现良好,但在多分类任务中的表现明显逊色,这可能与多分类数据集中的噪声较多有关。