学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 理工论文 基于强化学习的网络切片资源分配动态调整论文

基于强化学习的网络切片资源分配动态调整论文

3

2025-12-24 14:56:39    来源:    作者:xuling

摘要:为提高网络节点资源利用率,本研究引进强化学习算法,对网络切片资源分配动态调整方法展开全面的设计研究。

  摘要:为提高网络节点资源利用率,本研究引进强化学习算法,对网络切片资源分配动态调整方法展开全面的设计研究。综合资源利用率效用、服务质量效用、成本效益,建立网络切片资源效用函数;根据动作空间与虚拟空间的状态,引进强化学习算法,设计网络切片资源的编排管理;评估资源对网络切片性能的潜在影响,进行资源动态接入与即时分配调整。对比实验结果表明,提出的方法在资源利用率上实现了显著提升,平均资源利用率高出对照方法约10个百分点,表现出了高度的可靠性和优越性,说明该方法在实际应用中的效果良好。

  关键词:强化学习;效用函数;调整方法;动态;资源分配;网络切片

  0引言

  随着5G及未来通信的发展,网络切片作为关键技术,正逐步成为提升网络灵活性与效率的重要手段。其通过逻辑与物理资源分离,在共享物理基础设施上实现服务定制与隔离,满足多样化业务需求。然而,用户设备与流量激增,使切片资源的高效动态分配成为运营商的一大挑战。

  杨立伟等[1]结合轮询算法与比例公平算法,以请求速率和时延加权处理用户优先级,提升高时延用户的服务公平性,但算法复杂,实时性受限。王朝炜等[2]基于业务满足指数与吞吐量构建多目标优化模型,利用马尔可夫过程建模资源分配并动态调整策略,兼顾公平与性能。然而,其对历史与实时数据依赖较强,易受数据缺失与噪声影响。为此,本文引入强化学习算法,研究网络切片资源分配的动态优化方法。

  1建立网络切片资源效用函数

  在建立网络切片资源效用函数时,需要考虑多个因素,如资源利用率、切片的服务质量(QoS)要求、成本效益等。效用函数通常用于量化上述因素的综合效果,以便在资源分配过程中进行优化[3]。在此过程中,资源利用率是衡量资源使用效率的重要指标,可以定义一个效用函数来奖励高资源利用率,同时惩罚过低的资源利用率(可能导致资源浪费)和过高的资源利用率(可能导致性能瓶颈或过载)[4]。资源效用函数如式(1)所示:

  式中,U表示综合效用函数;w1、w2、w3表示U1(ρ)、U2(QoS)、U3(C,B)的权重。通过上述方式,完成网络切片资源综合效用函数的构建。

  2基于强化学习的资源编排管理

  在进行资源编排管理时,将其对应的网络虚拟切片空间作为状态空间,此空间包含了描述当前网络切片资源分配情况的所有必要信息。状态可以是多维向量,包括各个切片的资源利用率、QoS指标、网络负载等。对虚拟切片状态进行描述,如式(5)所示:

00df9ec0f12e3e54e2a4f81d2461240f.png

  式中,χ表示最佳调整策略;D1、D2表示调整前、后的综合效用或状态值。在实际应用中,由于未来状态的不确定性,需要使用强化学习算法估计或学习,并根据具体业务需求和网络切片目标定义效用函数,确保分配调整决策的可靠性。通过此种方式,完成资源动态接入与即时分配调整。

  4对比实验

  4.1实验准备

  本实验选取某国内大型运营商作为试点,测试网络切片资源分配的动态调整方法。该运营商用户规模庞大,截至2024年8月,移动用户超10亿,5G客户达5.33亿,网络覆盖广泛,特别在偏远地区具备优势,提供了丰富样本与复杂环境。

  其在资源管理与切片技术方面积极创新,作为试点,有助于验证强化学习方法的有效性,也为其他运营商提供参考。在某大型赛事直播中,eMBB切片因观众激增,流量需求于开场10分钟内从500Mbps飙升至1500Mbps。终端虽尝试动态调整资源,但因预测不准、响应滞后,仅在2分钟后开始调整,已导致部分用户视频卡顿,影响体验。

  4.2实验步骤

  实验使用高性能服务器或云资源,安装操作系统、仿真软件与深度学习框架,搭建测试环境,技术参数如表1所示。

  收集网络切片历史流量、用户行为与资源使用数据,用于训练强化学习模型。随后引入文献[1]和文献[2]提出的两种对照方法,与本文强化学习方法进行切片资源分配对比实验。

  4.3实验结果与分析

  资源利用率作为关键指标,反映了网络资源配置效率与性能。在实验中,实时监测各时间点与切片类型的资源使用情况,并与对照方法对比,评估强化学习模型的优化效果。高利用率意味着资源配置更高效,有助于降低成本、提升性能与用户体验。结果显示,本文方法在各节点均优于对照方法,平均提升约10个百分点,验证了其动态适应能力与分配效率。该方法为网络切片资源管理提供了更智能、高效的解决方案。

  5结语

  传统资源分配多基于静态策略,难以应对流量波动与多样化需求,易造成资源浪费与服务中断。强化学习具备在动态环境中做出最优决策的能力,能基于网络状态与业务需求,实时调整资源分配策略,提升资源利用率与用户满意度。本文引入强化学习算法,构建资源效用函数,设计资源编排与动态分配机制,弥补了传统方法的不足,提升了网络性能,为5G及未来通信提供了支持。

参考文献

  [1]杨立伟,梁雪,毕泽洋,等.基于改进轮询算法IRR的VLC/WiFi网络资源分配[J].闽南师范大学学报(自然科学版),2024,37(1):20-26.

  [2]王朝炜,庞明亮,王粟,等.基于决策性能评估的多波束低地球轨道卫星网络资源分配算法[J].通信学报,2024,45(7):37-47.

  [3]郝宇刚,张飞,付萌萌.基于空中协同无线网络资源人工智能分配算法的智慧乡村平台[J].自动化与仪器仪表,2024(7):326-330.

  [4]樊自甫,夏子航,王正强,等.硬件损伤条件下无人机辅助的NOMA-IRS网络资源分配算法[J].重庆理工大学学报(自然科学),2024,38(3):275-285.

  [5]裴二荣,娄宇涵,李永刚,等.一种面向多任务的无人机辅助的通信网络资源分配与轨迹优化研究[J].电子与信息学报,2024,46(7):2748-2756.

  [6]吕莹楠,尹奇龙,赵健.基于深度神经网络的数据中心光互连网络资源分配方法[J].激光杂志,2024,45(2):181-186.

  [7]尚晓凯,韩龙龙,翟慧鹏.基于改进DQN强化学习算法的弹性光网络资源分配研究[J].光通信技术,2023,47(5):12-15.