学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 理工论文 基于改进 GAIN 算法的用户套餐缺失数据插补方法研究论文

基于改进 GAIN 算法的用户套餐缺失数据插补方法研究论文

0

2026-03-30 17:17:45    来源:    作者:xuling

摘要:针对移动用户套餐数据高缺失、异质性强与字段耦合复杂导致插补精度与稳定性不足的问题,本文提出了一种基于改进生成对抗插补网络(Generative AdversarialImputation Nets,GAIN)的缺失值插补方法。

  摘要:针对移动用户套餐数据高缺失、异质性强与字段耦合复杂导致插补精度与稳定性不足的问题,本文提出了一种基于改进生成对抗插补网络(Generative AdversarialImputation Nets,GAIN)的缺失值插补方法。该方法在GAIN框架上构建动态Hint矩阵,依据字段缺失率与相关性自适应调整Hint权重;在生成器中引入多头自注意力机制以显式建模跨字段依赖;采用Wasserstein距离与梯度惩罚稳定对抗训练,同时在生成器目标中加入加权重建误差项以提升数值精度。实验结果表明,改进GAIN算法在多项评价指标上优于基线方法,并在高缺失率下保持了较好的稳定性与插补精度。

  关键词:缺失值插补;生成对抗插补网络;动态Hint;注意力机制;移动用户套餐数据

  0引言

  随着5G与大数据发展,运营商积累了海量移动用户套餐数据,然而,受采集途径多样化与用户行为复杂性影响,套餐数据普遍存在缺失,降低了下游数据分析的可靠性[1]。

  针对缺失值处理,国内外学者提出了多种插补策略。例如,施虹等针对传统的聚类算法无法直接处理不完备数据集的问题,提出了一种基于传统聚类算法的均值插补不完备数据的聚类方法[2]。邵良杉提出了基于多模型融合的不完整数据分数插补算法FIB[3]。Razavi-Far等人提出了一种基于K最近邻算法用于预计算的新的缺失数据插补方法KEMI[4]。近年来,基于生成对抗网络的GAIN实现缺失值插补成为研究的重要方向。但在移动用户套餐数据这类高维稀疏、字段耦合强的场景中,原始GAIN仍存在Hint引导不足、跨字段依赖建模弱、训练不稳定等问题。

  为此,本文提出一种面向移动用户套餐数据的改进GAIN插补算法,通过动态Hint、注意力机制与复合损失函数设计,提升插补质量与稳定性。

  1基于改进GAIN算法的用户套餐缺失数据插补方法研究架构

  本节介绍基于GAIN改进算法的移动用户套餐数据智能插补方法研究架构,如图1所示。该方法由数据采集、数据预处理、缺失值插补与效果评估四部分组成。

c155c674f3c58848e218cdf9eed44531.png

       1.1数据采集

  数据采集面向运营商用户业务全流程,从核心业务系统与多渠道汇聚数据。采集内容覆盖用户基础属性、套餐与资费信息、通信使用行为特征(如语音与流量使用强度)以及增值业务使用情况等多维指标。

  1.2数据预处理

  通过数据预处理降低噪声与异常分布对插补训练稳定性的影响。本文预处理流程包括段清洗与一致化、异常值处理、缺失情况统计与样本筛选。同时,结合统计检验对缺失机制进行分类分析[5],为后续插补策略与评估提供依据。

  1.3数据插补

  改进GAIN算法通过动态Hint机制与注意力结构增强字段间依赖建模,并结合参数优化提升训练稳定性与插补精度,使用RMSE、MAE、R2等误差指标,并辅以直方图、相关性热力图与散点图等可视化,从数值误差与分布保持两方面综合比较插补效果。最后在统一的随机遮蔽设置下,与KNN、MICE、XGBoost、LightGBM等方法对比评估。

  1.4应用服务

  套餐数据支撑套餐智能推荐、用户流失预测、用户分群管理与网络规划等任务,数据缺失会引发特征失真与决策偏差。本文方法在提升插补精度的同时保持分布与相关结构,为下游建模提供更可靠的数据基础。

  2基于改进GAIN算法的用户套餐缺失数据插补方法设计与实现

  移动用户套餐数据普遍存在缺失率高、字段异质性强及跨字段依赖显著等问题,DOU/MOU/收入等关键行为与消费指标同时受套餐档位、用户属性与业务偏好共同影响。原始GAIN受限于静态Hint与MLP生成器,难以有效引导高缺失关键字段,且对抗训练易震荡,导致插补精度与稳定性不足。为此,本文提出改进GAIN算法[6],如图2所示,核心改进包括基于缺失率与相关性等信息的动态Hint分配;引入多头自注意力生成器以增强字段交互建模;采用WGAN-GP并叠加加权重建约束与动态参数调度,以提升训练稳定性与插补精度[7]。

  2.1动态Hint矩阵构建策略

  本文为字段引入自适应提示概率Pj,让每个字段都有自己的提示强度,并结合字段缺失率、字段与“套餐”标签的相关性以及字段重要性对Pj进行校准,以增强关键字段在对抗学习中的条件约束。

  4结语

  移动通信领域的用户数据常面临高缺失、多字段异构的挑战,本文以移动套餐数据为具体场景,提出了改进GAIN算法的插补框架,通过增强提示机制、特征建模以及稳定对抗训练过程,提高插补结果的一致性与可用性,从而减少数据缺失对下游预测与决策的干扰。基于插补数据的用户画像与套餐相关分析可以为后续画像建模、精准营销与套餐智能推荐等应用提供更高质量的数据基础,同时可为其他存在缺失场景的数据治理提供一定的参考。

参考文献

  [1]YOOH J,JORDON J,SCHAAAR M V D.GAIN:Missing Data Imputation using Generative Adversarial Nets[J].Proceedings of the 35th International Conference on Machine Learning,2018,80:5689-5698.

  [2]施虹,杨鑫,王平心.改进的均值插补不完备数据聚类算法[J].江苏科技大学学报(自然科学版),2020,34(4):51-56.

  [3]邵良杉,赵松泽.基于多模型融合的不完整数据分数插补算法[J].计算机工程,2023,49(9):79-88,98.

  [4]RAZAVI-FAR R,CHENG B,SAIF M,et al.Similarity learning Information-fusion Schemes for Missing Data Imputation[J].Knowledge-Based Systems,2020,187:104805.

  [5]熊中敏,郭怀宇,吴月欣.缺失数据处理方法研究综述[J].计算机工程与应用,2021,57(14):27-38.

  [6]SUN Y,LI J,XU Y,et al.Deep Learning Versus Conventional Methods for Missing Data Imputation:A Review and Comparative Study[J].Expert Systems With Applications,2023,227:120201.

  [7]SHAHBAZIAN R,TRUBITSYNA I.DEGAIN:Generative-Adversarial-Network-Based Missing Data Imputation.Information[J].Best IDEAS:International Database Engineered Applications Symposium,2022,13(12):575.

  [8]DO H L,HAN J K.A Self-Attention-Based Imputation Technique for Enhancing Tabular Data Quality[J].Data,2023,8(6):102.

  [9]刘子建,丁维龙,邢梦达,等.Conv-WGAIN:面向多元时序数据缺失的卷积生成对抗插补网络模型[J].计算机工程与科学,2023,45(5):931-939.

  [10]MOHAMMED Y S,ABDELKADER H,PLAWIAK P,et al.A Novel Model to Optimize Multiple Imputation Algorithm for Missing Data Using Evolution Methods[J].Biomedical Signal Processing and Control,2022(7):76.

  [11]DONG W,FONG D Y T,YOON J S,et al.Generative Adversarial Networks for Imputing Missing Data for Big Data Clinical Research[J].BMC Medical Research Methodology,2021,21:78.

  [12]聂昕,刘文涛,陈少伟,等.基于BS-TabNet和LSSA的车架智能轻量化设计[J].湖南大学学报(自然科学版),2024,51(2):163-176.

  [13]张博玮,郑建飞,胡昌华,等.基于流模型的缺失数据生成方法在剩余寿命预测中的应用[J].自动化学报,2023,49(1):185-196.

  [14]马帅印,高丽丽,贺锦峰,等.基于SSA-LSTM的转炉炼钢终点锰含量预测[J].工程科学学报,2024,46(10):1764-1775.