学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 理工论文 基于机器学习算法的机票价格预测对比分析论文

基于机器学习算法的机票价格预测对比分析论文

5

2025-12-29 16:57:38    来源:    作者:xuling

摘要:在民航出行需求持续增长的背景下,精准的机票价格预测对航空运营策略优化和旅客行程规划具有重要意义。

  摘要:在民航出行需求持续增长的背景下,精准的机票价格预测对航空运营策略优化和旅客行程规划具有重要意义。本文构建了包含时空维度、航班属性及市场供需关系的多维特征体系,建立决策树、K近邻与随机森林预测模型,采用交叉验证方法对比分析模型的预测性能。结果显示,随机森林算法在均方误差和决定系数指标上表现最优,预测准确率较传统线性模型有了显著提高,有助于航空收益管理与旅客出行成本的双向优化。

  关键词:价格预测;决策树;K近邻;随机森林;交叉验证

  0引言

  在数字经济浪潮下,民航业数字化转型发展对挖掘市场潜能、重构竞争格局具有战略价值。机票价格预测作为核心应用场景,航空公司可通过价格制定策略来实现收益最大化[1],旅游从业者可根据价格预测结果制定精准营销策略,旅客可规划高性价比出行方案,达到多方共赢的良性循环。然而,机票定价受季节性波动、航线供需、突发事件等复杂因素影响,传统预测方法面临显著挑战。

  机器学习模型通过对历史数据的分析和建模,捕捉多维度特征之间的非线性关系,能够预测未来机票价格的趋势[2]。本文以某旅行网机票价格数据为研究对象,通过数据采集和数据预处理,提取特征并建立模型,预测并分析机票价格走势,为使用机器学习算法进行机票价格预测提供参考。

  1模型介绍

  1.1决策树模型

  决策树通过将数据集分成不同的子集来构建树形结构,每个子集对应树上的一个节点,每个节点由属性和取值组成,决策树在用于回归问题中,每个叶子结点表示的是一个数值。CART算法是决策树模型的一种实现,可用于分类和回归[3],基于特征向量进行二元划分,生成的决策树中每个非叶子节点都仅有两个子节点,并且能够分割离散量与连续量。

  1.2 K近邻算法模型

  K近邻算法(KNN)的核心思想是在训练集中找出与新数据点距离最近的K个数据点,再依据这些数据点信息进行预测[4],通常采用欧几里得距离或曼哈顿距离等方式计算距离。对于回归问题,KNN算法通常取K个最近邻数据点的目标变量的平均值作为新数据点的预测结果。KNN对数据的分布没有特定的假设,能够适应各种具有复杂关系或非线性特征的数据。

  1.3随机森林算法模型

  随机森林通过随机抽样和随机特征选择的方法构建多棵决策树,对于回归问题,将所有决策树预测值的平均值作为随机森林输出的预测值[5]。在构建每棵决策树的过程中,随机森林算法会随机选择一部分训练数据和一部分特征,在避免过拟合的同时提高算法的稳定性和准确度。

  2数据收集与处理

  利用网络爬虫技术[6]采集携程旅行网上2025年国内的机票数据,获取到60000余条具有代表性的航线的机票数据。每一条原始数据包括出发城市、到达城市、出发日期、机票价格等11个字段信息。

  在数据预处理阶段,为提高数据质量与分析价值,对原始数据进行规范化处理。将字段“客机机型”“出发机场”“到达机场”等字段的冗余信息,仅保留与航线特征、价格趋势分析直接相关的核心维度。将“出发日期”“出发时间”“抵达时间”等非数值类型字段进行拆分,即将日期拆分为月份和日,将时间拆分为小时和分钟,并转化为数值类型,提高数据的信息价值。因航班的飞行时间对于机票价格有较大影响,因此构造一个新的特征“持续时间”来增强预测性能。

  3特征工程

  在编码处理和归一化的基础上,采用卡方检验和互信息两种方法进行特征选择。卡方值越大表示特征对机票价格影响越大;互信息值越高表示机票价格对该特征依赖程度越高。

  卡方检验、互信息计算结果如表1所示,可见出发城市、到达城市、出发机场、到达机场、持续时间这五个特征对机票价格的影响较为显著。为确保训练出的预测模型的准确度,根据特征提取方法有针对性地划分出6种特征组合,作为最优的特征组合,以保证预测模型的准确度,特征组合如表2所示。

  4机票价格预测

  4.1评价指标

  利用决策树、K近邻及随机森林三种机器学习模型对机票价格预测,计算均方误差(MSE)、平均绝对误差(MAE)和拟合优度(R2),以评价和对比分析预测模型的预测效果[7]。其中,MSE表示所有样本预测值与真实值之间差值平方的平均值,MAE表示所有样本预测值与真实值之间差值绝对值的平均值,MAE和MSE的值越小,表示模型的预测误差越小;R2表示模型对样本变异性的解释程度,R2的取值范围为0~1,越接近1时,说明模型的拟合效果越好。

  4.2模型评价

  决策树、K近邻、随机森林的模型预测结果分别如图1、图2、图3所示,在模型性能与数据集的关系方面,三种模型在数据集data_4、data_5、data_6中训练出的模型的拟合优度均高于数据集data_1、data_2、data_3,均达到0.8以上,且MSE和MAE的值均低于另外3种数据集训练的结果,说明数据集data_4、data_5、data_6具有更强的特征与目标变量的相关性,预测准确性更高。

  通过对比三种模型的评估结果,选择三种模型中预测效果最好的数据集以及评估结果,如表3所示。可见在data_4上,随机森林的MSE和MAE最低,且R2最高,显著优于决策树和K近邻,说明随机森林通过集成多棵决策树,有效降低了过拟合风险,提升了泛化能力。而决策树的MSE和MAE略高于随机森林,但R2仍较高,表明其拟合能力较好,但稳定性低于随机森林。K近邻在data_5上表现最优,说明data_5的数据特性更适合K近邻的建模方式,但通过纵向对比,K近邻的模型评估结果仍低于随机森林和决策树。总体而言,随机森林的MSE和MAE均最低,且R2最高,说明其预测偏差小且稳定;所有模型的R2均超过0.83,说明模型能解释大部分数据方差,但随机森林的R2值可达到0.9225,接近完美拟合。因此,在当前数据集上,模型的性能排序为随机森林、决策树、K近邻,随机森林是机票价格预测场景下较优的选择。

  5结语

  本文在大量机票价格信息中,利用特征工程中的卡方检验与互信息检验,选择对机票价格影响较大的特征,划分出6个数据集来训练机票价格预测模型。通过观察不同数据集训练的模型结果,证实不同的特征组合对机票价格预测会有一定的影响,随机森林模型较决策树、K近模型的预测效果最好。下一步将通过研究特征之间的关联性,划分出多组不同的数据集训练模型,对比找出最合适的特征组合,进一步提高模型的预测精度。


参考文献

  [1]申志豪,李娜,尹世豪,等.基于TPA-Transformer的机票价格预测[J].数据与计算发展前沿,2023,5(6):115-125.

  [2]高栋,温建波,张凯伦,等.基于SARIMA模型的短期机票价格预测[J].现代信息科技,2024,8(13):136-140.

  [3]余思东,黄欣.CART算法在航空公司客户流失的应用[J].轻工科技,2021,37(9):76-79.

  [4]梅俊,陈建敏.基于KNN算法在糖尿病预测中的应用[J].电脑与信息技术,2024,32(1):7-9.

  [5]姚剑峰,王万雄.基于随机森林和神经网络的空气质量预测[J].软件,2024,45(8):22-27.

  [6]单文煜,吴垠,陈鹏.基于机器学习的机票价格预测研究[J].现代计算机,2020(22):35-38.

  [7]王双,徐瑶,韩建,等.基于机器学习算法的机票价格预测研究[J].民航学报,2022,6(5):16-20.