基于梯度提升树模型的新能源二手车价值评估论文

2025-02-12 17:05:07 来源: 作者:xuling
摘要:随着新能源汽车规模的快速扩大,大量的新能源汽车涌入二手车市场。文章选取来自瓜子二手车网站的近1 000项数据集作为样本,结合特征价格理论,选取19个评估维度作为特征,通过随机森林算法对特征重要性进行排序,剔除不重要的特征变量后选用梯度提升树作为预测模型。
摘要:随着新能源汽车规模的快速扩大,大量的新能源汽车涌入二手车市场。文章选取来自瓜子二手车网站的近1 000项数据集作为样本,结合特征价格理论,选取19个评估维度作为特征,通过随机森林算法对特征重要性进行排序,剔除不重要的特征变量后选用梯度提升树作为预测模型。经过参数优化,梯度提升树模型的拟合优度为0.98,平均绝对误差为0.37,结果证明梯度提升树模型对于纯电动二手车价值评估具有一定作用。
关键词:新能源二手车,价值评估,梯度提升树,随机森林
引言
随着新能源汽车规模的快速扩大,市场保有量持续增加,大量的新能源汽车将涌入二手车市场。二手车市场的发展对于推动汽车消费市场的增长至关重要,它不仅是汽车全生命周期中不可或缺的一部分,还可以激发新的汽车消费,推动汽车后市场的发展,从而实现汽车梯次消费的目标。随着二手车成交量的不断增长,如何对二手车进行快速准的评估也成为了国内学者们关注的焦点。近几年,机器学习模型凭借准确率和效率优势,开始得到越来越多国内学者的关注。
刘聪等(2017)[1]利用AdaBoost技术对二手车价值进行评估,结果证明该技术的准确性比传统的决策树方法提升了很多。毛攀等(2020)[2]采用BP神经网络二手车价格评估模型进行计算,结果显示模型预测价格与实际价格相关系数达到0.96,根据所建模型的连接权值得出了二手车价格评估影响权重值较大的7个因素:综合油耗、车辆售后满意度、车龄、车辆可靠性、舒适性、外观、当前里程数。郑婕(2021)[3]利用随机森林算法进行变量选择,再通过对比XGBoost,GBDT和lightGBM三种算法后选用XGBoost算法进行二手车价格预测,得到最优的二手车价格预测结果。李钰等(2022)[4]基于LightGBM提出一种二手车价值评估模型,二手车价格预测的平均绝对误差比传统DNN、XGBoost模型降低了34.41%和11.83%。
根据上述文献,已有研究的研究对象大部分是燃油车,对纯电动二手车的价值评估研究还不及燃油车丰富。研究机器学习算法在二手纯电动新能源汽车估值评估领域的适用性,能够为二手纯电动汽车交易市场的规范化发展提供更多的创新思路,为市场参与者提供一个可信赖的理论参考价格,为管理者在制定二手新能源汽车技术评估规范时提供理论参考依据[5]。
一、梯度提升树算法介绍
(一)计算步骤
梯度提升树(Gradient Boosting Decision Tree,GBDT)以CART回归树作为弱分类器,每次建立的新的模型都基于上一个模型的损失函数的负梯度,在逐次的迭代中使得模型残差不断减小,最终形成一个预测能力较强的集成模型[6]。计算步骤如下。
第一,确定训练样本集。
(二)适用性分析
GBDT中的每个决策树都是基于可解释的特征进行构建的,具有预测准确性高、鲁棒性强的优点,能够清晰地呈现数据和预测结果之间的关系[7]。
二手车价值评估的指标较多,数据复杂,很适合用梯度提升树算法构建评估模型。基于GBDT建立价格预估模型后,支持同时处理海量数据,并且可以实时地根据每辆二手车的实际车况进行更准确的评估,提高评估效率的同时也降低了人工评测的误差。因此,基于GBDT搭建新能源二手车价值评估模型不仅可以实现价格预估,还比其他评估方法更便捷和准确。
二、数据样本
通过瓜子二手车直卖网的公开数据可知,能源形式为纯电动的新能源二手车在交易市场所占份额最多,因此,本文仅选取能源形式为纯电动的新能源二手车为研究对象。
2023年12月30日,本文从瓜子二手车直卖网的公开数据中通过使用Python爬虫技术,在瓜子二手车直卖网上收集了近1 500辆新能源二手车的数据。这些车辆的品牌、行驶里程、上牌时间、性能参数和厂家指导价等多个信息都已经被收录。对爬取的1 500条数据进行数据清洗,剔除重复值、缺失值及异常值以确保数据的完整性和准确性,最终获得近1 000辆有效新能源二手车售卖信息,并将清洗后的二手车数据保存至Excel文件中。
三、特征变量体系的建立
(一)特征变量的选取和量化
特征价格理论能够很好地处理不同质量产品的差异特征与产品价格之间的关系,因而被广泛应用于资产评估领域,特别是在房地产评估和新车定价领域,特征价格理论发挥了重要作用[8]。特征价格理论所具有的科学性可以更好地促进二手纯电动汽车的交易流通,推动二手纯电动汽车交易市场的健康发展。因此,本文基于特征价格理论对新能源二手车特征变量进行筛选。
二手车的特征价格模型可以用如下公式表示。
P=f(Z)=f(A,B,C)(6)
其中,P为二手车的市场价格,A为实体特征变量,B为功能特征变量,C为市场特征变量。
本文结合特征价格理论和二手车网站的公开车辆信息完整度,选取了19个特征变量,如表1所示。
(二)基于随机森林模型的特征变量筛选
基于随机森林算法的特征重要性评估原理。
随机森林是Bagging集成学习方法的代表性算法,由多个决策树组成,在特征变量重要性分析中具有广泛的用途[9]。随机森林进行特征重要性评估的思想是计算各个特征在随机森林中的每棵树上做出的贡献,通过比较特征之间的贡献大小来进行特征重要性排序。
贡献大小通常使用基尼指数(Gini index)或者袋外数据(OOB)错误率作为评估指标来衡量[10]。以基尼指数为例,将变量重要性评分(variable importance measures)用VIM来表示,将Gini指数用GI来表示,假设d个特征X1,X2,……,Xd。现在要计算出每个特征Xj的Gini指数评分IM;,即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量[11]。
(三)基于随机森林算法的特征变量重要性排序
sklearn(scikit-learn)是一种使用Python编程语言设计的机器学习工具,调用sklearn中ensemble模块下的随机森林分类器(Random Forest Classifier)对19个特征变量的重要性水平从高到低进行排序,然后剔除掉重要性水平小于0.01的特征,如表2所示。
由表2可知,19个特征变量中“行驶里程”“使用年限”和“新车价格”重要性排名前三,反观“驱动方式”“座位数”“电池类型”和“电机类型”重要性水平较低,其中“电机类型”的重要性水平低于0.01,因此剔除该变量,保留其余18个特征变量。
四、梯度提升树模型的训练与测试
(一)数据集的划分
将量化后的全部数据按照8:2的比例分为训练集(train)和测试集(test),训练集用于生成模型,测试集用于检验和评估生成的模型是否符合要求。
(二)初始模型
使用“from sklearn.ensemble import Gradient Boosting Regressor as GBR”,从sklearn.ensemble调用GBDT算法。将训练集导入模型进行训练,再利用测试集数据进行验证。此过程中,需要对GBDT模型的参数进行设置,参数取值不同会影响模型的预测准确率,当确定最优参数后,使用最优参数进行预测。其中,涉及的重要参数如表3所示。
当使用默认参数进入预测时,模型评估结果如表4所示。
根据这三个评价指标,可以判断模型基本达到要求,但还有进步的空间。下文将通过调整参数对模型进行优化。
(三)参数优化
本文使用scikit-learn的GridSearchCV来寻找最优参数。GridSearchCV存在的意义就是自动调参,只要把参数传递进去,就可以得出最优化的参数和结果[12]。其重要参数如表5所示。
经过多次对比实验,最后得到的最优参数组合为:“Best Parameters:{'learning_rate':0.1,'max_depth':4,'min_ samples_leaf':1,'min_samples_split':2,'n_estimators':100}”,最优参数组合下的模型评估结果如表6所示。
(四)模型学习能力评估
将测试集的200多条数据代入训练模型中做预测,结果如图1所示。图中横坐标为测试集的数据个数,纵坐标为价格,蓝色部分为测试数据集二手车的真实售价,黄色部分为基于梯度提升树模型的二手车预测价格,从图中可以看到,纯电动二手车价格的预测值和真实值的误差较小。
(五)案例分析
从瓜子二手车网站选取了5辆不同品牌不同价位的新能源二手车,详细车辆信息如表7所示。
预测结果如表8所示,经过预测,相对误差从4.3%降到0.3%,平均相对误差仅为2.68%,这一结果完全符合二手车交易评估的要求,从而有力地证明了本文提出的纯电动二手车价值评估模型是可行的。
五、总结
当前我国评估行业仍然采用传统的评估方法对二手新能源汽车进行价值评估,其评估成本较高且评估效率较低,不能满足当下二手新能源汽车交易市场信息数据化的现实需要。实操中亟需一种更为准确、适用更广、省时省力的自动化估价模型。本文发挥机器学习在数据处理、智能化等方面的优势,能够根据车况数据实现批量评估,为评估新能源二手车提供一种新的途径,这不仅能帮助消费者和卖家根据评估价格合理判断新能源二手车剩余价值,还能降低经销商收购新能源二手车的风险成本,从而激发新能源汽车产业的增长潜力[13]。
参考文献:
[1]刘聪,程希明.基于AdaBoost的二手车价值评估方法[J].北京信息科技大学学报(自然科学版),2017,32(3):49-53.
[2]毛攀,蔡云,万雄,等.基于BP神经网络的二手车价格评估影响因素研究[J].汽车实用技术,2020(4):59-63.
[3]郑婕.基于随机森林和XGBoost算法的二手车价格预测[J].数字技术与应用,2021,39(6):90-93.
[4]李钰,张蝶依.基于LightGBM的二手车价值评估的研究[J].现代计算机,2022,28(20):65-67.
[5]李富强,彭海丽,杨熙,等.基于深度学习的二手车价格预测模型及影响分析[J].汽车工程学报,2021,11(5):379-385.
[6]吴泽芸,范乔希.二手车保值率影响因素分析[J].营销界,2021,23(16):109-111.
[7]王传杏,郑艳,沈易晨.基于特征价格理论的二手车价值估计模型研究[J].时代汽车,2020,16(21):170-172.
[8]金加龙.基于聚类分析的新能源二手车保值率评估研究[J].内燃机与配件,2021,21(17):160-162.
[9]赵卫东,董亮.《机器学习》[M].北京:人民邮电出版社,2015:134-135.
[10]金之熔.基于随机森林的二手车定价策略研究[J].科技经济市场,2023,13(6):89-91.
[11]许书军,鲍欢欢,许广健,等.新能源二手车流通体系发展策略分析[J].中国市场,2023,17(20):67-72.
[12]黄金铭,杜蒙.基于Stacking集成学习构建二手车价格预测模型[J].中国科技信息,2023,12(14):88-89.
[13]陆平,陈笑天.基于梯度提升树模型的网络优惠券使用预测[J].科学技术与工程,2019,19(18):234-238.
