随机森林模型在软件企业价值评估中的应用研究论文

2024-06-05 09:22:22 来源: 作者:xieshijia
摘要:软件企业因其技术更新快、产品附加值高、易存未知性等特点,运用传统的评估方法容易造成其评估值失真。针对软件企业价值评估的难点与重点,文章提出了基于随机森林模型的软件企业价值评估方法,采用平均下降精度、平均下降基尼系数并结合相关系数聚类法构建模型指标体系。使用A股软件企业样本数据进行实证分析。研究得出:随机森林模型的拟合优度为92.7%,拟合效果较好;在重要性分析上,影响软件企业价值最重要的三个因素为研发投入金额、营业总收入增长率和息前税后利润。
摘要:软件企业因其技术更新快、产品附加值高、易存未知性等特点,运用传统的评估方法容易造成其评估值失真。针对软件企业价值评估的难点与重点,文章提出了基于随机森林模型的软件企业价值评估方法,采用平均下降精度、平均下降基尼系数并结合相关系数聚类法构建模型指标体系。使用A股软件企业样本数据进行实证分析。研究得出:随机森林模型的拟合优度为92.7%,拟合效果较好;在重要性分析上,影响软件企业价值最重要的三个因素为研发投入金额、营业总收入增长率和息前税后利润。
关键词:企业价值评估;软件企业;随机森林模型
引言
软件企业作为近年来迅猛发展的新兴行业,其运营模式不同于传统的实体企业,需要大量的资金进行市场开拓、规模扩张、兼并重组等一系列经营战略,合理的价值判断有利于企业经营者经营管理和投资者投资决策。在软件企业价值研究领域,我国学者主要通过EVA、实物期权法等估值模型进行企业价值评估,而国外关于该领域的研究相对较少。因此本文选取我国A股软件企业财务数据和非财务数据进行实证分析,探究随机森林模型在软件企业价值评估领域的应用,并得出软件企业价值最重要的影响因素。
一、文献综述
在国外文献方面,Wang[1](2013)着眼于政策链、资金链等整合的整体经济效应,借助面板研究发现,获得软件企业资质证书对企业促进发展具有积极推动作用。从企业的角度来看,获得认证的企业增长高于非认证公司,这有助于其长期发展。研究表明,中国的软件业政策可能对创新能力强的企业产生较大的推动作用,使各类技术和人才流入这些企业,使其在资本市场上获得较大的利润和估值。Shen[2](2020)收集了2014—2018年的302家中国软件企业相关数据,运用主成分分析法研究这些企业的投资价值,将投资价值排序汇总并与市场情况进行比较,为市场投资者提供有效的价值信息,帮助他们更好地实施投资。在国内文献方面,学者主要通过收益法、实物期权法等模型对软件企业价值进行评估,吴玉烁[3](2019)在分析传统企业价值评估体系的基础上,结合软件公司的行业特性,构建了基于收益法的企业价值评估方法,并以目标公司金蝶为例,为软件企业构建价值评估体系和准确的价值评估提供借鉴和参考。王玲玲等[4](2022)在分析了传统企业评估方法的局限性后,参照我国资产估值准则对实物期权的指导,结合软件企业潜在的期权价值,构建了基于实物期权法的软件企业价值评估研究并应用于案例企业用友软件,为相关软件企业价值评估及价值来源识别提供参考。相关文献[5-7]也采用了自由现金流折现模型、EVA等方法对软件企业价值进行了分析。
通过以上文献回顾可知,软件企业价值评估的研究尚处于探索阶段,国内主要采用收益法和实物期权法对目标企业进行价值评估,在选取评估指标时具有一定的主观性。因此对探索随机森林模型在软件企业价值评估的适用性具有理论和现实意义,以A股软件企业数据为基础,研究对软件企业价值影响最重要的因素有利于经营管理和投资决策。
二、模型指标选取
通过梳理相关文献可知,目前关于软件企业价值评估研究,学者主要采用定性分析的方法,由于主观因素的存在,容易造成重要指标缺失,从而导致评估结果失真。因此本文根据国泰安数据库可获取的公开信息,并结合中国软件行业协会于2021年出台的《国家鼓励的软件企业评估标准》进行指标的筛选,确定了偿债能力、经营能力、盈利能力、成长能力四个方面的财务指标和治理能力、智力能力两个方面的非财务指标,根据平均下降精度(Mean Decrease Accuracy)、平均下降基尼系数(Mean Decrease Gini)两个角度对所有指标进行重要性排序,同时根据相关系数进行指标聚类,确定了六类指标共25个。
此次研究的样本数据来源于国泰安数据库2019—2022年A股软件企业公开信息,使用python和SPSS作为研究工具。
Mean Decrease Accuracy表示随机打乱某个特征,模型的精度降低的百分比,其值越高,说明特性越重要;Mean Decrease Gini则表示在对某一种特性进行分割后,基尼系数所降低的平均程度,其值越高,说明基于该特性的分割效率就越好。
此次研究的是软件企业价值评估,重点是模型的准确性,所以两项标准均是越大代表指标越重要,当不一致时,应当优先考虑Mean Decrease Accuracy,经过大量的实验得出模型最关键的参数有2个,分别为n_estimators和max_ depth,因此采用学习曲线和网格搜索方式确定这两个参数的值。
(一)财务指标选取
1.偿债能力指标筛选
为提高模型准确性,解决指标选取主观性,在偿债能力方面选择了28个相关指标进行研究,结合学习曲线和网格搜索分析得出,当n_estimators=343、max_depth=13时,模型具有最小的均方误差0.814。
表1为指标汇总情况。
在偿债能力的重要性排序中,只有排名前3个指标的重要性较大,其他较小且重要性程度相似,因此取Mean Decrease Accuracy重要性排名的前8个指标进行分析,为A6、A24、A1、A5、A3、A2、A13、A14。根据相关系数聚类分析可知,A6与上述指标相关性均较低而独自归为一类,因此将A6纳入指标集;A24、A13、A14存在较强相关性而聚为一类,A24在两个维度的重要性排名最高,因此将A24纳入指标集;采用相同策略分析A1、A5、A3、A2,将A1纳入指标集。
经过以上分析,最终确定偿债能力方面的评价指标为:A1、A6、A24。
2.经营能力指标筛选
为提高模型准确性,解决指标选取主观性,在经营能力方面选择了18个相关指标进行研究,结合学习曲线和网格搜索分析得出,当n_estimators=381、max_depth=26时,具有最小的均方误差0.091 26,表2为指标汇总情况。
在经营能力的重要性排序中,各指标的重要性相对较大,因此取Mean Decrease Accuracy重要性排名的前9个指标进行分析,为B3、B15、B8、B4、B6、B7、B18、B5、B10。根据相关系数聚类分析可知,上述9个指标与B3相关性均较低而独自归为一类,因此将B3纳入指标集;B15、B8、B18、B5、B10相关性高而聚为一类,B15、B8在Mean Decrease Accuracy重要性为19.092和12.996,在Mean Decrease Gini重要性为5.628和5.970,因此选择B15;采用相同策略分析B4、B6、B7,将B4纳入指标集。
经过以上分析,最终确定经营能力方面的评价指标为:B3、B4、B15。
3.盈利能力指标筛选
为提高模型准确性,解决指标选取主观性,在盈利能力方面选择了31个相关指标进行研究,结合学习曲线和网格搜索分析得出,当n_estimators=91、max_depth=18时,具有最小的均方误差0.140 0,表3为指标汇总情况。
在盈利能力的重要性排序中,只有排名前5个指标的重要性较大,因此取Mean Decrease Accuracy重要性排名的前9个指标进行分析,为C7、C13、C6、C31、C9、C27、C1、C4、C15。由于C7、C13、C6、C27、C1、C4相关性较高聚为一类,在两类重要性排序中,C7均最高,因此将C7纳入指标集;C31和上述9个指标相关性较低而独自归为一类,因此将C31纳入指标集;采用同样的策略分析,将C14和C9纳入指标集。
经过以上分析,最终确定盈利能力方面的评价指标为:C7、C9、C14、C31。
4.成长能力指标筛选
为提高模型准确性,解决指标选取主观性,在成长能力方面选择了25个相关指标进行研究,结合学习曲线和网格搜索分析得出,当n_estimators=483、max_depth=25时,具有最小的均方误差0.025 25,表4为指标汇总情况。
在成长能力的重要性排序中,各指标的重要性相对较大,因此取Mean Decrease Accuracy重要性排名的前12个指标进行分析,为D23、D2、D4、D5、D17、D16、D19、D25、D20、D18、D6、D22。由于D23、D25、D6相关性较高聚为一类,在两类重要性排序中,D23均最高,因此将D23纳入指标集;D2、D4相关性较高聚为一类,在Mean Decrease Gini排序中他们的值接近,分别为3.21和3.18,而在Mean Decrease Accuracy中分别为7.54和7.18,因此将D2纳入指标集;D5和上述12个指标相关性较低而独自归为一类,因此将D5纳入指标集;同理可将D16纳入指标集;D19和D20相关性高而聚类一类,在Mean Decrease Accuracy排序中数值接近,而在Mean Decrease Gini中D20明显高于D19,因此将D20纳入指标集;D17和D18相关性高而聚类一类,D17在两类排序中重要性均高于D18,由于D16和D17相关性系数为0.143,属于低度相关,因此将D17纳入指标集。
经过以上分析,最终确定成长能力方面的评价指标为:D2、D5、D16、D17、D20、D23。
(二)非财务指标选取
1.治理能力指标筛选
为提高模型准确性,解决指标选取主观性,在治理能力方面选择了38个相关指标进行研究,结合学习曲线和网格搜索分析得出,当n_estimators=207、max_depth=22时,具有最小的均方误差0.426 9,表5为指标汇总情况。
在治理能力的重要性排序中,只有排名前几个指标的重要性较大,因此取Mean Decrease Accuracy前10个指标进行分析,为E30、E20、E4、E3、E29、E15、E38、E21、E10、E11。E30在两类重要性排序中最高,因此将E30纳入指标集;由于E20、E4、E38相关性较高聚为一类,在Mean Decrease Gini排序中,E4和E20数值接近,为5.352和5.298,而在Mean Decrease Accuracy中,分别为8.998和15.260,因此将E20纳入指标集;根据相关系数聚类分析结果可知,误差维度重要性排名前10的指标与E3相关性均较低而独自归为一类,因此将E3纳入指标集;采用同样的策略分析,将E15、E21、E29纳入指标集。
经过以上分析,最终确定治理能力方面的评价指标为:E3、E15、E20、E21、E29、E30。
2.智力能力指标筛选
为提高模型准确性,解决指标选取主观性,在智力能力方面选择了10个相关指标进行研究,结合学习曲线和网格搜索分析得出,当n_estimators=451、max_depth=8时,具有最小的均方误差0.261 5,表6为指标汇总情况。
在智力能力的Mean Decrease Accuracy排名中,前5个指标分别为F3、F8、F2、F7、F1。由于F3、F1相关性较高聚为一类,在两类重要性排序中,F3都是最高的,因此将F3纳入指标集;采用同样的策略分析,将F8纳入指标集;上述5个指标与F2相关性均较低而独自归为一类,因此将F2纳入指标集。
经过以上分析,最终确定智力能力方面的评价指标为:F2、F3、F8。
梳理以上研究,可以得出由偿债能力、经营能力、盈利能力和成长能力四类财务指标,治理能力、智力能力两类非财务指标组成的评估体系,该体系是经过平均下降精度、平均下降基尼系数,并结合相关系数聚类进行研究得出的结果,克服了主观选取评估指标的问题,表7为最终模型指标。
三、软件企业价值评估实证研究
(一)数据选取与数据预处理
随机森林模型需要大量的数据加以训练,训练的样本量越多,模型的精度越高。因此,本文从公开市场中搜集大量满足条件的企业数据进行模型训练和测试工作。研究数据的选择满足如下标准:2019年1月1日—2022年12月31日中国境内A股软件企业;企业类型在国泰安数据库,按照中国证监会2012版的划分属于软件和企业信息服务业;与评估有关的各项数据可以从公开渠道获取。
信息预处理是整个数据挖掘与分析流程中的一个关键环节。各类数据都有一个相同点:数据不完整、噪声大且不一致。这时候如果不对数据进行预处理,将会对研究结果造成影响并降低模型运行效率,因此我们在进行模型构建之前,对数据进行预处理。孟杰等[8](2014)将随机森林模型引入缺失数据插补,研究结果表明该模型中在不同缺失值情况下的插补结果优于剔除缺失值方法,略好于其他插补方法。因此对于噪音大的异常数据,采用剔除的方式,而对于缺失值,则采用了随机森林回归方式进行填充。
(二)评估模型构建与评价
用python的scikit-learn库进行随机森林模型的构建,影响的模型准确性的参数主要有五个,分别是基评估器数量(n_estimators)、决策树最大深度(max_depth)、叶子节点最小样本(min_samples _leaf)、节点最小分割样本数(min_samples _split)、决策树随机选择特征数目(max_ features),经过大量的实验得出最关键的参数有2个,分别为n_estimators和max_depth,本文采用学习曲线和网格搜索方式确定这两个参数值。
1.模型构建
在scikit-learn中,n_estimators默认为100,理论上该值越大、模型越精确,但相应的模型运行效率会降低,因此先在0~1 000中寻找最优范围,得出当n_estimators在610~630时,模型运行情况良好;之后细化研究范围并得出当n_estimators为620时,模型的MSE值为0.127 9,此时模型较优。
在scikit-learn中,max_depth值越大,越容易过拟合;值越小,越容易欠拟合,因此n_estimators为620时,结合学习曲线和网格搜索得到max_depth为16,此时模型最优。
2.模型评价
在随机森林模型中,我们常用R2、MSE、MAE和RMSE来衡量模型的性能,根据上面的研究可以得出,选取n_estimators值为620、max_depth的值为16时,随机森林模型的R2为92.7%、MSE为0.120、MAE为0.184、RMSE为0.346,拟合效果较好。
(三)评估模型特征变量重要性分析
在影响软件企业价值各个因素中,部分因素对价值的影响较大,称之为重要因素,往往会以较小的变化量导致软件企业价值的波动。因此运用python进行模型训练与测试,得出软件企业价值影响因素排序,图1反映具体情况。
从上面分析可得出,MeanDecreaseAccuracy重要性前3个的变量分别是:研发投入金额、营业总收入增长率、息前税后利润;MeanDecreaseGini重要性前3个的变量分别是:研发投入金额、营业总收入增长率、息前税后利润。两种重要性的排序结果相同,得出影响软件企业价值最重要的指标变量为:研发投入金额、营业总收入增长率、息前税后利润。
四、结论
本文介绍了软件产业对于发展的重要性,梳理了国内外软件企业价值评估的相关文献,进而提出了基于随机森林模型的软件企业价值评估,通过平均下降精度、平均下降基尼系数并结合相关系数聚类法分析,构建由财务指标与非财务指标共同组成的指标体系,展开实证研究得到以下研究结论。
第一,随机森林模型训练集样本的拟合优度为97.5%,测试集样本的拟合优度为92.7%,随机森林模型在软件企业价值评估具有适用性。
第二,通过特征重要性的排序可得出影响软件企业价值最重要的三个因素为研发投入金额、营业总收入增长率、息前税后利润,这对于企业进行经营管理和投资者进行投资决策具有一定的指导意义。
参考文献:
[1]WANG Xia.Research on evaluation of high-tech enterprises performance in Zigong based on economic value added[J].International Journal of Digital Content Technology and its Applications,2013,7(2).
[2]SHEN Yujie.Evaluation of enterprise investment value based on principal component analysis:Information transmission,software and information technology services in China[J].Academic Journal of Engineering and Technology Science,2020,3(7):132-144.
[3]吴玉烁.基于收益法的软件类企业价值评估选择[J].财会通讯,2019(20):77-80.
[4]王玲玲,薄建奎.基于实物期权视角的软件企业价值评估研究[J].中国资产评估,2022(5):47-51.
[5]孙永生,肖飒.企业并购中协同价值评估——以久其软件并购瑞意恒动为例[J].财会通讯,2019(14):51-56.
[6]李芃睿.软件企业价值评估研究[J].天津经济,2023(6):50-56.
[7]原毅军,孙晓华,柏丹.我国软件企业智力资本价值创造潜力的评估[J].中国工业经济,2005(3):44-50.
[8]孟杰,李春林.基于随机森林模型的分类数据缺失值插补[J].统计与信息论坛,2014,29(9):86-90.
