学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 经管论文 基于随机森林模型对中国A股上市公司的盈利能力预测论文

基于随机森林模型对中国A股上市公司的盈利能力预测论文

27

2024-11-19 16:26:15    来源:    作者:liziwei

摘要:上市公司的利润预测是一项具有挑战性的任务,因为利润受到公司内部因素以及外部多种因素的联合作用影响。本研究使用了国泰君安提供的11187条中国A股上市公司数据,其中每条数据包含了十多个变量,对上市公司的利润进行了预测。实验结果表明,传统回归模型在预测上市公司利润时效果较差,而随机森林模型则表现出良好的预测性能。

  摘要:上市公司的利润预测是一项具有挑战性的任务,因为利润受到公司内部因素以及外部多种因素的联合作用影响。本研究使用了国泰君安提供的11187条中国A股上市公司数据,其中每条数据包含了十多个变量,对上市公司的利润进行了预测。实验结果表明,传统回归模型在预测上市公司利润时效果较差,而随机森林模型则表现出良好的预测性能。

  关键词:利润预测;上市公司;随机森林模型

  上市公司进行利润预测的目的在于评估公司的财务状况和未来盈利能力,是投资者和分析师关注的重要指标之一。它反映了公司未来的盈利能力,能够直接影响到公司的股票价格和市值。因此,对于股票投资者和分析师来说,准确预测上市公司的利润变化趋势和水平是做出投资决策的关键因素之一。对投资者来说,准确的利润预测可以帮助他们作出明智的投资决策,选择具有良好盈利前景的公司,从而获得较高的投资回报。对分析师来说,利润预测可以帮助他们评估公司的财务状况、制定投资策略和提供投资建议。对于监管机构来说,利润预测可以帮助他们监督和管理上市公司的财务报告,确保公司遵守相关法规和规定。

  对于上市公司自身来说,利润预测也是制订经营计划和决策的重要依据,能够帮助企业更好地了解市场需求和行业趋势,调整生产经营策略和优化资源配置,提高企业竞争力和盈利能力。因此,上市公司利润预测的准确性和可靠性对于股票投资者、分析师和企业经营管理者都具有重要意义。但是上市公司的业绩预测是受到多方面因素的影响。如国家政策的不确定性、汇率的波动性以及宏观经济周期等,它们这些因素有时候会单独影响上市公司的财务收入,而有时候又会发挥共同作用影响上市公司的业绩收入。因此,对财务报表预测在金融市场领域中是一项十分具有挑战性的研究。上市公司的管理者或者决策者需要掌握准确的财务信息,这样他们才能构建预测模型去预测公司未来的财务信息。在决定公司当前或者未来的任何重大决策时,公司的管理者或者决策者可获得的有关信息的数量以及质量扮演着重要的角色。对于大多数组织或者公司而言,它们有机会提高其决策的有效性。特别是在财务领域,财务业绩的预测与所有利益方相关,即利益方关联用户都可以获得公司会计信息。然而,量化财务信息在公司年度报告中所有信息中仅占约20%。因此,如何利用公司年报中的财务信息和非财务信息预测公司的财务业绩,这对于公司的利益相关者来说是非常重要的。尽管公司内部管理人员可能掌握着外人不为所知的公司内部信息,但是除非他们能够获得高质量的内部财务数据,如销售、库存以及有形或无形资产等公司内部核心数据,否则他们无法做出准确的财务预测。

  利润预测任务在财务预测领域中具有重要意义,可分为时序任务预测和回归任务预测两类。在时序任务预测方面,研究人员如季业民等人和陈若璠人等采用ARIMA模型预测上市公司的利润,而王晓梅等人则使用灰色GM(1,1)模型预测中药上市企业的利润。目前,对于上市公司财务报表中变量的研究还相对较少,尤其是对于利润预测的研究。然而,利润在企业中扮演着重要的角色。不论企业做出何种决策,其目的都是为了提高企业的利润。企业未来的利润不仅关系到企业的发展前景,还直接关系到企业当前的决策。因此,可以看出企业利润预测具有极其重要的作用。然而,这项工作也具有挑战性,其容易受到多个变量的影响。

  一、方法

  随机森林算法由Breiman于2001年提出,可用于回归和分类问题。该算法以决策树为基础学习器,并在决策树的训练过程中引入了随机属性选择。与单个决策树相比,随机森林算法具有更好的泛化能力,并可用于评估每个变量的相对重要性。该算法采用自助重采样方法,从原始训练集中有放回地随机选择n个样本,生成新的训练集,然后利用这些自助样本集构建K个决策树形成随机森林。对于新的数据,其分类结果是根据决策树投票数量形成的分数来确定的。

  随机森林由多个决策树组成,每个决策树的底部节点被称为叶节点或终端节点。每个叶节点都对应一个因变量的值,而除叶节点外的所有节点都是自变量。在决策树中,同一个变量可以在不同的节点重复出现。节点之间存在层级关系,前面的节点称为父节点,后面的节点称为子节点,而与该节点处于同一层级的其他节点称为同级节点。在随机森林算法中,每个样本生成一棵决策树,每棵树预测一个新的观测值。如果随机森林算法用于回归预测,那么因变量的预测值是由这些树的平均值计算得到的。随机森林算法树的生成步骤。

  第一,从原始训练集中进行自助重采样,随机选择与原始训练集样本数相等的样本,允许重复选择样本,生成一个新的训练集。

  第二,对于生成的新训练集,使用特征随机选择的方式,在每个节点上随机选择一部分特征。

  第三,根据选定的特征,利用最优分割准则(如基尼系数、信息增益等)将节点分割为两个子节点,不断递归地生成树的内部节点,直到达到预设的停止条件,如树的深度达到最大值或节点中的样本数小于预设阈值。

  第四,重复步骤1到步骤3,生成多棵决策树。

  第五,在预测阶段,对于新的数据样本,通过将该样本输入每棵决策树,并将每棵决策树的输出值取平均,得到最终的预测结果。

image.png

  二、实证分析

  (一)数据来源

  数据来源于国泰君安,该数据集包含多个变量,涵盖了证券的关键信息和财务指标。这些变量包括证券代码、会计期间、行业区分、制造业区分、收盘价、股价收益率含现金股利、股价收益率不含现金股利、忠实表达、可验证性、及时性、每股收益、每股营业收入、每股净资产、总资产净利润率(ROA)A、扣除非经常性损益后的基本每股收益、净利润上限、净利润下限、营业收入、资产以及母公司利润。

  (二)数据处理

  本文的研究目标是净利润。然而,数据集中提供的净利润是以区间值的形式呈现的。为了能够更好地应用现有的预测模型,本文对数据集中的净利润区间进行了处理。具体而言,将所提供的净利润上限值和下限值取平均,作为本文的目标变量值。考虑到数据集中包含的变量较多,为了降低变量之间的相互影响,计算了各个变量之间的相关系数。通过计算变量之间的相关系数,可以了解它们之间的线性关系程度。这有助于识别出具有较高相关性的变量,从而减少重复或冗余的信息,以确保选取到具有较强预测能力的变量,提高模型的准确性和可解释性。

  由计算结果可以观察到一些变量之间存在强烈的相关关系,其相关系数超过了0.9,并且接近于1。在多元线性回归模型中,如果同时将多个高度相关的变量作为输入来预测目标变量,可能会引发多重共线性问题。这种情况会导致模型的预测结果变差。为了应对多重共线性问题,通常选择剔除其中一个或多个高度相关的变量,选择其中最相关的变量作为模型的输入,以减少冗余信息。根据观察,发现股价收益率含现金股利与股价收益率不含现金股利这两个变量之间存在强烈的相关性。因此,在选择输入变量时,只保留股价收益率不含现金股利,而不选择股价收益率含现金股利作为模型的一部分。最终,确定了预测模型的输入变量如下:小行业区分、会计期间、收盘价、股价收益率不含现金股利、忠实表达标准化、可验证性标准化、及时性、每股收益、每股营业收入、每股净资产、总资产净利润率(ROA)A、扣除非经常性损益后的基本每股收益、营业收入、资产以及母公司利润。通过以上处理,减少了输入变量之间的冗余性和相关性,提高模型的预测准确性和稳定性。另外,为了消除不同变量之间的量纲差异对模型的影响,本文对数值型变量进行了标准化处理。同时,对于标签变量(如制造业区分),进行了编码处理,将其转换为数值形式,以便在模型中使用。这样可以将标签变量与其他数值型变量一起纳入模型,并对其进行相应的分析和预测。通过标准化和编码处理,使得不同类型的变量都能够在同一尺度上进行比较和处理,从而提高了模型的可解释性和效果。这样的预处理步骤有助于减少变量之间的偏差,更准确地捕捉到变量之间的关系和模式。

  (三)实验结果

  为了确保所训练的模型具有良好的泛化能力,对原始数据进行了打乱处理,并将其划分为训练集和测试集。第一,对数据进行了全局的随机打乱,以消除任何与数据排序相关的偏差。第二,将打乱后的数据按照比例划分为训练集和测试集,其中前90%的数据用作训练集,后10%的数据用作测试集。这样做可以确保模型在训练和测试阶段都能够接触到不同的数据样本,从而更好地评估模型的性能和泛化能力。

  为了比较不同模型的效果,本文选择了多元线性回归模型、长短期记忆网络(LSTM)和随机森林模型作为预测模型。这三种模型分别代表了传统模型、深度学习模型和机器学习模型,在不同领域和问题上都具有广泛应用。

  本文使用了一种特定的评价指标来评估模型的效果,即判断预测结果是否落在上市公司发布的净利润下限和净利润上限的区间之间。如果预测结果在该区间内,认为预测是成功且有效的;如果预测结果不在该区间内,则认为预测是失败的,即没有达到预期效果。

  通过以上的学术实践,本研究旨在验证不同模型在预测净利润方面的表现,并评估它们的准确性和可靠性。这样的分析方法有助于选择最佳的预测模型,并为实际应用提供有力支持。

  根据表1的结果,可以观察到使用回归模型对上市公司财务报表中的净利润进行预测的效果较差。这可能是因为每个上市公司的自变量之间存在巨大的差异,这使得回归模型难以拟合出一个良好的预测模型。因此,回归模型所得到的预测值与财务报告中实际的净利润值存在显著的差异。然而,如果采用随机森林分类模型进行预测,效果却非常出色。此外,随机森林算法可以为每个变量提供重要性程度的评分,显示了每个变量的重要性程度得分。通过观察重要性程度得分,可以确定哪些变量对于净利润的预测起着关键作用。这些变量的重要性程度较高,意味着它们对于预测净利润具有重要影响力。通过对各个变量的重要性程度评分,可以更好地理解变量之间的关系,并选择对净利润预测具有关键作用的变量。这为大众提供了一种可靠的方法来解决净利润预测问题,并为决策提供有力的支持。

image.png

  根据各个变量的重要性得分排序,归属母公司利润变量被认为是构建净利润预测模型最重要的因素。根据此结果,能够对输入变量进行筛选。由筛选结果可知,行业和年份这两个变量的重要性得分较低,因此决定将它们从输入变量中剔除,保留其他十二个变量,即股价收益率不含现金股利、忠实表达、可验证性、及时性、每股营业收入、每股净资产、总资产净利润率(ROA)A、扣除非经常性损益后的基本每股收益、营业收入、资产、归属母公司利润和收盘价。

  使用剩余的十二个变量作为输入变量构建模型后,在训练集上的表现为86.75%,在测试集上的表现为85.55%。与使用十四个变量构建的模型相比,新构建的利润预测模型在训练集和测试集上都取得了提升。在训练集上,预测精度提升了3.07%,在测试集上提升了3.17%。这表明新构建的利润预测模型具有更好的预测性能,相较于之前的模型。通过应用随机森林模型对变量进行筛选和重新构建,成功提高了模型的预测准确度。新构建的模型在测试数据上的表现进一步验证了其有效性和可靠性。这些结果进一步支持了对输入变量筛选和模型构建的决策,为净利润预测提供了更加可靠和准确的工具。

  三、结语

  尽管当前已有众多学者对上市公司财务报表展开了研究,但对于利润预测的研究仍较为有限。文章适用利用多个变量对上市公司的利润进行预测。实验结果显示,传统的回归模型和神经网络模型在利润预测方面表现不佳。这可能是由于不同上市公司之间存在明显差异,且各个变量之间差异巨大,导致回归模型难以有效拟合数据。因此,本研究采用了随机森林算法进行预测,并取得了卓越的预测效果。

        参考文献:

  [1]季业民.基于ARMA模型的我国房地产开发企业营业利润的分析与预测[J].经贸实践,2016(10):20.

  [2]陈若璠.基于ARMA模型的上市公司利润时序分析与预测[J].现代经济信息,2018(20):105.