学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 经管论文 基于新闻文本情感分析的股票市场波动性分析论文

基于新闻文本情感分析的股票市场波动性分析论文

1

2026-03-16 17:23:44    来源:    作者:xuling

摘要:股票市场波动规律研究始终是金融领域的焦点,而市场情绪是影响股票市场波动的重要因素,其变化可能是由多种因素引起,包括新闻事件、财经数据、公司业绩等文本数据,因此,可以通过文本数据来分析股票市场波动性。

  [摘要]股票市场波动规律研究始终是金融领域的焦点,而市场情绪是影响股票市场波动的重要因素,其变化可能是由多种因素引起,包括新闻事件、财经数据、公司业绩等文本数据,因此,可以通过文本数据来分析股票市场波动性。首先获取三家上市公司的新闻文本信息,并进行预处理;随后通过构建的情感词典计算文本情感值,以反映投资者情感倾向,从而预测对应时间段的股票涨跌趋势。研究表明,文本情感值对文本数据的股票市场波动具有较好的预测能力。当市场情绪向好时,股票价格通常会上涨;当市场情绪低迷时,股票价格则会下跌。

  [关键词]股票市场;情感词典;文本数据;文本情感值;涨跌幅

  0引言

  股票市场作为我国多层次金融体系的核心枢纽,不仅承担着宏观经济运行的“晴雨表”功能,更是资源配置优化与价值发现的重要载体[1]。然而,我国股票市场的过度波动现象普遍存在。股票市场的正常波动可以刺激经济增长和优化资源分配,但过度波动会引发投资者的心理恐慌,导致经济危机和社会动荡[2]。因此,对股票市场进行波动性分析成为学术界关注的焦点。

  目前,国内外对于股票市场的波动研究主要可分为传统计量模型和机器学习方法。传统计量模型以GARCH族模型为代表,通过捕捉时间序列的异方差性,为波动性建模提供了坚实的理论基础[3]。然而,此类模型高度依赖结构化数据,对文本、事件等非结构化信息的处理能力有限,且低频数据聚合可能导致高频信号丢失,难以适应信息爆炸时代的需求。机器学习方法的兴起为波动性预测注入了新的活力。以神经网络(NNs)、支持向量机(SVM)和长短期记忆网络(LSTM)为代表的算法[4],凭借强大的非线性拟合与高维数据处理能力,显著提升了预测精度[5]。但其模型可解释性较低,且对高质量标注数据的依赖性较强,限制了在实时决策中的应用。

  然而,就我国股票市场而言,股市的波动往往与新闻媒体报道的政策信息联系更为紧密[6],不同类型的政策事件对股票波动率的影响特征各不相同。这些政策信息包含了大量的文本数据,因此,影响股票市场波动率的各种混合频率的数据广泛存在,也可能受到文本数据的影响[7]。目前,大量的研究仍集中在传统的同频模型,难以捕捉政策文本的情感维度与投资者情绪的交互作用。因此,本文基于构建的情感词典计算政策信息的文本情感值,将文本信息进行数据化,从而分析投资者情绪与股票市场波动之间的影响,并对东方财富网BYD新能源汽车、中国石化、恒瑞医药三家上市公司的新闻文本信息进行实证分析研究。

  1文本情感值计算方法

  本文采用情感词典法对文本情感进行量化分析,传统情感词典体系通常由三部分构成:基础情感词库、否定词词库和程度副词库[8]。但基础情感词库只能区分积极情感词与消极情感词,无法对相同属性词汇所蕴含的不同情感强度进行精确刻画。而BosonNLP语义情感词典除包含积极与消极词汇外,还可以通过大数据统计和机器学习技术,对每一个情感词汇进行情感分数的分析和计算,从而对文本信息的情感值进行更精确的计算[9]。因此,本文的情感词典由BosonNLP语义情感词典、否定词库和程度副词库三部分构成。文本情感值计算步骤如下:首先,对预处理后的企业管理层讨论与分析(MD&A)文本进行词元解析,根据情感词典计算出每个词语的初始情感分;其次,查找情感词前是否存在程度副词,若有,则在初始情感分基础上乘以程度副词对应权重;再次,查找情感前是否存在否定词,若有,则乘以-1;最后,将计算出的所有分句的情感值进行累和,得到整篇文档的情感得分[10]。具体计算公式如下:

  其中,wt表示句子的情感分值;posSt表示第t个句子的积极情感分值;negSt表示第t个句子的消极情感分值;sentiment_wordi表示第i个情感词的情感分值;denyi表示第i个情感词前是否存在否定词,如果存在,则denyi取值为-1;degreei表示第i情感词前的程度副词,一般以0为分界点,当文本情感值大于0时,视为积极的情感倾向;反之,如果文本情感值小于0,则为消极的情感倾向。根据这个标准,将各企业MD&A文本数据划分为积极的情感评价(Oeme)和消极的情感评价(Peme)[11]。

  2数据来源及处理

  2.1文本数据的获取及预处理

  本文通过Python从东方财富网获取了2023年上半年3月到5月中旬BYD新能源汽车、中国石化以及恒瑞医药的新闻文本信息。其中,关于BYD新能源汽车的新闻89篇,中国石化的新闻59篇,恒瑞医药的新闻59篇。由于获取的文本数据量较大,对股票市场波动性进行分析时,需要对获得文本数据进行筛选,只保留有效的文本数据。部分文本数据的新闻标题如表1~表3所示。

  2.2股票数据的获取

  本文从wind数据库获取2023年3月到5月中旬BYD新能源汽车、中国石化、恒瑞医药的股票数据,获取的股票数据包含股票代码、交易日期、收盘价、开盘价、成交量(手)、涨跌幅、换手率。

  3实证分析

  本文基于文本数据对股票市场波动进行研究,并在此基础上提出了一种基于情感分析的投资组合优化方法。首先,对文本数据进行预处理;其次,将处理后的文本数据通过情感分析方法进行情感分类,并计算情感值;最后,将计算出文本的情感值对应到相应时间股票的涨跌幅,通过模型结果来分析文本数据与股票市场波动的互相影响情况。

  本文将股票市场情绪划分为两类:积极情绪和消极情绪。其中,积极情绪是指文本的情感值大于0;消极情绪是指文本的情感值小于0。根据这两个情感分类,通过构建的情感词典将投资情绪进行数值化,从而预测对应时间段的股票涨跌变化[12]。根据文本情感值计算方法,在Python中计算出每一条标题对应的文本情感值以及情感倾向,再对应到相应时间股票的涨跌幅。部分计算结果如表4~表6所示,由于获取的原始数据一天内有多个词条,以下表格中情感值取同一天的情感值的平均值。

  从表4可以看出,2023年5月11日,比亚迪资讯发布比亚迪大宗交易成交、比亚迪获深股通增持等新闻后,当日文本情感值的平均值为7.33,对应的股价涨跌幅为1.52%,当日的情感值与涨跌幅都有增加。而在2023年5月12日,比亚迪资讯发布比亚迪被深股通减持、吕向阳质押公司股份等新闻后,当日的文本情感值的平均值为5.60,对应的股价涨跌幅为-1.38%,当日的情感值与涨跌幅都有降低。

  从表5可以看出,中国石化资讯在2023年5月10日发布了石油快速跳水、板块震荡下行等新闻后,当日文本情感值的平均值为4.088,对应的股价涨跌幅为-4.99%,当日的情感值与涨跌幅都有降低。而在2023年5月11日,中国石化资讯发布了中国石化增持、融资等新闻后,当日文本情感值的平均值为7.075,对应的股价涨跌幅为-2.16%,当日的情感值与涨跌幅都有增加。

  从表6可以看出,恒瑞医药资讯在2023年5月9日和10日发布了恒瑞医药获增持、完成了大宗交易等新闻后,5月9日和10日的文本情感值的平均值分别为8.732 5和7.25,比起5月8日的文本情感值的平均值都有所增加,5月9日和10日对应的股价涨跌幅分别为-1.25%和0.91%,比起5月8日的股价涨跌幅有所增长。而在5月12日,恒瑞医药资讯发布了恒瑞医药被减持等新闻,当日的文本情感值的平均值为4.622,比起5月10日的文本情感值的平均值有所降低,对应的当日股票涨跌幅也有所下降。由此说明,在相关的新闻信息发布后,能够影响到股票市场的交易情况。例如,当BYD完成大宗交易的新闻出现时,股票市场的成交量和换手率有了明显提升,也证明了通过研究文本数据情感值与股票的涨跌趋势可以对股票市场的波动进行很好的分析预测。

  数据可视化是处理数据的一项关键技术[13],可以将信息、数据等相关内容以图形的形式更清晰、更有效地传达和展现出来[14]。因此,在Python中使用plot函数绘制了2023年3月至5月中旬期间比亚迪新能源汽车、中国石化以及恒瑞医药三家公司的新闻文本情感值与股票涨跌幅的可视化图,分别由图1、图2和图3展示。图中虚线代表每日新闻文本情感值,实线代表股票涨跌幅。通过分析图中波动率的变化趋势,可以对股票市场的走势进行预测分析。

  从图1、图2和图3可以看出,股票涨跌趋势与投资者的情感倾向呈现正相关性。当市场的新闻词条显示与股票相关的正面信息时,为积极的情感评价,此时投资者的情感值会增加,投资倾向会增加,导致股票市场的活动增多,股票的涨跌趋势向好。而当市场的新闻词条显示与股票相关的负面信息时,为消极的情感评价,此时投资者的情感值会减少,投资倾向会降低,导致股票市场活动减少,股票的涨跌趋势会下降。图中有部分出现负相关性的差异,是由于股票市场在休息日不开盘,但新闻每日都有发布,情感值为休息日的平均值。

  4结束语

  股票市场受到宏观经济、政治环境、企业经营、产业结构以及区域政策等多重因素的综合影响。其中,新闻舆论在引导投资者情绪方面具有重要作用,而投资者情绪又是影响其投资决策的关键因素之一。本文选取2023年3月到5月中旬BYD新能源汽车、中国石化、恒瑞医药三家上市公司新闻标题的文本数据,对股票市场波动进行实证分析。研究结果显示,股票市场的涨跌趋势与投资者情感倾向之间存在显著正相关关系。具体而言,当新闻内容涉及与股票相关的积极信息时,通过机器学习方法判断的情感倾向为正面,情感值得以提升,投资者情绪随之增强,市场交易活跃度上升,股票价格呈现上涨态势。反之,若新闻内容释放出负面信息,情感判断为消极,则情感值降低,投资者情绪趋于谨慎,市场活动相应减少,股价亦呈现下跌趋势。例如,3月30日,上海证券、方正证券、浙商证券都发布维持BYD新能源汽车的“增持”评级的新闻,预计2023年净利润同比增长,当日的文本情感值与股价涨幅都有增加。而在5月10日,中国石化资讯发布了石油快速跳水、板块震荡下行的新闻,当日情感值显著回落,股价随之加速下跌。综上,本研究通过对三家企业的实证分析表明,基于股票相关文本数据挖掘的情感值,可有效反映投资者情绪变化,并对股票市场波动具有较好的解释与预测能力,为股票市场波动提供了可靠的分析与预测维度。

主要参考文献

  [1]宋逢明,江婕.中国股票市场波动性特性的实证研究[J].金融研究,2003(4):13-22.

  [2]杨健垒,杨春鹏,崔文晓.基于新闻文本数据的我国股市波动性测度及其应用[J].管理评论,2023,35(9):26-36,101.

  [3]杨鹏.宏观经济对金融市场波动的混频影响研究[D].长春:吉林大学,2024.

  [4]李学军,刘治新,杨同光,等.一种可解释性空时模型的风力发电机轴承智能诊断新框架[J].仪器仪表学报,2025(2):51-59.

  [5]MINTARYA LN,HALIM JNM,ANGIE C,et al.Machine learning approachesin stock market prediction:A systematic literature review[J].Procedia Computer Science,2023(C):96-102.

  [6]詹国军.基于新闻文本的股市波动指数、投资者情绪和股市收益率[D].广州:华南理工大学,2023.

  [7]王畅.基于文本数据的混频预测模型及其应用研究[D].重庆:重庆大学,2020.

  [8]杨兵,杨杨.企业家市场预期能否激发税收激励的企业研发投入效应:基于上市企业年报文本挖掘的实证分析[J].财贸经济,2020,41(6):35-50.

  [9]贾鸿业.企业年报MD&A前瞻性语调对企业投资效率影响研究[D].贵阳:贵州财经大学,2021.

  [10]杨杨,杨兵,杜剑.经济政策不确定性下企业发展预期信息披露策略选择:“实事求是”还是“有意为之”[J].现代财经(天津财经大学学报),2021,41(7):3-18.

  [11]JIN Y.An emotional analysis of Korean topics based on social media big data clustering[J].Scalable Computing:Practice&Experience,2024,25(1):115.

  [12]邢云云.投资者情绪对股票市场的影响研究:基于股评数据的文本挖掘方法[D].湘潭:湘潭大学,2023.

  [13]李思佳.基于Python的股票数据可视化分析:以新能源汽车行业为例[J].河北软件职业技术学院学报,2021,23(3):15-18.

  [14]LIU F,XU J,AI C.Heterogeneous impacts of oil prices on China’s stock market:Based on a new decomposition method[J].Energy,2023(268):126644.