基于DTM模型与共词分析法的主题挖掘与演化分析论文

2024-06-12 10:10:16 来源: 作者:liangnanxi
摘要:随着物联网、大数据、云计算、5G和人工智能等新兴技术的不断发展,我国物流业正逐渐由传统物流向“智慧物流”转变。为探究国内智慧物流领域的研究热点和研究主题的发展演化趋势,文中选取2010-2023年间国内智慧物流研究相关文献,并将其划分为4个时间段,结合DTM动态主题模型和共词分析方法对其进行主题挖掘、热点主题识别和主题演化趋势分析。研究结果表明,物流专业人才培养在2018年后一直是国内智慧物流领域研究的重点,而物联网、大数据、云计算、人工智能等现代新兴技术自问世以来一直都是国内智慧物流领域研究的重点。由此
【摘要】随着物联网、大数据、云计算、5G和人工智能等新兴技术的不断发展,我国物流业正逐渐由传统物流向“智慧物流”转变。为探究国内智慧物流领域的研究热点和研究主题的发展演化趋势,文中选取2010-2023年间国内智慧物流研究相关文献,并将其划分为4个时间段,结合DTM动态主题模型和共词分析方法对其进行主题挖掘、热点主题识别和主题演化趋势分析。研究结果表明,物流专业人才培养在2018年后一直是国内智慧物流领域研究的重点,而物联网、大数据、云计算、人工智能等现代新兴技术自问世以来一直都是国内智慧物流领域研究的重点。由此可见,加强人才培养和现代新兴技术的攻关力度,是今后我国物流业转型升级的关键。
【关键词】DTM模型;共词分析;主题挖掘;演化分析;智慧物流
1引言
随着我国经济发展进入新常态,国家提出要进行产业供给侧结构性改革,促进产业结构优化升级和经济高质量发展后,越来越多的企业开始以5G通信、大数据、云计算、人工智能、物联网等新一代信息技术为依托,促进自身产业结构向“智能化”和“智慧化”转变。随着电子商务的兴起而不断发展的物流行业更是在这方面走在了时代的前列,在现代新兴技术的加持下,正逐渐从传统物流向现代“智慧物流”转变。
近些年来,研究者们分别从不同角度分析了我国智慧物流领域的研究进展和动态发展特征:在定性研究方面,贷永该等[1]、于博,王复明[2]分别从港口物流产业智慧化、智慧物流服务体系构建等方面对我国智慧物流发展方向进行了分析和总结;在定量研究方面,余佳楠[3]、罗海燕,潘俊林[4]运用CiteSpace数据分析工具构建关键词知识图谱,对智慧物流领域的相关文献进行分析,发现国内智慧物流研究的核心作者与科研机构之间缺乏必要的合作与交流。此外,通过对突变关键词的发掘,粗略地划分了降低物流成本、提高公路物流运输效率、培养智慧物流人才等几个热门主题。然而,诸如关键词共词分析、聚类分析等传统文献计量方法,通常只能从静态方面分析智慧物流领域的相关研究,难以深入挖掘大量文献背后所隐含的主题,更无法动态跟踪智慧物流领域研究主题的演化规律[5]。基于以上分析,本文采用DTM模型和共词分析方法,通过对国内关于智慧物流相关期刊文献的分析,对国内智慧物流有关研究进行分析和总结,识别其热点主题,并分析主题的发展演化趋势,从而更加全面、深入、系统地了解我国智慧物流研究的发展历程和发展演化趋势。进而为我国物流行业的转型升级提供新的理论思考。
2研究设计
本研究以智慧物流领域的期刊文献为数据源,基于DTM模型和共词分析方法,挖掘该研究领域所隐含的主题、识别热点主题并分析主题随时间的动态演化趋势。研究框架如图1所示。具体研究步骤为:①数据挖掘与预处理;②基于DTM模型对语料库进行建模;③基于时间顺序的研究主题识别与抽取;④基于主题热度和关键主题词的共词分析方法的热点主题识别;⑤基于时间顺序的主题演化分析。
2.1数据来源及数据预处理
2.1.1数据来源
本文选取中国知网(CNKI)学术期刊数据库作为文献数据来源。利用Python对中国知网主题为“智慧物流”、时间跨献标题、摘要和关键词进行爬取,作为主题识别的数据源。共爬取到文献3884篇,去除摘要不全和会议通知等无效文献后,最终得到3264篇有效文献。
2.1.2数据预处理
本文数据预处理主要包括以下几个步骤。
①中文分词和去停用词。为提高中文分词的准确度,利用中文期刊文章中的全部关键词,并结合百度中文分词词库构造人工分词词典。通过Python编程,调用中文分词工具jieba库对数据源进行文本分词。之后,结合百度停用词表去除停用词和无实际意义的符号,并过滤掉虚词、副词、单个字词等与主题描述无关的词语。
②时间窗口划分。为尽可能平衡各个时间窗口的发文数
量[6],本文将数据源划分为2010-2016年(479篇)、2017-2018年(652篇)、2019-2020年(1021篇)、2021-2023年(1094篇)4个时间窗口,即4个时间段:其中2010-2016年由于发文量较少,故将其定义为一个时间窗口,2023年截止时间为4月22日。
③最优主题数目确定。在用DTM模型进行文本主题建模时,需要预先确定最优主题数目。MimnoD等[7]提出利用“主题一致性”来确定主题模型的最优主题数目,其认为一致性得分越高,则表示模型的可解释性越高,当前确定的主题数目就越优。其计算公式为:
式(1)中,D(v)表示包含词v的文档数量的总和;D(v,v′)表示同时包含词v和v′的文本数量;V(k)=(V(k)1,…,V(k)m)表示向量空间中最可能属于主题k的词列表。
本文一致性得分的计算结果如图2所示,根据计算结果,设置主题数目为12时,模型的收敛效果最好。
2.2研究方法
2.2.1主题提取
本文采用DavidMB,JohnD[8]提出的动态主题模型(DynamicTopicModels,DTM)进行建模,它是在潜在狄利克雷模型(LatentDirichletAllocation,LDA)的基础上改进而来的一种无监督机器学习主题生成模型[9]。它能够分析带有时间属性的文本数据集,识别其主题,并揭示主题的动态演变规律[10]。本文首先将挖掘到的智慧物流文献的标题和摘要作为文本数据源,并将其基于时间顺序进行离散化切片,分入四个不同的时间段,然后利用DTM模型识别出由上述标题和摘要构成数据集合的主题构成和主题演化特征。其中DTM模型如图3所示。
图3中各个符号的含义如表1所示。此外,在DTM模型中,每个时间段t下的文档主题分布αt以及主题下词语分布βt,k均依赖于上一时间段中的αt-1和βt-1,k,其中,上一个时间段t-1,生成这个时间段t的αt和βt,k,其公式为:
DTM模型在t时间段内连续文档的主题生成过程如下:
(1)生成主题词分布:βt,k|βt-1,k~N(βt-1,k,σ2 I)。
(2)生成主题分布:αt|αt-1~N(αt-1,δ2 I)。
(3)对于每篇文献:
a.生成η~N(αt,α2 I)。
b.对于每个词:
i.生成Z~Mult(π(η));
ii.生成Wt d n~Mult(π(βt z))。
其中,函数π(x)是多项式分布到正态分布的映射,其公式为:
式(4)中,参数βt k w表示主题词w对应主题k的时间序列分布。
2.2.2主题强度
主题强度也被称为主题热度,通过将文档离散化分布到相应的时间段上,再依次计算每个主题在某个时间段上的强度,可揭示主题热度随时间的变化趋势。本研究为尽量平衡每个时间窗口的发文数量,将文本数据集分为4个时间段。主题热度的计算公式为:
式(5)中M表示某一时间段中的文档总数,θki表示主题k在第i篇文档中出现的概率,Tk表示主题k在该时间段中的平均概率,也就是主题k的强度。
2.2.3共词分析方法
共词分析法也被称为关键词共现分析方法,主要通过统计两个关键词在某个情景中共同出现的次数,构建关键词共现频次矩阵和共现网络,可以用于分析知识之间的相关性。若选取的关键词为高频出现的关键词,则可帮助识别某个领域的热点主题[11]。运用共词分析方法对智慧物流领域的高频关键词进行共现分析,可进一步明确智慧物流领域的研究热点。
3结果分析
3.1智慧物流研究主题结果
本文运用DTM模型对国内2010-2023年智慧物流领域相关文献进行主题挖掘,按照主题一致性得分确定的最优主题数量,共识别出12类研究主题。此外,本文对于每个研究主题各选取其下的10个强度值高并且具有代表性的主题关键词,以此来揭示国内智慧物流研究各主题的具体代表内容,结果如表2所示。
3.2热点主题识别与分析
3.2.1热点主题识别
主题热度能够反映某一主题在不同阶段中受到关注的程度,主题热度越高则说明越有可能是热点主题[12]。此外,共词分析方法能够统计两个关键词在某个情景中共同出现的次数,以此来构建关键词共现频次矩阵和共现网络图。若所选取的关键词为高频出现的关键词,则可以帮助识别某个领域的热点主题。因此,本文结合主题热度和关键词共现分析方法来识别各个不同阶段下智慧物流领域研究的热点主题。
其识别过程包括以下几个步骤:①根据DTM模型计算出来的每篇文档从属于某个主题的概率值,运用公式(5)计算出每个主题在各个时间段的热度值,其计算结果如图4所示。②识别各个阶段的主题关键词,并结合各时间段内文本数据源,使用共词分析方法构建关键词共现频次矩阵并绘制关键词共现网络图,其结果如图5所示。③结合主题热度值和关键词共现网络图识别各个时间段的热点主题。
综合以上分析,得出国内智慧物流研究在第一阶段的热点主题为物流信息平台建设和物流与现代新兴技术相结合;在第二阶段的热点主题为智慧物流系统建设和物流与现代新兴技术相结合;在第三和第四阶段的热点主题都为物流专业人才培养和物流与现代新兴技术相结合。
3.2.2热点主题分析
国内智慧物流研究在不同时间段的热点主题显示出不同的特点,可见随着时代的不断发展,人们对于智慧物流的认识也在不断深化。此外,物联网、大数据、云计算、人工智能等现代新兴技术自问世以来一直都是智慧物流领域研究的重点。各阶段热点主题的具体内容如下。
①物流信息平台建设。物流信息平台建设研究主要围绕信息平台和信息技术展开。如兰秀建,窦宇[13]发现物流信息平台建设的滞后,会导致物流服务商无法做出正确的生产决策,因而提出要建设综合物流信息服务平台,以提升区域间物流业务相关方的产业联动。李远远[14]认为物流信息平台是指综合利用集成信息技术和智能技术,为提供一体化供应链物流服务和提高物流配送效率而建立起来的物流信息协同管理平台。
②智慧物流系统建设。智慧物流系统建设的研究主要集中在无人机、智能机器人等现代新兴物流配送方式的研究上,致力于解决物流在末端配送的“最后一公里”问题。如郭兴海等[15]针对无人机在完成“最后一公里”的货物配送时需解决的任务分配与路径规划问题,提出了新的任务分配策略和路径规划方法,并通过系统仿真证明了其方法在计算效率和执行任务方面的有效性。覃京燕,冉蓓[16]通过模拟“最后一公里”的智慧物流应用场景,以无人驾驶车为媒介,构建了无人驾驶车产品服务系统的信息设计,为我国智能配送问题研究提供了新的思路。
③物流专业人才培养。有关物流专业人才培养的研究较为丰富,涉及培养高素质物流人才培养、课程体系建设、教学改革、教学模式优化等方面的内容。学者们分别从产教融合、专业变革研究等方面进行了深入探讨。如赵林度[17]基于应用型物流人才和研究型物流人才两个维度,提出了“四位一体”和“知行合一”的物流人才培养模式,为我国高素质物流人才培养探索了新的可行路径。霍宝锋,刘伟华[18]等通过线下实地走访华为、中兴通讯等国内多家顶尖公司的物流部门,了解企业对物流人才的实际需求,提出物流专业人才的培养应当包括训练系统思维、学习智能技术、培养先进科技技术获取习惯、完善课程体系和更新教学方法等五个方面的内容。随着智慧物流的持续发展,原有的物流人才培养方案已经越来越难以满足现今社会发展进步的需求,智慧物流人才缺乏问题正逐渐受到越来越多的关注,因此物流专业人才培养研究在第三和第四阶段一直是学者们研究的热点问题。
④物流与现代新兴技术相结合。物流与现代新兴技术相结合是国内智慧物流研究中主题热度最高的话题,物联网、大数据、云计算、人工智能等现代新兴技术问世以后,如何将其有效运用到物流行业,一直都是智慧物流领域研究的重点。如李佳[19]基于对国内大数据云计算的智慧物流模式存在问题,提出智慧物流的未来发展方向大致在于物联网应用升级、人工智能全面开发、电商线上线下一体化和区块链技术应用。王智泓[20]基于国内智慧物流发展的现实困境,提出要加大对大数据、云计算、物联网、人工智能和区块链五类核心技术的攻关力度,促进我国物流技术的变革,增强我国物流企业的国际竞争力。
3.3主题强度演化趋势分析
本文利用DTM模型可计算出每篇文档从属于某个主题的概率值,结合公式(5)可计算得到各个主题在不同阶段的强度值,据此可分析各主题强度随时间的演化趋势。其结果如图6所示。此外,还可以根据主题强度的演化趋势对未来可能出现的热点主题进行预测。主题强度演化趋势具体分析如下。
①由图6(a)可知,国内智慧物流研究中有4个主题的主题热度呈上升趋势,分别为“智慧物流园区建设”“智能化物流运输”“农产品智慧物流供应链”“物流专业人才培养”,其中上升幅度最大的主题为“物流专业人才培养”。结合图中的主题强度演化趋势来说,“物流专业人才培养”“智能化物流运输”和“农产品智慧物流供应链”主题在未来的受关注度将会继续上升,并且继续保持它们的热点主题地位。
②由图6(b)可知,国内智慧物流研究中热度呈稳定趋势的主题为“物流与智能制造相融合”“物流行业转型升级”“港口物流产业智慧化”“物流与现代新兴技术相结合”。其中尽管“港口物流产业智慧化”和“物流与智能制造相融合”主题有缓慢上升态势,但涨幅相对来说较小,总体呈现稳定趋势。而“物流与智能制造相融合”主题,自从物联网、大数据、云计算、人工智能等现代新兴技术问世以后一直都是智慧物流领域研究的重点,因而其在今后相当长的一段时间内都将是智慧物流领域研究的热点话题。而“物流行业转型升级”主题在第二阶段后下降趋势较为明显,但其变化幅度相对较小,总体强度相对稳定,因而未来成为热点主题的概率较低。
③由图6(c)可知,国内智慧物流研究中热度呈下降趋势的主题为“智慧物流系统建设”“一带一路跨境物流研究”“物流与智慧城市建设”“物流信息平台建设”。其中属于热点主题但主题强度正处于下降状态的主题为“智慧物流系统建设”。具体来看,该主题经历了一个先升后降的过程,在第二阶段后一直处于下降趋势。结合主题演化趋势来看,“一带一路跨境物流研究”和“物流与智慧城市建设”主题刚开始热度较高,其后一直处于下降趋势,说明其受到的关注度正在随着时间的前进而逐渐降低,因而未来成为热点主题的概率较小。而“物流信息平台建设”其主题热度虽然前面呈现出下降趋势,但在第四阶段呈现出上升趋势,且上升幅度较大,说明该主题受到的关注度在近年来正在逐渐提升,未来极有可能成为新兴热点主题。
4研究结论
本文创新性地引入DTM主题挖掘模型和共词分析方法,在时间顺序的基础上,动态识别国内智慧物流研究的主题特征,以更加细化和量化的方法,结合国内物流业发展实际,对我国智慧物流领域的研究热点和发展趋势进行分析,并得出以下结论。
①从主题挖掘结果来看,国内智慧物流研究主要包括物流与智能制造相融合、智慧物流系统建设、物流行业转型升级、智慧物流园区建设、一带一路跨境物流研究、智能化物流运输、物流与智慧城市建设、港口物流产业智慧化、物流专业人才培养、农产品智慧物流供应链、物流信息平台建设和物流与现代新兴技术相结合12个主题。
②从热点主题上看,物流信息平台建设、智慧物流系统建设、物流专业人才培养和物流与现代新兴技术相结合分别是智慧物流领域各个时间段下的热点研究主题,其中物流专业人才培养在2018年后一直是国内研究的重点,而物联网、大数据、云计算、人工智能等现代新兴技术自问世以来一直都是智慧物流领域研究的重点。由此可见,加强人才培养和新兴技术的攻关力度是今后我国物流行业转型升级的关键。
③从主题演化趋势上看,呈上升趋势的主题是智慧物流园区建设、智能化物流运输、农产品智慧物流供应链和物流专业人才培养;呈稳定趋势的主题是物流与智能制造相融合、物流行业转型升级、港口物流产业智慧化和物流与现代新兴技术相结合;呈下降趋势的主题是智慧物流系统建设、一带一路跨境物流研究、物流与智慧城市建设和物流信息平台建设。
[参考文献]
[1]代永该,彭勃,胡晨炜,杨舒文.一种基于物联网技术的港口物流产业园智慧化改造方案[J].港口装卸,2023(2):39-41.
[2]于博,王复明.物联网环境下智慧物流服务体系的和谐构建[J].新疆社会科学,2016(5):25-29.
[3]余佳楠.基于CiteSpace的智慧物流研究现状及热点分析[J].物流工程与管理,2022,44(10):11-14.
[4]罗海燕,潘俊林.基于科学知识图谱的智慧共享物流研究可视化分析[J].商业经济研究,2022(20):118-121.
[5]董伟,董思遥,王聪,陶金虎.基于TF-IDF算法和DTM模型的网络学习社区主题分析[J].现代教育技术,2022,32(2):90-98.
[6]邱均平,胡博,徐中阳,肖博轩.基于DTM模型的国内外话语权研究主题挖掘及比较分析[J].情报理论与实践,2023,46(2):24-34.
[7]Mimno D,Wallach H,Talley E,et al.Optimizing semantic coherence in topic models[C].Proceedings of the Confe-rence on Empirical Methods in Natural Language Processing.
Association for Computational Linguistics,2011:262-272.[8]David M B,John D.Lafferty.Dynamic topic models[C].Machine Learning,Proceedings of the Twenty-Third International Conference 2006.
[9]David M B,Andrew Y N,Michael I J.Latent Dirichlet Allocation[J].Journal of machine learning research,2003,3(4).
[10]Li D,Ding Y,Shuai X,et al.Adding community and dynamic to topic models[J].Journal of Informetrics,2012,6(2).
[11]徐红,张斯婷,李凌方.基于LDA模型与共词分析法的农村阅读推广主题发现与热点分析[J].情报科学,2022,40(10):67-73.
[12]齐亚双,祝娜,翟羽佳.基于DTM的国内外情报学研究主题热度演化对比研究[J].图书情报工作,2016,60(16):99-109.
[13]兰秀建,窦宇.区域贸易与物流产业联动发展对策研析[J].商业经济研究,2016(8):157-158.
[14]李远远.智慧物流信息平台规划研究[J].学术论坛,2013,36(5):140-143.
[15]郭兴海,计明军,温都苏,张鑫,田爽.“最后一公里”配送的分布式多无人机的任务分配和路径规划[J].系统工程理论与实践,2021,41(4):946-961.
[16]覃京燕,冉蓓.智慧物流场景下无人驾驶车的产品服务系统设计[J].装饰,2019(11):28-33.
[17]赵林度.产教融合视域下物流人才培养模式创新[J].中国大学教学,2021(12):18-23.
[18]霍宝锋,刘伟华.物流专业教育:智慧物流新模式[J].中国大学教学,2022(4):25-31.
[19]李佳.基于大数据云计算的智慧物流模式重构[J].中国流通经济,2019,33(2):20-29.
[20]王智泓.我国智慧物流发展的现实困境及战略思考[J].商业经济研究,2021(14):106-110.
