学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 英语论文 国内机器翻译的研究路径与发展趋势分析( 1998~2022)——— 基于 CiteSpace 的可视化分析论文

国内机器翻译的研究路径与发展趋势分析( 1998~2022)——— 基于 CiteSpace 的可视化分析论文

7

2024-04-07 15:17:31    来源:    作者:hemenglin

摘要:本研究以 1998~2022 年间中国知网收录的机器翻译领域文献作为数据,借助 CiteSpace V(6.1. R8) 科学文献可视化 计量工具和 Excel 工具进行数据分析,绘制出聚类图

  摘 要 : 本研究以 1998~2022 年间中国知网收录的机器翻译领域文献作为数据,借助 CiteSpace V(6.1. R8) 科学文献可视化 计量工具和 Excel 工具进行数据分析,绘制出聚类图、突变词表等用于梳理国内机器翻译的研究现状。研究表明,国内机器翻译 主要是翻译学、图书情报学相关期刊在关注,国内机器翻译的研究热点在于机器翻译以及语言处理技术。通过总结和对相关文 献进行阅读,文章也对存在的问题及解决途径进行了探讨。

  关键词 : 机器翻译 ; 语言处理 ; 可视化

  An Analysis of the Research Path and Development Trend of

  Machine Translation (1998~2022)

  —Visual analysis based on CiteSpace

  Luo Qiao

  ( Guizhou Minzu University,Guiyang,Guizhou,550025)

  Abstract : This study takes the literature of machine translation collected by CNKI from 1998 to 2022 as data,and analyzes data by CiteSpace V (6.1. R8) scientific literature visualization measurement tool and Excel,so to draw a cluster map and mutation word list for combing the research status of domestic machine translation.The research shows that domestic machine translation is mainly concerned by related journals in translation science and library and information science,and the research trend of domestic machine translation lies in machine translation and language processing technology.By summarizing and reading relevant literature,the article also discusses the ex- isting problems and solutions.

  Key words : machine translation ; language processing technology; visualization

  信息技术迅猛发展的时代,人工智能也逐渐走 进人们的日常生活中,各行业亟待高效率产出,就翻 译来看,机器翻译的高效使得量化转换语言有了新 路径。傅敬民,谢莎指出,直到 20 世纪 70 年代,机 器翻译的研究又逐渐兴盛起来。相应的技术也日趋 成熟,基于统计和实例的机器翻译逐渐替代了过去 简单的语言字面转换,在非文学翻译方面发挥着日 渐重要的作用。[1]机器翻译的定义可借鉴 2019 年国 际标准化组织(ISO) 发布的 ISO10891 标准,即机器 翻译可以认为是一种自动的翻译技术,通过计算机 将语言进行转化,使其保留原文本的意义、风格和语 法结构,以此生成相同效果的翻译结果。 国内机器 翻译的研究始于 20 世纪 50 年代,钱令希教授领导 并成立了北京大学机器翻译实验室,这是当时中国 最早成立的翻译实验室之一,多年的理论和实践研究推动了国内机器翻译的向前发展。 国际上机器翻 译是热点,国内相关研究还有待加强,因此有必要研 究国内机器翻译研究的发展路径,从历时视角分析 该主题的发展规律。

  一、国内机器翻译研究数据分析

  ( 一) 数据来源

  进入中国知网页面,输入主题词“机器翻译”, 勾选“学术期刊”,来源类别为“CSSCI”,得到 574 篇 文献。剔除会议通知、会议综述、征稿启事、书评等 无关主题的 39 篇,最后得到 531 篇文献作为此次 CiteSpace 可 视 化 分 析 的 数 据 基 础。 本 文 借 助 CiteSpace 可视化软件对中国知网收录的国内机器 翻译研究的期刊论文进行可视化分析,从中国知网 搜得数据后在 Citespace 软件设置时间跨度为 1998 年至 2022 年。通过梳理中国知网上我国学者对机器翻译相关的期刊文论,包括发文量、来源期刊、关 键词共现图、时间线图和突现词列表等,分析了国内 机器翻译的发展脉络和研究现状。

  ( 二) 研究工具

  CiteSpace 是一款科学文献计量可视化的工具, 主要用途是挖掘意向研究领域的知识结构和发展趋 势。美国德赛雷大学陈超美教授主导开发的可视化 分析软件 CiteSpace,能够把文献的数据转换成图片 式的知识图谱,研究人员可以更直观地理解所研究 领域的研究热点、期刊、作者等动态相关信息。 另 外,CiteSpace 能够根据对导入数据的分析等,为研究者挖掘数据背后的内涵特征,揭示某一主题的研 究趋势,为想要深入了解某一领域提供参议和有价 值的信息。当前,CiteSpace 可视化分析软件已经为 国内外各个领域的研究做出重要贡献,如生物学、计 量学、语言学等。

  ( 三) 数据分析

  1.发文量

  发文量及发表时间分布图可在特定时间段内某 一研究领域的受关注状况,因而在运用 Citespace 进 行图谱绘制之前,统计出了对 1998~2022 年间机器 翻译的发文量及时间分布的具体数据,见图 1

1.png

  由图 1 可见国内机器翻译的研究总体呈现上升 趋势,尤其在 2022 年达到最高峰,每年有 43 篇,这 是机器翻译为国内所关注下发文量最多的一年。通 过分析,可将近年来国内机器翻译的研究进程大致 分为两个阶段: ( 1) 1998~ 1999 年,发文量分别为 1998 年的 13 篇、1999 年的 24 篇,通过查询相关文 献可知,国内高校在改革开放后陆续恢复语言教学 和研究,此时的政策重新点燃了语言工作者对于机 器翻译的关注。 阅读这两年发表的 37 篇文章和相 关文献已发现,1998 年和 1999 年是中国自然语言 处理领域发展的重要时期,中国学者在这个时期取 得了一些重要的机器翻译方面的成就。其中最著名 的就是 1998 年中科院计算所王小波团队所研制的 “统 计 机 器 翻 译 ”( Statistical Machine Translation,SMT) 系统。这个系统利用大规模的双语语料库,通 过统计分析方法对源语言和目标语言进行建模,进 而实现翻译。这个系统在机器翻译领域引起了广泛 的关注,也成为了后来各种机器翻译方法的基础。 (2) 2000 年至今,机器学习和人工智能技术发展迅 速,尤其是深度学习技术的兴起和应用,极大地促进 了机器翻译的发展和进步。 国内机器翻译的研究呈 现递增趋势,特别是 2013 年和 2018 年以后的几年, 核心期刊对于相关话题的发文量十分明显。

  2.来源期刊

  对来源期刊的统计和分析有利于更深入理解有 哪些期刊对某一特定领域更加关注。通过整理排 列,呈现了所刊载“国内机器翻译”主题的文章数量 排名前 20 的来源期刊如表 1 所示。

  表中列出的发量排名前 20 的期刊可大致分为 两个类别,分别是语言类( 外语类和翻译类如 : 中国 翻译、上海翻译、外语界等) ,图书情报学类( 如 : 情 报科学、图书情报工作、情报杂志等) 。第一,外语 类、翻译类期刊的发文量居高,表明“机器翻译”话 题的研究者紧跟时事、愿意学习新方法来丰盈技能。 第二,图书馆情报学类期刊对于机器翻译主题的关 注,体现出人和信息的交互过程出现了“机器”这一 角色,人、机器、信息三者的配合会更适应情报学的 发展。[2] 由于技术的发展,图书馆情报学早已不再 满足如何安排书本的排放,阅览室的分配,数字化时 代需要完善数字化图书馆,以便更好地为读者服务。 同样地,图书馆情报学一直以来也是将信息组织置 于重要地位,对于“机器翻译”话题的关注能够精细 化图书馆情报学描述事物特质的要求,也能为该学 科更好地收集和整理信息而做准备。

  对于相关文献的收集整理和分析后,文章利用 CiteSpace6.1. R6 ( 64-bit) Advanced 软件绘制了知 识图谱,用直观的方式揭示了近年来国内机器翻译 的热点变化轨迹、发展现状及趋势。

  二、国内机器翻译研究热点追踪

  ( 一) 研究热点变化轨迹(聚类) ( 高频词表)

2.png


  关键词共现聚类图谱如图 2 所示,是设置所收 集文献的关键词为节点的、时间跨度为 1998~2022 年国内机器翻译的关键词聚类知识 图谱。 可 见 ModularityQ 值为 0.808 1.平均 Silhouette 值为0.975. 一般认为,若 ModularityQ 值和 Silhouette 值大于0.4. 可认为聚类效果比较理想。[3]利用 CiteSpace V(6.1. R8) 的关键词聚类功能, 可以直观展示某一主题在当前研究的热点。 图 2 为 关键词聚类图谱,由节点与节点之间的连线组成,节 点就是论文的关键词,节点的大小与关键词出现的 频次成正比,节点之间连线的粗细代表关键词之间 联系的密切程度。如果关键词在其所属领域的文献 中反复出现,则反映出该关键词所表征的研究课题 是该领域的研究热点。[4] 关键词是对文献的重要凝 练和体现,将关键词出现的频次列出,可以发现某一 领域的重点关注对象,从而为热点的探析寻找有力 的支撑。结合图 2 和表 2.1998~2022 年国内机器 翻译的研究主要围绕机器翻译话题,辅之以语言处 理的技术,相对来说,人本位的译者逐渐弱化下来, 突显的是对自然语言处理的手段的发展。 由表 2 可 以清楚地看到,机器翻译、人工智能、翻译技术、语料 库、信息检索、大数据、机器学习等为近年来相关研 究的重要方向,人工翻译、译后编辑、众包翻译、翻译 教学成为翻译实践重要方式,语言服务、语言产业对 翻译的性质做了区别。其中,机器翻译、人工智能的 高频出现代表着翻译行业的革新换代快、实践需求 大的特点。表中对于关键词后一列的中心性也作了 对应呈现,“机器翻译”“人工智能”“翻译技术”“语 料库”是中介中心性最高的关键词,这表明 1998 ~ 2022 年期间,用技术分析语言,用技术承接翻译是 机器翻译这里研究领域的重点,在这些高中心性词 的影响下,可见技术的突破和相关产业的兴起会是 未来的研究方向。

  ( 二) 研究领域发展现状及趋势(突变词)

  突变词在特定时间段内活跃度高频次特别突 出,可用来呈现研究领域中某时间段内具体有哪些 研究方向备受关注。 图 3 是 Citespace 中输入 γ 值 为 0.55.得到的 1998~2022 年突变词图,可见“译后 编辑”在相对长的时间段内活跃度高,此外,到 2022 年往后还有可能继续突变的词有“深度学习”“译后 编辑”“人工智能”“大数据”“翻译技术”“语言服 务”,这释放出国内机器未来研究领域的走向信号。

3.png

  三、对国内机器翻译发展的探讨

  借助 Citespace 可视化分析软件对国内机器翻 译进行量化分析,探究国内机器翻译研究领域的进 展状况,国内机器翻译的研究发文量呈现整体上升 趋势,这个领域的研究也是呈现出范围广、主题鲜明 的特点。但国内机器翻译还存在着以下问题 :

  第一,国内机器翻译的发展要继续服务于经济 发展,既能走出国门,又能提高国际话语权。 国内机器翻译的发展能够带动相关产业的发展,在语言和 技术层面顺应发展潮流,跟上时代节奏,才能够立足 本国,展望世界,真正提高我国的国际话语权。

  第二,鉴于机器翻译缺乏逻辑思维,国内机器翻 译的研究则需要关注如何弥补形象思维的空缺。特 别注意对象为不同文本时,要适当分配使用人形象 思维和机器翻译实际功能的比例。人机合作能够提 升翻译质量,提供更加高质量的作品。对于传统意 义上大量耗费人力的基础性翻译,可用机器翻译代 替复杂劳作,采用机器先行,译者完善的步骤来进行 作业。

  第三,加强机器翻译成果与实际应用的合作。 机器翻译成果要运用到各行各业来解决问题,例如, 在图书馆领域,要加强数字化图书馆的管理和建设, 向着智慧图书馆转型,图书馆应实时注意机器翻译 的动态发展,将 VR 技术等结合起来。在语言教学 课堂,机器翻译的操作使用,应当成为语言专业师生 的必修课,以便在人工智能威胁劳动力成本的时代, 更好地立足于职业生涯。

  四、结论

  通过使用 CiteSpace 文献计量软件和 Excel 工具 对 1998~2022 年间中国知网收录的机器翻译领域 文献进行整理分析,可知国内机器翻译研究的热度 正在逐年上升,现阶段主要在翻译学、图书情报学相 关期刊发表文章,国内机器翻译的研究热点在于机 器翻译以及语言处理技术。通过总结和对相关文献 进行阅读,文章认为,国内机器翻译的发展要继续服 务于经济发展,要关注如何弥补形象思维的空缺,也 要加强机器翻译成果与实际应用的合作。


参考文献 :

  [1]傅敬民,谢莎.翻译技术的发展与翻译教学[J].外语电化 教学,2015(6) : 37-41.

  [2]刘莉,王怡,邵波.机器翻译在图书馆中的研究现状及应 用趋势分析[J].图书馆学研究,2021(24) : 2-8.41.

  [3]李 杰,陈 超 美.CiteSpace : 科技文本文本挖掘及可视 化[M].北京 : 首都经济贸易大学出版社,2016.

  [4]冯佳,王克非,刘霞.近二十年国际翻译学研究动态的科学知识图谱分析[J].外语电化教学,2014( 1) : 11-20.