学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 英语论文 基于语料库的机器翻译句法简化研究论文

基于语料库的机器翻译句法简化研究论文

15

2024-06-07 10:37:45    来源:    作者:zhoudanni

摘要:机器翻译得益于成本低、速度快、效率高的优势,已逐渐被应用于各行各业。尤其是近年来随着计算机技术的不断革新,以百度翻译、有道翻译、谷歌翻译、DeepL、ChatGPT等为代表的机器翻译工具在准确率和流畅度上得到了进一步提升,成为与人工翻译并驾齐驱的一种翻译方式。与人工翻译相同,机器翻译的基本过程也是将源语*息用目的语表达出来,完成从源语到目的语的转换,减少不同语种人群之间的沟通障碍。

  [摘要]近年来机器翻译愈加普遍,而机器翻译的翻译共性问题仍有待探索。本文从翻译共性中的简化现象入手,以中医药文化宣传文本为例,探索机器翻译的翻译共性问题。基于自建中医药文化翻译语料库,本文对比了机器翻译文本与非翻译文本的句法特征,挖掘出机器翻译句法特征的构型特点。研究发现,在机器翻译中仅部分句法特征显示出简化趋势。本文是翻译共性在机器翻译领域的实践和延伸,在一定程度上有助于完善机器翻译工具,加强机器翻译在中国传统文化“走出去”中所起的作用。

  [关键词]中医药文化;语料库;机器翻译

  1研究背景

  机器翻译得益于成本低、速度快、效率高的优势,已逐渐被应用于各行各业。尤其是近年来随着计算机技术的不断革新,以百度翻译、有道翻译、谷歌翻译、DeepL、ChatGPT等为代表的机器翻译工具在准确率和流畅度上得到了进一步提升,成为与人工翻译并驾齐驱的一种翻译方式。与人工翻译相同,机器翻译的基本过程也是将源语*息用目的语表达出来,完成从源语到目的语的转换,减少不同语种人群之间的沟通障碍。

  经过语言转换过程,人工翻译和机器翻译均输出翻译语言(translated language)。“人工翻译语言的语言规律,如翻译共性(translation universals),是否在机器翻译语言中仍然适用?”成为学界所关注的问题。本文从翻译共性中的简化现象入手,以大量实证数据为基础,探索不同机器翻译工具(谷歌翻译、DeepL、ChatGPT 3.5)所译的中医药汉译英文本与非翻译英语母语文本相比,在句法层面是否存在翻译共性,分析机器翻译共性的特点并解读其原因,验证与分析机器翻译的语言规律,以期帮助人们更加深刻、全面地理解翻译语言的特性,并为机器翻译工具的完善提供些许借鉴。

  2翻译共性

  翻译共性指翻译作为一种语言,拥有其自己的特性。翻译共性的提出可追溯至英国翻译理论家贝克(Mona Baker)于1993年发表的文章“Corpus Linguistics and Translation Studies:Implications and Applications”(Baker,1993)。翻译共性具有双重意义,一是翻译共性是基于统计的普适性语言规律,在大量实证样本中得到体现;二是翻译共性是翻译过程本身的结果,独立于源语语言和目的语语言的系统性差异(胡开宝,2011)。学者们利用语料库资源与工具,在不同语言、不同文体中验证翻译共性,并发现和归纳出简化(simplification)、显化(explicitation)、范化(normalization)等翻译语言共性特征(何丽玲,2020)。方法上,研究者一般使用可比语料库(comparable corpora),对比翻译语料库和非翻译语料库的语言表征(linguistic indicators),找寻其语言构型(patterns),验证翻译共性。

  随着翻译共性的研究内容不断丰富,翻译共性的应用范围也不断扩大。在涉及语种上,研究从早期以印欧语系为主拓展到包括汉语在内的汉藏语系等(Xiao et al.,2015);在翻译文体上,学者们探索了文学、新闻等多个文体中的翻译共性趋势(Mauranen et al.,2004)。此外,有的研究还引入了译员翻译能力等变量,探寻这些变量对翻译共性的影响(Redelinghuys et al.,2015)。这无疑从多角度丰富了翻译共性的研究内容,也不断地完善了翻译共性的科学性和普适性。考虑到机器翻译与人工翻译同样经历了语言转换过程,理论上,机器翻译也应具备翻译共性特征。本文将翻译共性引入机器翻译并验证机器翻译语言的翻译共性,旨在进一步拓展翻译共性研究范围,以期借助翻译共性理论知识指导机器翻译工具优化。

  3翻译简化

  翻译简化是指翻译语言相较于非翻译目的语语言(non-translations in target language)出现的语言简化倾向。学者们通过对比翻译语言和非翻译目的语语言中高频词(high frequency word)、词汇密度(lexical density)等语言表征来判断翻译语言的简化趋势(Laviosa-Briathwaithe,1998;于红,2 01 6)。区别于显化、范化等其他翻译共性,简化在前人实证研究中较少遇到相左的学术意见(Mauranen et al.,2004)。这从侧面说明简化在不同语种和不同文体中更加稳定,也更具普适价值。因此,本文选取翻译共性中的简化作为研究突破口,探索机器翻译中的翻译共性问题。

  纵观前人研究,本文梳理出翻译简化研究的两个趋势。一是所研究的文本类型更加细化。早期学者们在研究翻译简化时所使用的语料大多分为文学、新闻、报告等(王克非等,2008);而近年来,简化研究所分析的文本对象更加专业化,文本类型划分也更加细致,比如某学科的学术论文、某领域的专业文本等(孙艳等,2013)。二是语言表征更加多元。由于语言是一个复杂的整体,翻译简化应当体现在翻译文本的各个层面。近年来有关翻译简化研究的关注点开始从词汇层面向句法层面发展,简化的语言表征也从词汇特征扩展到句法特征(Liu et al.,2 02 1)。这些研究趋势有助于更加细致、体系化地探索翻译简化现象,也为翻译共性理论的完善提供了更加丰富的实证支撑。因此,本文集中分析中医药文本的汉译英机器翻译在句法层面的简化现象,从文本类型和语言表征两方面拓展翻译共性研究。

image.png

  4研究设计

  4.1语料库建设

  笔者收集了80篇中医药文化介绍文本作为源语样本,并分别通过谷歌翻译、DeepL和ChatGPT 3.5三个机器翻译工具完成汉译英翻译,形成机器翻译样本。同时,笔者在澳大利亚政府官方网站上收集了80篇有关医药卫生宣传的材料,作为非翻译英语母语样本。基于所收集的样本语料,笔者自建中医药机器翻译语料库(A库),下设四个子库,详见表1。

image.png

  4.2语言表征标注

  笔者使用Syntactic Complexity Analyser语料库工具(Lu,2010)对所有语料的14个句法特征进行句法标注,并用Excel整理句法特征数据。句法特征包括:平均句长(Mean Length of Sentence,MLS)、平均从句长度(Mean Length of Clause,MLC)、平均T单元长度(Mean Length of T-unit,MLT)、从句/句子比(Clause per Sentence,C/S)、T单元/句子比(T-unit per Sentence,T/S)、从句/T单元比(Clause per T-unit,C/T)、复杂T单元/T单元比(Complex T-unit per T-unit,CT/T)从属从句/从句比(Dependent Clause per Clause,DC/C)、从属从句/T单元比(Dependent Clause per T-unit,DC/T)、并列短语/从句比(Coordinate Phrase per Clause,CP/C)、并列短语/T单元比(Coordinate Phrase per T-unit,CP/T)、复杂名词短语/从句比(Complex Nominal per Clause,CN/C)、复杂名词短语/T单元比(Complex Nominal per T-unit,CN/T)以及动词短语/T单元比(Verb Phrase per T-unit,VP/T)(孙艳等,2013)。根据这14个句法特征,我们可从句子单位长度(length of production unit)、句子复杂度(sentence complexity)、从属关系(subordination)、并列关系(coordination)、特殊句法结构(particular structure)五个维度分析文本的句法复杂度,详见表2。

  4.3语言构型挖掘

  笔者使用SPSS 27非参数检验法Mann-Whitney U Test分别比较E库与B库、E库与C库、E库与D库在各句法特征数据上的差异。如果B、C、D库的句法特征在对比中表现出秩平均值都小于E库,且具备显著性(P<0.05),则说明机器翻译文本在句法层面展现出的构型,与非翻译英语母语文本相比,呈简化趋势,反映了机器翻译的翻译共性。

image.png

  5研究结果与讨论

  如表3所示,在句子单位长度维度,三个机器翻译语料库的MLC、MLS和MLT的秩平均值均大于非翻译英语母语库,但是只有ML C在三组比较中均具备显著性(P<0.05)。MLS在DeepL、ChatGPT 3.5与非翻译英语母语的比较中,以及MLT在谷歌翻译、DeepL与非翻译英语母语的比较中,P值均大于0.05,不具备显著性。这说明在句子单位长度维度,三个机器翻译均在不同程度上比非翻译英语母语文本更加复杂。在句子复杂度维度,所有机器翻译库中的C/S均显著低于非翻译英语母语库(P<0.05)。这说明三个机器翻译工具在翻译中医药文化宣传文本时,均表现出句子复杂度层面的简化。在从属关系维度,四个句法特征的秩平均值在三个机器翻译中均低于非翻译英语母语文本,且均具备显著性(P<0.05)。因此在从属关系维度,机器翻译体现出简化趋势。而并列关系维度的三个句法特征则不完全体现翻译简化,虽然三个句法特征在三组比较中展示出了一定的差异性,但是绝大多数差异不具备显著性。在特殊句法结构维度,三个机器翻译译本的CN/C和CN/T均高于非翻译英语母语文本(P<0.05),而VP/T均低于非翻译英语母语文本(P<0.05)。这意味着在复杂名词短语结构上,机器翻译并未体现简化趋势;而在动词短语结构上,机器翻译则体现了简化趋势。

  总体上,机器翻译在句子复杂度、从属关系和动词短语结构上所展现的语言构型说明机器翻译在一定程度上体现了句法简化趋势。同时,句子单位长度、并列关系和复杂名词结构的语言构型则无法支撑机器翻译简化之说。本文认为导致这一结果的因素有三点:

  第一,人工翻译和机器翻译在翻译机制上存在一定的不同。虽然人工翻译和机器翻译都是不同语言转换的过程,但是人工翻译的机制是由人脑处理的认知活动,而机器翻译则是在数据库和高精算法支持下的语言生成(Luo et al.,2022)。人脑在处理源语*息和产出译文时,会比机器翻译更加灵活地调整句式以及适当使用省略(Omission)等翻译策略。

  第二,本文所涉及的文本为中医药文化宣传文本,机器翻译工具在处理这类文本时存在一定困难。该类文本的翻译具有跨语言、跨文化、跨专业的特点(熊展等,2018)。中医药翻译门槛高,已有中医药译本相对较少,可为机器翻译工具提供数据支撑的中医药翻译文本数据比较有限。因此,中医药机器翻译结果相对更容易出现翻译质量较差的情况。

  第三,翻译共性的研究不仅应该对单一语言特征数据进行比对,还应考虑到各语言特征之间的相互影响(De Sutter et al.,2020)。例如,特殊句法结构维度所包含的三个句法特征之间也可能存在特征构型相互抵消的情况,它们共同作用于机器翻译,最终是否呈现简化趋势还需要进一步的分析确认。

  6结语

  综上,机器翻译在句子复杂度、从属关系和动词短语结构层面体现出句法简化趋势,而在句子单位长度、并列关系和复杂名词结构层面,本研究的数据则无法支撑机器翻译简化之说。机器翻译的独特工作机制和中医药文本的特点是影响机器翻译简化的因素。此外,本文建议未来研究可尝试使用多变量分析方法探寻多语言特征之间的相互作用对机器翻译共性的影响。

  参考文献

  [1]BAKER M.Corpus linguistics and translation studies:implications and applications[C]//Text and technology:in honor of John Sinclair.Amsterdam:John Benjamins,1993:233-250.

  [2]DE SUTTER G,LEFER M.On the need for a new research agenda for corpus-based translation studies:a multi-methodological,multifactorial and interdisciplinary approach[J].Perspectives,2020(28):1-23.

  [3]LAVIOSA-BRIATHWAITHE S.Universals of translation[C]//Routledge encyclopedia of translation studies.New York:Routledge,1998:288-291.

  [4]LIU K,AFZAAL M.Syntactic complexity in translated and non-translated texts:a corpus-based study of simplification[J].Plos one,2021,16(6):e0253454.

  [5]LU X.Automatic analysis of syntactic complexity in second language writing[J].International journal of corpus linguistics,2010,15(4):474-496.

  [6]LUO J,LI D.Universals in machine translation?a corpus-based study of Chinese-English translations by WeChat translate[J].International journal of corpus linguistics,2022,27(1):31-58.

  [7]MAURANEN A,KUJAMAKI P.Translation universals do they exist?[M].Amsterdam:John Benjamins,2004.

  [8]REDELINGHUYS K,KRUGER H.Using the features of translated language to investigate translation expertise:a corpus-based study[J].International journal of corpus linguistics,2015,20(3):293-325.

  [9]XIAO R,HU X.Corpus-based studies of translational Chinese in English-Chinese translation[M].Berlin,Heidelberg:Springer,2015.

  [10]何丽玲.国内语料库翻译研究现状及未来走向探讨[J].英语*,2020(16):34-36.

  [11]胡开宝.语料库翻译学概论[M].上海:上海交通大学出版社,2011.

  [12]孙艳,赵雪爱,王樱.科技论文摘要英文译本的翻译简化之我见[J].宜春学院学报,2013,35(11):121-124.

  [13]王克非,胡显耀.基于语料库的翻译汉语词汇特征研究[J].中国翻译,2008,29(6):16-21+92.

  [14]熊展,黄敏.《黄帝内经》病症术语翻译的简明原则[J].新西部,2018(35):86-87.

  [15]于红.基于语料库的政府公文翻译“简化”趋势考察——以白皮书《2010年中国的国防》英译文为例[J].外语研究,2016,33(3):79-86.