生成式人工智能驱动的科技文本译后编辑优化研究论文
2026-06-21 14:03:42 来源: 作者:xuling
摘要:人机协同翻译融合AI效率与人工创造力,已成为行业趋势,科技文本语言规范性强,但复杂句式仍需人工介入。
人机协同翻译融合AI效率与人工创造力,已成为行业趋势,科技文本语言规范性强,但复杂句式仍需人工介入。根据翻译自动化用户协会(TAUS)2010年发布的统一指导原则,译后编辑主要分为两类:其一是轻度译后编辑;其二是深度译后编辑,需生成可直接发布的高质量译文,效果相当于人工翻译。若深度译后编辑遇效率瓶颈,生成式AI能提供新路径。为此,本研究探索“机器翻译+生成式AI”协同模式在深度译后编辑中的实际应用。
研究思路
本研究通过“机器翻译(DeepL)+生成式AI(ChatGPT-4omini/DeepSeek R1)”协同模式,分阶段处理科技文本被动句:先用DeepL生成译文并筛选问题句式,再由生成式AI优化。针对被动句翻译难点,设计针对性指令(如转换主动句/无主句等),选取科技文本《翻译工具与技术》(9万词,被动句占比20.8%)为语料,基于其客观性、专业性和高频被动结构特点,探究机器翻译策略的有效性,以及生成式人工智能在译后编辑中的潜能与问题。
结果与讨论
一、机器翻译的被动句翻译方法
本研究基于语料分析,对英文被动句的机器翻译质量进行分层评估,参考ISO18587框架,将译文分为优质、可接受和需改进三类。
例1:Once all the subtitles have been spotted and translated,the Export button allows them to be written to various types of text files including.SRT and the similar,HTML5-based WebVTT(Web Video Text Tracks)supported by YouTube and most browsers.
DeepL译文:一旦所有字幕都被标注和翻译,“导出”按钮就可以将它们写入各种类型的文本文件,包括.SRT和类似的、基于HTML5的WebVTT(网络视频文本轨),YouTube和大多数浏览器都支持这种格式。

例2:Despite years of development,contemporary RBMT systems still struggled with ambiguity and were limited by an inclination to“see meaning as objective and residing in more-or-less discrete concepts”.
DeepL译文:尽管经过多年的发展,当代的RBMT系统仍在与模糊性作斗争,并受限于“将意义视为客观并存在于或多或少离散的概念中”的倾向。
例3:For example,since its discovery,Pluto was considered a planet and was defined as such.
DeepL译文:例如,自从冥王星被发现以来,它就被认为是一颗行星,并被定义为行星。
例4:The appropriate use of gender or gender neutral language is often considered important.
DeepL译文:适当使用性别或中性语言通常被认为是很重要的。
例1—4的DeepL译文在被动句处理方面表现出以下特征:DeepL处理被动句时采用两种策略:替换“被”字为更符合中文习惯的被动标记(如“受限于”)或转换英文主语为中文宾语实现主动化(如“将……写入”),对常规被动句可生成优质和可接受译文。但面对连续被动结构(如多个“被”字连用)及非常规被动句式时,仍存在生硬保留“被”字等问题,属于需改进译文。
二、生成式人工智能对被动句的主要译后编辑方法
例5:For example,since its discovery,Pluto was considered a planet and was defined as such.
DeepL译文:例如,自从冥王星被发现以来,它就被认为是一颗行星,并被定义为行星。
ChatGPT译文:例如,自从发现冥王星以来,人们一直认为它是一颗行星,并将其定义为行星。
DeepSeek译文:自天文学家发现冥王星后,科学界便将其认定为一颗行星,并正式纳入行星分类体系。
例6:Just as in the segment-based alignment,target segments 3 and 4 have been joined together and aligned with source segment 3.
DeepL译文:一与基于语段的对齐一样,目标语段3和4被连接在一起并与源语段3对齐。
ChatGPT译文:与基于语段的对齐一样,连接目标语段3和4并将其与源语段3对齐。
DeepSeek译文:正如语段对齐机制的常规操作,目标语段3与4经合并处理后,已精准对齐至源语段3。
例7:Increasingly,term extraction is being integrated into the terminological functionality of CAT tools.
DeepL译文:术语提取越来越多地被整合到计算机辅助翻译工具的术语功能中。
ChatGPT译文:术语提取越来越多地融入计算机辅助翻译工具的术语功能中。
DeepSeek译文:如今,术语提取功能已逐步融入计算机辅助翻译工具的术语管理模块。
例8:The appropriate use of gender or gender neutral language is often considered important.
DeepL译文:适当使用性别或中性语言通常被认为是很重要的。
ChatGPT:通常认为,适当使用性别中立或中性语言是很重要的。
DeepSeek:通常认为,恰当使用性别中立语言非常重要。
从例5至例8可见,ChatGPT和DeepSeek在处理被动结构时,通过将被动转为主动或添加主语,避免了“翻译腔”。例如,ChatGPT在例5中添加主语“人们”,使句子更自然;DeepSeek则通过更地道的中文表达“纳入行星分类体系”等,提升了译文流畅度。两者在处理被动结构和中文表达习惯上表现出色,有效避免了直译的生硬感。DeepSeek更出色,表达更流畅,语境适应性更强。这得益于其基于中文训练文本的优势,使其对中文习惯的理解和表达能力更胜一筹。
三、生成式人工智能在被动句译后编辑中的典型错误
例9:In the almost limitless range of informative text types and domains where CAT is designed to be useful,the pragmatic guiding principle is usually that the target text needs to be equivalent in meaning to the original source text if the end-user is to rely on it for information.
DeepL译文:在几乎无限的信息文本类型和领域中,CAT被设计为非常有用,实用的指导原则通常是,如果最终用户要依靠目标文本获取信息,那么目标文本的意义必须等同于原始源文本。
ChatGPT译文:在几乎无限的信息文本类型和领域中,CAT作为非常有用的实用指导原则,通常要求如果最终用户依靠目标文本获取信息,则目标文本的意义必须与原始源文本相同。
DeepSeek译文:计算机辅助翻译(CAT)能有效应用于各类文本领域,其核心原则在于:当用户需依赖译文本获取信息时,译文内容必须与原文保持高度一致。
例10:There is now very little translation that could not be considered a form of human-computer interaction,as noted by O'Brien(2012).
DeepL译文:正如O'Brien(2012年)所指出的那样,现在很少有翻译可以不被视为人机交互的一种形式。
ChatGPT译文:正如O'Brien(2012年)所指出的那样,很少有翻译会被视为人机交互的一种形式。
DeepSeek译文:正如O'Brien(2012)所言,当代译作多属人机交互的范畴。

从例9可以看出,ChatGPT给出的润色译文看似非常通顺,但意思并不正确,“CAT”并不是“原则”,这显然是为了通顺而曲解了译文意思。从例10来看,ChatGPT在润色被动句的过程中,为了让句式简洁通顺,将双重否定的“很少不”改为“很少会”,使译文意思截然相反,出现错误。DeepSeek虽然理解正确,但将“翻译”译为“译作”,缩小了译文范围,因为翻译这一行为并不一定产生译作,有可能只是进行阅读中的一种行为等。
例11:It is reported using either a decimal formulation(zero to one,where one is perfect),but some times whole numbers or percentages,which does not always make the score meaningful for readers.
DeepL译文:报告采用十进制(0到1,其中1代表完美),但有时也采用整数或百分比,这对读者来说并不总是有意义的。
通过分析译文,译者发现该句机器翻译译文本身理解存在问题,于是将英文原文和译文一同输入,并要求ChatGPT“根据原文润色译文”。
提示原文后结果:
ChatGPT译文:报告采用十进制(0到1,其中1代表完美),但有时也采用整数或百分比,这样的评分方式对读者具有清晰的意义。
DeepSeek译文:评分系统通常采用小数制式(0到1,1代表满分),但有时亦会改用整数形式或百分比制,这种混用方式容易导致读者理解偏差。
以上例子中,ChatGPT将“it”误译为“报告”,而非“系统得分”,即使在修改时也未改正,反映其无法根据上下文理解原文内容。DeepSeek表现优异,但在润色时将“不是常有清晰意义”改为“容易导致读者理解偏差”,范围过窄。
由此可见,人工智能编辑在译后编辑中面临两个主要问题:一是可能扭曲原文意思,二是无法有效纠正机器翻译中的错误。人工智能在润色译文时为追求句式通顺,可能会加词破坏译文准确性,甚至缩小原文意思,导致“流利但失实”的现象。此外,即便给出明确意见,ChatGPT和DeepSeek等AI工具在修正译文错误时仍表现不佳,难以完全理解原文含义。由此可见,人工智能虽能为译后编辑提供参考,但无法彻底代替人类译员,说明其自然语言处理水平仍需提升。
本研究显示,DeepL可有效处理科技文本常规英文被动句(生成优质或可接受译文),但在复杂句式翻译中仍存局限。生成式AI(DeepSeek-R1优于ChatGPT-4omini)通过转换为无主句/主动句优化表达,提升客观性与流畅度,但存在语义偏差、纠错不足等问题。建议构建“机器翻译—AI优化—人工校对”协同模式,兼顾效率与专业性,为科技翻译提供智能化解决方案。