学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 英语论文 汉英字幕机器翻译质量评估研究论文

汉英字幕机器翻译质量评估研究论文

56

2023-02-11 10:44:26    来源:    作者:lvyifei

摘要:摘 要: 文章选取习近平总书记的 2021 年新年贺词为源语文本,基于斯德哥尔摩大学让 ·彼得森教授于 2017 年提出的 FAR 模型,从功能对等、接受程度和阅读体验三个方面评估了 Arctime Pro、人人译视界、百度视 频翻译的汉英字幕翻译质量,并与人工翻译进行对比,通过分析当前机器翻译字幕工具的优势与问题,为改善 机器翻译质量提供参考。

  摘要:文章选取习近平总书记的2021年新年贺词为源语文本,基于斯德哥尔摩大学让·彼得森教授于2017年提出的FAR模型,从功能对等、接受程度和阅读体验三个方面评估了Arctime Pro、人人译视界、百度视频翻译的汉英字幕翻译质量,并与人工翻译进行对比,通过分析当前机器翻译字幕工具的优势与问题,为改善机器翻译质量提供参考。

  关键词:机器翻译;字幕翻译;FAR模型;翻译质量评估

  一、引言

  近年来,语音识别与转写技术及神经网络机器翻译技术逐渐进入视听翻译领域,改变了传统的人工翻译字幕模式。自动字幕翻译技术能够从影片中提取数据,创建机器翻译语料库[1],字幕翻译与技术的不断融合成为视听翻译领域的重要的趋势[2]。“网易见外”工作台成为评估机器翻译字幕质量的重要实验平台[3],然而却自2020年3月停运至今。因而要了解当前汉英双向语言对应的机器翻译字幕技术,需关注市场上使用规模广、发展速度快的字幕翻译工具。因此,文章选取Arctime Pro,人人译视界、百度视频翻译平台翻译了习近平总书记2021年的新年贺词视频,并基于FAR模型对比了机器翻译与人工翻译的字幕质量。

搜狗截图23年02月11日1043_9.png

  二、汉英字幕的机器翻译与人工翻译测评方法

  (一)源语文本

  文章的源语文本为习近平总书记在2020年12月31日晚7时发表的2021年新年贺词。视频时长10分14秒,总计1264字,语言为标准普通话,语速适中,语法规范,逻辑清晰且结构完整。在央视网(www.cctv.com)上可下载“习近平总书记2021新年贺词”高清视频,音质清晰无杂音,画面清楚无卡顿且声画同步。

  (二)机器翻译组与人工翻译组

  1.机器翻译组选取了Arctime Pro、人人译视界和百度视频翻译平台三个软件对源语文本进行翻译,具体步骤如下:

  (1)Arctime Pro(AP):导入视频,选择“全自动整段语音识别”,设定媒体语言(中文普通话)和引擎,约5分钟后获取中文字幕,选择“批量翻译字幕”,设定目标语言为“英语”,约2分钟后翻译完成。

  (2)人人译视界(人人):导入视频,点击AI听译,选择识别语言为“中文”,翻译语言为“英语”,口音分别选择“普通话(中国大陆)”“美音”,约8分钟后听译完成。

  (3)百度视频翻译平台(百度):在网站上传视频,填写翻译需求,选择源语言为“中文”,口音为“普通话(中国大陆)”,目标语言为“英文”,交稿格式为“SRT字幕文件”,确认订单信息,约3分钟后翻译完成。

  2.人工翻译组对译者身份进行了进一步细分:

  (1)A组是中国国际电视台(CGTN)的视频直播字幕。在电视台官网上找到2021年新年贺词的视频,按时间轴整理出字幕文本。

  (2)B组是三名拥有三年以上从业经验的民间译员的译本。他们都接受过专业的翻译理论和实践训练,持有英语专业八级证书、翻译专业资格证书等英语语言能力证明。

  (3)C组译本来自国内本科院校英语专业的大四本科生6名(英语专业四级考试成绩为良好及以上),分为C1组(三人)和C2组(三人),要求C1组以团队协作的方式翻译字幕,C2组学生独自翻译,分别得到译文。

  (三)字幕翻译质量评估模型

  本次评估依据的是斯德哥尔摩大学翻译学教授让·彼得森(Jan Pederson)在2017年提出的FAR模型。“FAR”代表功能对等(Functional Equiva-lence)、接受程度(Acceptability)和阅读体验(Read-ability)三个评估纬度。该模型以单句字幕为单位,采用错误分析和扣分制来判定字幕的翻译准确度。依据错误程度设置扣分权重为轻微(Minor)、中等(Standard)和严重(Serious)三个等级,轻微错误是指类似词汇拼写、标点遗漏等小错误,中等错误则会影响到大部分观众阅读体验,严重错误会影响到观众对多句字幕的理解。其中语义类错误因影响更大,在三个等级的扣分比其他类错误要多。依据肖维青、高佳晖[3]和王建华、李静[4]对FAR模型中各项标准的翻译,此处将具体扣分标准整理如下:

  为进一步量化得分,此次规定在“切分与同步”类错误中,声画与字幕同步误差不到1秒为轻微错误,1秒到2秒为中等错误,2秒以上为严重错误。在“阅读速度与句长”类错误中,15~20个字符/秒为轻微错误,20~25个字符/秒为中等错误,25~30个字符/秒为严重错误。在“标点与字体”类错误中,根据“网飞”(Netflix)[5]的英文字幕标点符号使用规范,规定两句字幕之间时间少于2秒可以根据语义不使用标点,单句字幕内标点符号错误1个为轻微错误,2个为中等错误,2个以上为严重错误。

  FAR模型的评分计算基于NER模型,计算单个字幕翻译样本的准确率公式为N-Errors/N×100=%[6]。此处N为单位数量(字幕条数),Errors包含F类(功能对等),A类(接受程度)和R类(阅读体验)三种错误。本次视频素材的字幕共151条,提供给译员的字幕同样为151条。但是机器所识别的字幕条数为156条(AP)和160条(百度与人人)。因字幕总条数相差较小,对最终准确率的影响较小,为真实反映机器翻译的字幕识别与翻译情况,此处不做统一。

  三、机器翻译与人工翻译字幕质量测评结果(一)机器翻译字幕质量测评结果

  从依据FAR模型对机器翻译译的质量评估来看(见表2),Arctime Pro、百度视频翻译和人人译视界都能迅速转写视频的语音内容,Arctime Pro的识别水平较高,能转写出“天问一号”“十四五”“大道不孤”等文化负载词,而百度视频翻译和人人译视界表现较差,如两者都将“擘画”识别为“破坏”,错误严重从译文质量来看,机器翻译的功能对等类错误扣分最多,尤其是语义错误。其中百度视频翻译扣分最多,人人译视界其次,Arctime Pro相对较少,与语音识别水平基本符合。百度视频翻译和人人译视界无法译出“中国共产党”“嫦娥5号”等专有名词和“生气勃勃”“风雨同舟”等成语,甚至将“咬定青山不放松”译为“Qingshan does not relax”。相较而言,Arctime Pro的处理明显更细致,如百度视频翻译与人人译视界都将“人类命运共同体”译为“the community of human destiny”,而Arctime Pro处理为“a community with a shared future for mankind”,语义更精准。

  在接受程度类错误上,Arctime Pro扣分最少,人人译视界其次,百度视频翻译扣分最多。机器翻译倾向于将跨越多行的长句拆分为独立的短句。如将“2021年的脚步”与后半句“越来越近”译为“The footsteps of 2021”和“closer and closer”,将“绚丽多姿的黄浦江畔”和“令人百感交集”译为“The gorgeous Huangpu River bank”和“Mixed Feelings”,这处理会使得全句缺少了谓语动词,导致前后句脱节。

  在阅读体验方面,机器翻译的少数句子译文过长。如“历久弥坚”一句时间轴为2秒,百度视频翻译译为“remain unshakable and become even firmer as time goes by”,共47个字符,远超彼得森建议的每秒15个字符。而Arctime Pro处理为“It lasts for a long time”,更为简练。另外,三个机器译本都只在寒暄语中加了标点,后文都几乎没有标点。在中文字幕中,有时会省略标点,以空格表示断句,而在英文字幕中,每个单词之间以空格间隔,没有标点标注断句,将会影响观众对字幕逻辑的把握。

  (二)人工翻译字幕质量测评结果

  从对人工翻译的评估来看(见表3),A组字幕语义精准,无语法、拼写错误,语句切分得当,标点完整,只有少数字幕内容过长,可能会影响阅读速度。B组民间译员的译文标点规范,语义完整。有几处表达不够精准,如“站在‘两个一百年’的历史交汇点”一句中,“两个一百年”作为强调的重点,不宜模糊处理为“Standing at the cross point of history”;C组学生译文的质量则相对较差。C1组进行团队翻译但是并未对译文质量进行统一把控。C2组译文中出现严重语义错误,如将“迈上百万亿元新台阶”译为“to reach a new level of one trillion yuan”。同时,学生有时会对多句字幕进行合并处理,引起字幕与音画的严重错位。

  (三)机器翻译汉英字幕与人工翻译字幕的对比分析

  从测评结果来看(见表4),CGTN字幕和民间译文的质量要高于学生译文和机器翻译。机器翻译组中Arctime Pro的翻译质量要优于人人译视界和百度视频翻译,但是仍然很难超过普通高校英语专业大四学生的水平。

  由于机器识别能力有限,机器在识别视频语音文本的误差导致了译文的语义错误、语法错误和切分错误。其中,Arctime Pro识别误差较少,人人译视界其次,百度视频翻译的准确率较低,中国特色词汇储备明显不足。机器翻译无法为译文添加标点符号,使得字幕每句相互独立,上下句衔接不够连贯,将会影响观众的阅读体验。而人工翻译中CGTN视频翻译与专业译员能做到基本没有语法错误,偶尔有拼写错误,标点较为完整,方便观众阅读。

  然而,在翻译时间上,机器翻译比起人工翻译有着更大优势(见表5)。百度视频翻译、人人译视界和Arctime Pro都能在10分钟内完成视频文本的语音识别与自动翻译,而人工翻译组中,除了A组翻译时间无法得知外,无论是B组还是C组完成翻译都需要数小时。所以尽管当前机器翻译的质量与人工翻译相比有待提升,但其工作效率是译员难以匹敌的。四、对提升机器翻译汉英字幕质量的启示与建议依据对机器翻译字幕的评估结果,文章从完善评估方法以及提高机器翻译质量两方面提出了建议。

  (一)完善字幕翻译的评估方法

  1.增加对机器翻译语音识别水平的评估标准

  FAR模型的评估对象主要为字幕译文的准确度和与音画的匹配度。但机器在识别文本中出现了错别字、语义错误、切分错误等问题,进而导致译文的翻译错误。所以可以考虑增加标准首先评估机器软件的语音识别水平,然后再测评译文质量和声画同步水平。

  2.客观反映观众阅读体验

  此次基于FAR模型的人工测评结果会受到测评者能力水平的影响。可以考虑播放不同版本的字幕译本,通过现场观察和问卷调查了解观众的阅读体验评价。甚至可以对观众在年龄、性别、受教育背景等方面细分,为评估字幕质量提供更加客观的参考。

  (二)改善机器翻译质量

  1.优化机器翻译字幕技术

  机器的语音识别能力和翻译水平是影响字幕质量的两个重要因素。在语音识别方面,机器需要提高识别能力,如要能根据语境区别中文中的同音词和近音词。同时,机器要扩大语料库,尤其是对中国文化负载词的识别与翻译。机器翻译在切分句子时要注意上下句字幕的连贯性,保证语义流畅,语法完整。另外,还可以考虑依照不同主题为机器设定相应的词汇记忆库。如设定“时政”“医学”“法律”等多种类别,在识别和翻译视频文本时选择相应类别,提高译文的准确度。

  2.人工编辑与机器翻译相结合

  译员可以在机器识别与翻译视频字幕的过程中发挥更为积极的作用,在机器对视频进行语音识别与转写之后,译者可以先核对和修正源语文本,在机器翻译后,译员同样可对译文字幕进行语言、格式的编辑与校对。

  五、结语

  从对Arctime Pro,百度视频翻译和人人译视界的测评来看,当前机器翻译字幕的效率高、功能强大且使用方便,对视频语言识别转写水平的高低直接影响了字幕翻译的质量,且对句子切分的独立处理使得上下文不够连贯,整体质量与人工翻译仍然存在较大差距。为进一步提升汉英语言对的机器翻译字幕水平,可以考虑在测评上增添对识别能力的评估标准,参考更多的观众观看体验,译者可以在机器翻译的译前与译后进行编辑,在利用机器提升翻译效率的同时,改善字幕质量,让机器翻译为中国文化作品的海外传播做出更大贡献。

  参考文献:

  [1]苗菊,侯强.视听翻译走向云端:何塞·迪亚兹-辛塔斯教授访谈录[J].中国翻译,2019,40(3):156-160.

  [2]王华树,李莹.字幕翻译技术研究:现状、问题及建议[J].外语电化教学,2020(6):80-85,6.

  [3]肖维青,高佳晖.机器翻译字幕质量评估研究:以“网易见外”英译中字幕为例[J].外国语言与文化,2020,4(3):95-105.

  [4]王建华,李静.国外视听翻译量化评估研究:现状、局限与启示[J].外国语,2021,44(3):114.

  [5]Netflix:English Timed Text Style Guide,Source:https:/partnerhelp.netflixstudios.com/hc/en-us/articles/217350977-English-Timed-Text-Style-Guide.

  [6]Romero-Fresco P.Accuracy rate in live sub-titling—the NER model[M].Palgrave MacmillanUK,2015.