基于语料库的2019年政府工作报告词汇特征对比研究论文

2024-03-13 14:50:20 来源: 作者:hemenglin
摘要:文章以 2019 年政府工作报告原文及其英文版为对象建立平行语料库,对报告原文及其英译本的词汇层面进行对比研究 。研究运用相关软件
摘 要:文章以 2019 年政府工作报告原文及其英文版为对象建立平行语料库,对报告原文及其英译本的词汇层面进行对比研究 。研究运用相关软件( Antconc , Visual FoxP ro , Excel , Word Parser, Claws 7 在线版http: ∥ucrelapi.lancaster.ac.uk/claws/free.html) 从类符、形符、平均词长、词汇密度、高频词方面探讨报告原文及英译本的词汇特征 。研究结果表明,两个文本在词汇特征方面存在差异,文章对不同方面的差异进行了具 体分析并对今后政府工作报告的翻译提出建议。
关键词:语料库;政府工作报告;词汇特征;对比研究
Abstract: This paper uses the original text of the“ 2019 Government Work Report ”and its E nglish version as the subject to establish a parallel corpus to make a lexical comparison between the original text and its E nglish version. Relevant software ( Antconc , Visual FoxP ro , Excel , Word Parser, and online Claws 7) are used to discuss the vocabulary features of the government work report and its E nglish version from the perspective of type , token , word length , lexical density and high frequency words. The research findings indicate that there are differences in the vocabulary features between the two texts. And the study analyzes these differences in detail and provides suggestions for future translations of government work reports.
Key words: C orpus; Government work report; Lexical features; C omparative study
一、引言
《政府工作报告》纵向来说,包含政府对过去一 年工作情况的回顾和总结,当年着手努力的工作任 务以及对来年工作的部署和展望;横向来说,包含 经济、社会事业、劳动等领域的工作举措、成绩及计 划,熔铸了国家意志和人民的意愿,是让人民了解 政府的工作情况和决策过程,增强政府透明度的一 扇重要窗口 。章颖(2017) [1] 基于美国 2016 年国情 咨文为参照语料库,从标准类符、形符比、词汇密 度、各类实词、关键词方面来分析 2016 年政府工作 报告的英 译 本 词 汇 特 征 。牟 微 微 ( 2019 ) [2] 基 于 2018 年政府工作报告原文及其英译本为模板建立 平行语料库,从类符、形符、词长、词汇密度、词汇频 率方面来研究 2018 年政府工作报告英译本的词汇 特征 。文章以 2019 年政府工作报告英汉平行语料库为基础,探讨汉语版本和英文版本的词汇特征。 牟微微( 2019 ) [2] 用软件 Wordsmith 和 Tree Tagger 对数据进行提取和赋码,而文章用自编的 FoxP ro 程 序建立英汉平行语料库,以分析类符、形符、词长, 并用 Claws 7 在线版为英文版本赋码 。文章从类符 形符比、平均词长、词汇密度、高频词层面对政府工 作报告词汇特征开展系统研究,以期为日后的政治 文献翻译提供一定的参考,以便更好地促进对外宣 传工作,增进国家间的交流。
二、研究对象与方法
研究主要采用定性和定量方法,对 2019 年政 府工作报告原版及英译本进行研究 。本研究使用 的语料库为自建英汉平行语料库,规模约为 35035 字词,其中中文约 18266 字,英文约 16769 字,收录 了 2019 年的政府工作报告原文及译文,中文文本和英文译文均来自中国人民政府网的正式文本。
首先,在中国政府官网下载政府工作报告中文 版,同时在英文状态下下载英文译本,由 word 转存 为.txt 文本 。用 Microsoft Visual FoxP ro 9. 0 的自设 程序对中英版本的报告分别进行处理,如去除不需 要的空格、多余空行等 。以中文版报告段落为标准 来修改英文版报告段落格式,使得中英版本段落相 照应,用 Microsoft Visual FoxP ro 9. 0 的自设段落对 齐程序工具生成平行语料库。
其次,使用网络版线上 CLAWS7 Tagset( http: ∥ucrel-api.lancaster. ac. uk/claws/free. html) 对报告英译本进行词性标注,使用软件 Word Parser 对报告中 文版进行词性赋码。
最后,利 用 Antconc , Excel 和 Microsoft Visual FoxP ro 9.0 对语料库进行数据提取与分析,如类符、 形符、词长、词汇密度、词频来探讨报告汉英版本的 语言特征。
三、词汇特征
(一)类符形符比
类符形符比( Type/Token Ratio , 简称 TTR) 是指 在特定文本中类符( type ) 和形符( token ) 的比率。 其中,形符数是指文本中一共有多少个词,而类符 数是指文本中不重复计算的形符数 。换言之,一个 文本中重复出现的形符只能算作一个类符 。类符 数和形符数的比率在一定程度上可以反映文本的 某种本质特征,即用词的变化性[3] , 该比率越高,则 词汇变化程度越高 。使用 Microsoft Visual FoxP ro9. 0 的自设程序对报告进行相关数据提取,结果如表 1 所示。
由表 1 数据可知,2019 政府工作报告英文版类 符数为 2743 , 形符数为 16769 , 类符、形符比为 16; 中文版类符数为 1303 , 形符数为 18266 , 类符、形符 比为 7.就类符而言,英文版数目高于中文版;就形 符而言,中文版高于英文版,这一发现不同于牟微 微(2019) [2] 的研究结果;就类符、形符比而言,英文 版高于中文版,总体表明英文版词汇丰富度高于中 文版。
(二)词长分布
平均词长是指语料库中单词所包含字母的平 均数,一般来说,词长越长,文本越深奥复杂,反之, 文本越浅显易懂[4] 。使用 Microsoft Visual FoxP ro9.0 的自设程序对报告进行相关数据提取,结果如 下所示。
由表 2 数据可知,2019 政府工作报告英文版词 长为 1 时频次为 225 , 词长为 5 时频次为 1446 , 2019 政府工作报告中文版的词长范围为 1 至 5 , 词长为 1 时频次为 18181 , 词长为 5 时频次为 2 , 整体而言,词 长越长频次越低 。2019 政府工作报告英文版平均 词长为 7.4 ,2019 政府工作报告中文版平均词长为 1 . 1 , 英文版本平均词长大于中文版本平均词长,这 与牟微微(2019) [2] 的研究一致,说明英文版本复杂 度大于中文版本,相比之下,中文版本浅显易懂。
(三)词汇密度
词汇密度( Lexical Density , 简称 LD) 是衡量单 位篇章信息含量的尺度,词汇密度的大小决定着语 篇的难易程度 。Stubbs(1986) 指出,在语料库中,可 以通过计算所有实义词与总词数之比来计算词汇 密度[5] 。由于实义词具有实际意义,通常携带大量 信息,因此这种测量方法也常被用来衡量文本信息 密度 。学者普遍认为,英语中的实义词分为四个词 类,即名词、动词、形容词和副词,而在汉语中,实义 词则包括名词、动词、形容词和数量词[6] 。在本研 究中,由于要比较英文版和其对应中文版,统一将 实义词范围设定为名词、动词、形容词和副词。
使用 Claws 7 在线标注对英文版本进行赋码, 用软件 Antconc 对英文版本做词汇密度统计,首先 统计标记文本实义词数,再统计标记文本总词数; 使用 Word Parser 中文标注软件对中文版本进行赋 码,用软件 Antconc 对中文版本做词汇密度统计,再 统计标记文本总词数,由此得出如下数据。
由表 3 数据可知,英文版本实词词数为 10232 , 总 词 数 为 16769 , 得 出 词 汇 密 度 百 分 比 为 (61 .02% ) ; 中文版本实词词数为 8650 , 总词数为 18266 , 得出词汇密度百分比为( 47. 36% ) 。英文版 本的词汇密度大于中文版本,印证了英文版实义词 使用比例高[2] 。英文版名词数最高,动词次之,形 容词及副词比例相对较低,中文版动词词数最高, 名词次之,形容词及副词比例相对较低,与报告原 文相比,英译本的名词化现象较为明显[2] 。词汇密 度在口语中 一般低于 40% , 在书面文本中则高于 40% , 此处词汇密度的计算结果证实报告英文版本 是精心写就的书面文本[1] 。
( 四)词汇频率
为了判断一个单词的重要性,Nation ( 2001) [7] 提出了计算单词频率的方法 。也就是说,要找出其 在一种语言中出现的频率 。例如,一个单词频繁地 出现,以至于其占了文本的 8% 左右 。这样的单词 对语言学习者来说是很重要的,因为掌握了这些单 词就 能 听 懂 很 大 一 部 分 的 内 容 。使 用 Microsoft Visual FoxP ro 9.0 的自设程序对报告英文版与中文 版分别进行相关数据提取,表 4 显示中英文版本中 词频最高的前十个词。
由表 4 数据可知,连接词 and 使用频率最高,总 共出现 1153 次,实词频率最高的是 development , 这 与牟微微( 2019) [2] 发现 一 致 。除此之外,还有冠 词、介词、人称代词,其中前 9 个词都是虚词,说明 虚词使用比较频繁;中文的字出现频率最高,共出 现 216 次,其次是和字,出现 202 次,化字出现频率 最低,出现 148 次。
四、结语
文章将 2019 年政府工作报告原文与英译本建 立平行语料库,运用相关软件对报告原文及英译本 进行分析 。研究结果发现,英文版类符数目高于中 文版,英文版类符形符比高于中文版,说明英文版 丰富度高于中文版 。此外,英文版本的平均词长较 中文版本高,这表明英文版内容的复杂度高,中文 版本浅显易懂 。从词汇密度方面来看,英文版的词 汇密度也较报告原文高,这表明实义词占多数,所 传递的信息量大,英文版名词数高,动词次之,形容 词及副词比例相对较低,中文版动词词数最高,名 词次之,形容词及副词比例相对较低,与报告原文 相比,英译本的名词化现象较为明显,这也体现了 政治类文本语言表达较为客观的特点,文体方面更 加正式 。从词汇频率方面来看,英文版虚词使用比 较频繁 。通过对 2019 年政府工作报告原文及其英 文版的词汇特征进行研究,发现中英两种版本在词 汇特征方面存在差异,为了向世界宣传真实的中 国,准确有效地传递中国信息,译者需要更多考虑 目的语群体的阅读习惯,充分考虑其语言使用特 征,如避免用词过于正式或过于复杂而减弱文本的 可读性以及合理使用实词和虚词等,从而真正达到 有效传播与交流的目的。
参考文献:
[1] 章颖.基于语料库的 2016 年政府工作报告英译 本 词 汇 研 究 [ J ] . 语 言 应 用 研 究,2017 ( 3 ) :151 - 153.
[2] 牟微微.基于语料库 2018 年政府工作报告的英译 本 词 汇 研 究 [ J ] . 海 外 英 语,2019 ( 5 ) : 99
[3] 杨惠中.语料库语言学导论[ M] .上海:上海 外语教育出版社,2002.
[4] 张绵.基于语料库的词汇特征分析—以艾玛为例[ J] . 文学研究,2013(4) : 37-38.
[5] Stubbs M. Lexical density: A technique and some findings. In M. C oulthard ( ed ) . Talking about Text , Discourse Analysis , Monograph No. 13 , E nglish Language Research [ M ] . Birmingham: University of Birmingham , 1986 :27-48.
[6] 胡显耀.现代汉语语科库翻译研究[ M] . 北 京:北京外文出版社,2008.
[ 7 ] Nation L S P. Learning Vocabulary in Another Language [ M ] . C ambridge: UniversityP ress 2001 .
