基于语料库的雅思与四六级阅读词汇对比分析论文

2022-11-20 16:43:15 来源: 作者:shaozhun
摘要:摘要:雅思阅读文章中的大量生僻词汇让考生望而生畏,而教师凭借肉眼观察及个人经验总结的雅思阅读词汇特点难免不够客观或准确。本研究通过自建雅思、大学英语四级、六级阅读文章三个小型语料库,运用语料库统计方法对比分析雅思与四六级阅读文章的词汇特点,得出结论:雅思阅读文章的词汇丰富度高,词汇复杂度最高,平均词长和平均句长最长。根据研究发现及教师教学经验为雅思阅读教学提出建议,以期助力学生提升雅思成绩,实现留学梦想。
摘要:雅思阅读文章中的大量生僻词汇让考生望而生畏,而教师凭借肉眼观察及个人经验总结的雅思阅读词汇特点难免不够客观或准确。本研究通过自建雅思、大学英语四级、六级阅读文章三个小型语料库,运用语料库统计方法对比分析雅思与四六级阅读文章的词汇特点,得出结论:雅思阅读文章的词汇丰富度高,词汇复杂度最高,平均词长和平均句长最长。根据研究发现及教师教学经验为雅思阅读教学提出建议,以期助力学生提升雅思成绩,实现留学梦想。
关键词:语料库;雅思阅读;大学英语四六级阅读;词汇
Abstract:The massive esoteric vocabulary in IELTS reading texts terrifies students.Teachers are trying to sum-marize the features of IELTS reading vocabulary by their observation and experience,which may not be objective or accurate enough.This study built three miniature corpora of IELTS,CET-4 and CET-6 reading texts and utilized corpus statistical methods to analyze and contrast the features of their vocabulary.The conclusion is that IELTS read-ing texts are high in lexical richness and sophistication as well as mean word length and sentence length.Afterwards,this study tried to put forward relative suggestions to IELTS reading teaching,hoping to improve students’perform-ance in IELTS reading test and realize their dream of studying abroad.
Key words:corpus;IELTS reading;CET-4&CET-6 reading;vocabulary
一、引言
雅思考试(International English Language TestSystem,IELTS),即国际英语语言测试系统,是中国学生走进世界名校的必备考试,全面考查学生的英语听、说、读、写能力。其中,阅读是学生望而生畏的科目,尤其是在雅思阅读中有大量的生僻词。词汇是阅读的基石,考生经常反映雅思阅读文章词汇量大且难度高,但究竟雅思阅读词汇的丰富度如何?雅思阅读词汇比大学英语四六级阅读词汇的复杂度高多少?这些问题通过教师的肉眼观察和经验分析很难得到准确答案。随着计算机技术的发展,语料库技术被越来越多地运用在教学和研究中。语料库是按照一定的采样标准采集而来的、能代表一种语言或者某语言的一种变体或文类的电子文本集(梁茂成,2010)[1]。由于语料库基于大量的真实语言,正日益成为语言研究和外语教学的重要方法,近年来国内外基于语料库的研究方兴未艾。近年来国内基于语料库的研究主要集中以下三个方面:
第一,基于语料库的教材研究,如张军,刘艳红(2022)[2]基于语料库研究《大学思辨英语教程》的文化内容特征,分析了其文化配置及语篇选择。
第二,基于语料库的学术英语研究,如陆小飞,刘颖颖(2019)[3]基于语料库研究学术英语程式语及其在教学中的应用。第三,针对学习者语料库的研究,如梁茂成,邓海龙(2020)[4]设计和构建了适用于建设大规模英语学习者语料库的自动拼写检查系统。目前基于语料库的研究主要集中于教材研究、学术英语研究及学习者语料库研究。本研究通过自建小型语料库,运用语料库统计方法对比分析雅思、大学英语四级及六级阅读文章的词汇特点,试图得出雅思阅读文章在词汇丰富度、词汇复杂度、平均词长和平均句长等方面的特点,并根据分析对比结果为雅思阅读教学提供建议,以期助力学生提升雅思成绩。
二、自建阅读文章语料库
剑桥雅思是由剑桥大学考试委员会从之前的雅思考试真题中抽取出来的一些真题集,是最权威的雅思考试备考书籍[5]。由于《剑桥雅思真题1~3》出版时间早,且考试题型已经发生较大改革,故本研究采用《剑桥雅思真题4~16》中的阅读文章。将雅思阅读文章电子版转换为TXT文本文件,并将转换过程中出现的乱码及识别不准确的地方进行人工校对,以保证文章的准确性。之后,对所有的文件进行整理,建成雅思阅读文章小型语料库,库容156篇。
大学英语四六级考试于2016年改革,故本研究收集了大学英语四级2017至2020年阅读真题和大学英语六级2016至2020年阅读真题,用同样的方式分别建成大学英语四级阅读文章语料库和大学英语六级阅读文章语料库,库容分别为96篇和120篇。
三、利用语料库统计方法分析对比三个语料库的词汇特点
(一)雅思、四六级阅读的词汇丰富度分析及对比
衡量文本的词汇丰富度的常用方法是类符/形符比,又称形次比(梁茂成,李文中,许家金,2010)。形符(token)即我们日常所说的“词”,类符(type)作为一个统计量,是指语料库中任何一个独特的词形,即在一个文本中重复出现的形符只能记作一个类符。由于英语中有大量的功能词,故文本越长,功能词重复的次数也越多,类符/形符比就会越低,若单纯以类符/形符比来测量不同长度文本的词汇丰富度难免不够准确。故本研究采用标准化类符/形符比(每千词的类符/形符比的均值),利用软件WordSmith来测量雅思及四级、六级阅读文章的词汇丰富度在表1中,Tokens used for word list是形符,即三个语料库以词为单位的库容,可见雅思阅读文章语料库的库容为136,487词;四级阅读文章语料库的库容为52,162词;六级阅读文章语料库的库容为77,219词。Types是类符;type/token ratio(TTR)是类符/形符比;Standardised TTR(STTR)是标准化类符/形符比,即标准化形次比。可见,六级阅读的标准化形次比最高,为47.66%;雅思阅读的标准化形次比稍次之,为47.04%;四级阅读的标准化形次比最低,为46.07%。标准化形次比也说明了三个语料库的词汇丰富度,可见六级阅读与雅思阅读的词汇丰富度不相上下,四级阅读的词汇丰富度稍次之。
(二)雅思、四六级阅读的词汇复杂度分析及对比
词汇复杂度,也称为词汇罕见度,指的是文本中相对不寻常或高级词汇的比例(Read 2000)。为了比较雅思阅读与四六级阅读的词汇复杂度,本研究以目前较常用的分级词表GSL通用英语词表[6](West,M.P.1953)和AWL学术英语词表[7](Cox-head Averil 2000)为判定词语难度的基础词表,也称底表。GSL通用英语词表是英语中最常用的2000词族的词表,它又分为两个词表:英语中最常用的前1000词,被认为是难度最低的1000词,即底表1;其次最常用的1000词,即底表2。AWL学术英语词表为底表3。通过对比雅思和四六级阅读文章的词汇在三个底表中的比例以及超出底表的高级词汇的比例,可以直观地对比出它们的词汇复杂度。由表2可以看出,在LEVEL 1一级词表中,雅思阅读语料库的类符比例(TYPE%)和词族比例
(GROUP%)分别为21.81%和10.31%;四级阅读语料库为31.47%和19.18%;六级阅读语料库为26.15%和14.32%。一级词表是GSL通用英语词表的前1000词,即生活中最常用的1000词,可以认为是简单词汇。可见,四级阅读包含的常用词汇最多,其次是六级阅读,雅思阅读包含的常用词汇最少。
在LEVEL 2二级词表中,四级阅读的类符比例和词族比例依然最大,分别为15.04%和12.44%;雅思阅读的类符比例次之,为12.9%,而其词族比例为三者中最低8.4%;六级阅读的类符比例稍小于雅思阅读语料库,为12.7%,而词族比例为9.55%。二级词表是GSL通用英语词表的后1000词,即生活中次常用的1000词。结果依然显示:四级阅读包含的次常用词汇最多,而六级和雅思阅读文章包含的次常用词汇差别不大,其中六级阅读使用的次常用词族更多一些。
在LEVEL 3三级词表中,四级阅读语料库的类符比例和词族比例也最大,分别为13.65%和9.57%;六级阅读语料库次之,为13.42%和7.66%;雅思阅读语料库的类符比例和词族比例最低,为12.21%和5.73%。可见,四级阅读包含的学术英语常用词汇最多,其次是六级阅读,雅思阅读包含的学术英语常用词汇最少。
最后,在LEVEL 0四级词表(超出三级词表的超纲词汇)中,雅思阅读语料库的类符比例和词族比例占比最大,分别为53.08%和75.56%;其次是六级阅读文章语料库,为47.72%和68.47%;占比最小的是四级阅读语料库,类符比例和词族比例为39.85%和58.81%。可见,雅思阅读的超纲词汇最多,六级阅读次之,四级阅读的超纲词汇最少。综合以上表格的数据不难看出,整体上雅思阅读的词汇复杂度最高,六级阅读次之,四级阅读的词汇复杂度最低。
(三)雅思、四六级阅读的平均词长和平均句长分析及对比
将雅思及四级、六级阅读文章三个语料库导入WordSmith软件,得出三个语料库的平均词长、平均句长等信息,所得数据见表3。在表3中,mean word length是三个语料库的平均词长,可见雅思阅读词汇的平均词长最长,为4.97个字母,其次是六级阅读的平均词长为4.82个字母,四级阅读的平均词长最短,是4.6个字母。表3中的sentences是三个语料库的句子数量,mean(in words)是三个语料库的平均句长。平均句长是一个语篇中句子的平均长度,以词数为统计单位。结果依然显示,雅思阅读文章的平均句长最长,为22.25个单词,其次是六级阅读文章,为17.89个单词,四级阅读文章的平均句长最短,为17.6个单词。
此表可以看出,雅思阅读文章的平均词长和平均句长均为最长,其次为六级阅读文章,四级阅读文章的平均词长和平均句长最短。平均词长也在一定程度上反映了词汇的难度,平均句长反映出句子的复杂程度。同时也可以推断出雅思阅读的词汇难度更高,句子的复杂程度更大,长难句更多。
四、教学建议
(一)注重储备雅思词汇,培养推断词义的能力
根据AntWordProfiler对三个语料库的词汇复杂度的分析对比结果:雅思阅读的词汇复杂度最高。可见雅思阅读考试所需的词汇量大于大学英语六级阅读。词汇是阅读的基础,因此在雅思阅读教学中,教师应注重帮助学生扩大单词量,储备雅思词汇。
当然,雅思阅读中的一些生僻词可以通过文章上下文推断词义或找出答案,不需要学生专门背诵和记忆,因此教师在雅思教学中还要注重培养学生根据上下文推断词义的能力,加强词义推测的练习。
(二)重视同义替换,培养句子转述能力
通过WordSmith对三个语料库的标准化形次比分析得出:六级阅读与雅思阅读的词汇丰富度不相上下,四级阅读的词汇丰富度稍次之。可见雅思阅读词汇的多样性高、重复率低,在考查学生阅读理解能力的基础上,还加入了对阅读内容概括和转述能力的考查,学生在解答雅思阅读题目时需要充分理解文章内容,并储备大量的同近义词,才能轻松得出正确答案。这就要求教师在雅思阅读教学中,帮助学生积累同近义词,理解句子意思,并加强句子转述和改写的练习,以帮助学生在雅思考试中快速识别题目中的同近义词转换,提高做题效率和正确率。
(三)重视语法分析,锻炼阅读技巧
根据WordSmith软件对三个语料库的平均句长分析:雅思阅读文章的平均句长最长。这与教师平时教学的发现是一致的,在雅思阅读文章中的长难句不胜枚举。这对学生的阅读和理解造成了较大影响,也是学生对雅思阅读考试望而生畏的原因之一,尤其是在短时间内既要完成阅读任务,又要准确解题,给学生带来了很大压力。故教师在雅思阅读教学中要注重语法分析,帮助学生正确分析句子结构和成分,关注句子的重要成分和主要内容,略读或跳读次要成分或内容,熟练运用阅读技巧,以高效、准确解答试题。
五、结语
教师凭借个人经验和肉眼观察总结雅思阅读词汇的特点难免不够客观或准确,通过客观科学的语料库分析方法分析总结雅思阅读词汇的特点,并与大学英语四六级阅读词汇进行直观比较,再结合教师多年的雅思教学经验,可以科学准确地为雅思阅读教学提供有针对性的教学建议,进而帮助学生提高雅思成绩,实现留学梦想。
参考文献:
[1]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
[2]张军,刘艳红.教材语篇的文化内涵———一项基于语料库的《大学思辨英语教程》研究[J].中国外语,2022,19(1).
[3]陆小飞,刘颖颖.基于语料库的学术英语程式语研究与教学应用[J].外语界,2019(5).
[4]梁茂成,邓海龙.面向大规模英语学习者语料库建设的自动拼写检查研究[J].外语电化教学,2020(1).
[5]何享,陈心怡.雅思考试对大学英语教学的反拨作用研究[J].湘南学院学报,2020,41(1).
[6]West.M.P.A general service list of English words:with semantic frequencies and a supplementaryword-list foe the writing of popular science and tech-nology[M].Longmans,Green,1953.
[7]Coxhead,Averil.A New Academic Word List[J].TESOL Quarterly,2000,34(2).
