基于R语言对演讲文本的语言特征多维度分析论文

2024-01-16 15:23:03 来源: 作者:hemenglin
摘要:文章运用 R 4.2. 1 对两篇演讲文本进行语言特征的分析和对比,包括词汇特点、主题词和 N 元组, 研究发现两篇演讲文本的语言特征存在共同点和差异
摘 要:文章运用 R 4.2. 1 对两篇演讲文本进行语言特征的分析和对比,包括词汇特点、主题词和 N 元组, 研究发现两篇演讲文本的语言特征存在共同点和差异 。首先,两篇文本的词汇特点差异不大:文本 1 的词汇 密度和文本可读性略高于文本 2 , 说明文本 1 的实词比例更高、更容易为听众所理解;文本 2 的词汇复杂性略 高于文本 1 , 说明文本 2 低频词比例更高;两篇文本的词汇多样性几乎一致 。其次,两篇文本均使用了较多的 虚词( the/and/or) 、第一人称代词( we/our) 和情态动词( will) , 容易理解,能使听众产生认同感 。但两篇演讲文 本的关键词、N 元组以及在人称代词和情态动词的选择上存在差异,文本 2 增加了第一人称代词“us”、情态动 词“can”和“must”的使用 。研究结果体现了演讲文本具有的可讲性和鼓动性,也体现了 R 软件在语言特征分 析领域的可行性。
关键词:R语言,词汇特点,主题词,N元组
Abstract: This paper uses R 4.2. 1 to analyze and compare the language features of the two speech texts , inclu ⁃ding vocabulary features , subject words and n-tuples. The study finds that the language features of the two speech texts have similarities and differences. First of all there is little difference in the lexical characteristics between the two texts: the lexical density and readability of text 1 are slightly higher than that of text 2 , indicating that text 1 has a higher proportion of notional words and is easier to understand by the audience; The lexical sophistication of text 2 is slightly higher than that of text 1 , indicating that the proportion of low-frequency words in text 2 is higher; The lexical diversity of the two texts is almost the same. Secondly , both texts use many function words ( the/and/or) , first person pronouns ( we/our) and modal verb s ( will) , which are easy to understand and can make the audience have a sense of identity. However, there are differences in the choice of key words , n-tuples and personal pronouns and mo⁃ dal verbs between the two speech texts. Text 2 adds the use of first person pronouns“ us ”and modal verb s“ can ”and“ must”. The research results show the characteristic of speech text , which is readable and inspiring , and also reflects the feasibility of R software in the field of language feature analysis.
Key words: R language; vocabulary characteristics; subject words; n-tuples
一、理论背景和研究工具
(一)理论背景
定量研究方法在我国外语教学与研究领域的应用十分广泛,受到国内外应用语言学界的普遍关 注和重视 。所谓定量研究是指搜集用数量表示的 资料或信息对数据进行量化处理、检验和分析,从而获得有意义的结论的研究过程,这是一种确定事 物某方面量的规定性的科学研究 。在外语教学定 量研究中应引 入 稳 健 性 设 计 方 法 和 利 用 统 计 方法 [1] 。在文本的语言特征分析中可以加入定量研究手 段,借 助 统 计 分 析 软 件,如 Coh - M etrix[2] 、SPSS、R 软件等,以加快分析速度。
(二)研究工具
奥克兰大学统计学系的罗斯 · 伊哈卡 ( Ross Ihaka) 和罗伯特 ·杰特曼( Robert Gentleman ) 受贝 尔实验室 S 语言的启发,于 1991 年开发了 R 语言。 经过三十多年的发展,R 语言现已发展成为一个集 统计计算、制图和自然语言处理等为一体的编程语 言 。它既能运行现有的 R 程序,又能对现有程序进 行改进,以满足研究者的特殊需要 。R 软件有强大 的社团提供技术支持和疑难解答,成员包括统计学 家、程序员和用户等 。文章采用 R 4. 2. 1 对两篇演讲文本进行语言特征分析,包括词汇特点、主题词和 N 元组 。这两篇演讲文本均来自 R 软件下数据包 quanteda 中的语料库 data_corpus_inaugural , 记为文本 1 和文本 2.
二、词汇特点分析
利用 R 软件对两篇文本进行描述性统计,得到 统计结果如下:文本 1 使用形符 1467 个,类符 539 个,句子数为 105 个,平均句长为 13.97 , 平均词长为 4.55;文本 2 使用形符 2389 个,类符 739 个,句子数 为 225 个,平均句长为 10.62 , 平均词长为 4.23 。可 以发现两篇文本篇幅差异很大,文本 2 篇幅远远超 过文本 1 的篇幅,但文本 2 的平均句长和平均词长 略低于文本 1.
词汇密度( lexical density) 是通过一篇文本中的 实词数与文本中出现的总词数的比率来计算[3] 。 通过 R 软件对两篇文本的词汇密度进行计算,得出 结果如下( 保留两位小数):文本 1 的词汇密度为 0.50 , 文本 2 的词汇密度为 0.47.两者差异不大,文 本 1 所用实词比例更高。
词汇复杂性( lexical sophistication ) 也是评估词 汇丰富性的四个指标之一,是指在文本中能够适当 使用与主题、文体相关的低频词,而不只是使用常用的高频词 。本研究所用低频词为 Paul Nation 开 发的 2000 常用词表,文本中的低频词即剔除常用 词后的词,低频词与总词数之比即文本的词汇复杂 性 。通过 R 软件进行计算,得到结果如下( 保留两 位小数):文本 1 的词汇复杂性为 20.71 , 文本 2 的 词汇复杂性为 24.56.两者差异不大,文本 2 所用词 汇较为复杂,低频词使用较多。
词汇多样性( lexical diversity) 可以评估发言者的词汇知识及他们语言输出中的词汇变化特点。类符形符比( type-token ratio , TTR) 是传统上测量词汇多样性所使用的最普遍的方法,即用一篇文本中 使用的不同词项( 类符)的总数除以文本中所有词 项(形符)的总数 。然而,这种方法已被证明受文本大小的影响 。文本越长,TTR 的值就越低[4] 。本研究中采用移动平均类符-形符比 ( moving - average type-token ratio , MATTR) , 即按照固定的窗口( 即词符数)从文本开头计算 TTR , 然后在文本中依次移 动窗口计算 TTR , 直至在包括文本最后 1 个词符的窗口中计算 TTR , 最后计算这些窗口 TTR 的平均值 [5] 。移动平均类符-形符比不会因为文本长度不足舍弃文本末尾的词符 。通过 R 软件计算两文本 的 MATTR 发现,文本 1 的 MATTR 为 0. 68 , 文本 2 的 MATTR 为 0.67 , 几乎没有差异。
文章对两个演说的词汇特点进行了分析,可以 发现两篇文本的词汇密度、词汇多样性以及词汇复 杂性的差异不大,为了进一步探究两篇演说文本的 难易度差异,利用 R 软件对它们的文本可读性进行 分析,得到以下结果:文本 1 的可读性适用于美国 七年级学生( 大约 12 岁),而文本 2 的可读性适用 于美国五年级学生( 大约 10 岁),两篇文本的可读 性都比较高,容易被听众所理解,体现了演讲文本 的可讲性。
三、主题词分析
为了更好地对比两篇文本的语言特征差异,文 章对两篇文本的高频词和关键词进行分析。
(一)高频词
图 1 为两篇文本中频数为 20 及以上的词频分布条形图(左:文本 1;右:文本 2) 。
由图 1 可以得出,文本 1 中频数为 20 及以上的 高频词有 8 个,频数最高的前三个词为 and( 出现 77 次)、the(出现 71 次)、of( 出现 48 次)。文本 2 中频 数为 20 及以上的高频词有 13 个,频数最高的三个词 为 the(出现 95 次)、and( 出现 76 次)和 of( 出现 71 次)。两文本排列前三的高频词相同,均为虚词,同 上文词汇密度的结果对应,可以发现两篇文本的虚词 使用较多。同时,两篇文本的高频词中均出现了 we、 our 两个第一人称代词和 will 情态动词。两位演说者 通过三个词的使用,以此来表达自己强烈的意愿,使 听众信服他们的观点,体现了演说文本的鼓动性。
图 2 为两文本去除停用词后的、频数为前 100 的词云图(左:文本 1;右:文本 2)。从图 2 可以看出,词云图以字体大小显示词频 高低,词频越高,字体就越大 。文本 1 中最醒目的 词是“american”(在形符化时所有的文本词语均改 为小写字母),“ american ”一词在文中出现 11 次。 其他频 数 较 高 的 单 词 是“ people ”( 出 现 10 次)、 “ country ”( 出 现 9 次 )、“ nation ”( 出 现 6 次 )、 “ world”( 出现 6 次)、“dreams”( 出现 5 次)。文本 2 中最醒目的词是“american”,“american”一词在文 中出现 9 次 。其他频数较高的单词是“story”( 出现8 次)、“ americans ”( 出现 7 次)、“ nation ”( 出现 7 次)、“ days ”( 出 现 6 次 )、“ war ”( 出 现 6 次 )、 “ unity”( 出现 5 次)、“power”( 出现 5 次)。可以发 现两篇文本的高频词有相似点,也有差异。
(二)关键词对比
关键词(Key words)指某些词在一个语料库中出 现的频次明显高于在另一个语料库中出现的频次,能 够体现文本的主题。图 3 为两篇文本的关键词对照。
图 3 显 示,文 本 1 中“ back ”“ protected ”和 “ dreams”是最突出使用的 3 个词 。而文本 2 中的 “ us”“can”和“democracy”是最突出使用的 3 个词。 基于上文的研究结果,两篇文本均使用了较多的第 一人称代词( we/our)和情态动词( will),文本 2 增 加了单词“us”和“can”的使用 。两篇文本使用不同的关键词体现两位演说者观点的差异。
四、N 元组
N 元组是文本中连续出现的长度为 n 的形符 串,其中 n 是不小于 1 的整数 。长度 n 为 1 的元组称作单元组( unigrams) , 长度 n 为 2 的元组称作二元组( bigrams) , 长度 n 为 3 的元组称作三元组( tri ⁃grams) , 以此类推 。图 4 为两篇文本中频次为 5 及 以上的二元组(左:文本 1;右:文本 2) 。
图 4 显示,文本 1 中二元组“we will”出现了 24 次 。文本 1 大量使用第一人称代词“we ”和情态动 词“will”与对上文的研究结果一致 。而文本 2 中除 了上文强调的“we can”句式,二元组“we must”也出 现了 7 次,体现了两位演说者在演说中情态动词的 选择差异 。总结上文,可以发现两篇文本中均大量 使用了“we will ”句式,文本 2 中增加使用了“we can”和“we must”句式,体现了演讲稿的鼓动性。
五、结语
文章运用自然语言分析软件 R 4.2. 1 进行文本 分析,通过分析两个演讲文本的词汇特点、主题词 和 N 元组,从而对两个演讲文本的语言特征进行分 析 。研究发现两个演讲文本的语言特征共同点和 差异共存 。首先,文本 1 的实词比例更高、更容易 为听众所理解,因为文本 1 的词汇密度和文本可读 性略高于文本 2;而文本 2 中低频词比例更高,说明 文本 2 的词汇复杂性略高于文本 1;两篇文本的词 汇多样性几乎一致 。其次,两篇文本均使用了较多 的虚词,包括 the、and、or, 也运用了较多的第一人称 代词和情态动词,包括 we、our、will。上述单词的使 用,使得两个文本较容易理解,能使听众产生认同 感 。但两个演讲文本在关键词、N 元组以及在人称 代词和情态动词的选择上存在差异 。文本 2 运用 了较多的第 一 人称代词“ us ”、情态动词“ can ”和高频二元组“ must”。上述结果体现了演讲文本具有的鼓动性, 也体现了 R 软件在文本分析领域的可行性。
参考文献:
[1] 付玲毓.外语教学的定量方法与数据运用 探究—评《 外 语 教 学 定 量 究 方 法 及 数 据 分 析》[ J] . 外语电化教学,2020(1) : 118.
[2] 李雪莲.英语专业学习者书面语文本特征多维度研究—以自然语言处理软件 Coh - M etrix为研究工具[ J] . 南京工程学院学报(社会科学版),2014(1) :41 -46.
[3] Ure J. Lexical density and register differentia⁃ tion[ A] . In P erren , G. & J. Trim( eds. ) Applications of Linguistics: Selected Papers of the Second World C ongress of Applied Linguistics [ C ] . C ambridge: C ambridge University Press , 1971 .
[4] Malvern D , Richards B. A new measure of lexical diversity[ A] . In Ryan , A. & A. Wray ( eds. ) . Evolving Models of Language [ C] . Clevedon: Multilin⁃ gual Matters , 1997.
[ 5] Covington M A , McFall J D. C utting the Gor⁃dian knot: The moving - average type - token ratio( MATTR ) [ J ] . Journal of Quantitative Linguistics ,2010(17) :94- 100.
