近二十年国内医药英语相关语料库建设回顾与展望论文

2024-01-10 09:23:30 来源: 作者:liyuan
摘要:新医科建设倡导进行交叉学科研究,医药相关英语语料库建设是医学与语言学融合的重要形式 之一。 然而医药相关的英语语料库建设研究尚且分散在不同学科领域,缺乏针对性的梳理。本文在 CiteSpace 的支持下,采用系统文献综述法对 2002 年至 2022 年的国内医药相关英语语料库建设的文章进行梳理,以期 阐明医药相关英语语料库建设的语料类型、标注方法及发展趋势。通过分析发现 : ①多模态语料成为新的建 设主体,但深度与广度还需进一步拓展 ; ②计算机辅助标注与人工检验结合成为主流,但标注层级需要标准化 可检
摘 要 : 新医科建设倡导进行交叉学科研究,医药相关英语语料库建设是医学与语言学融合的重要形式 之一。 然而医药相关的英语语料库建设研究尚且分散在不同学科领域,缺乏针对性的梳理。本文在 CiteSpace 的支持下,采用系统文献综述法对 2002 年至 2022 年的国内医药相关英语语料库建设的文章进行梳理,以期 阐明医药相关英语语料库建设的语料类型、标注方法及发展趋势。通过分析发现 : ①多模态语料成为新的建 设主体,但深度与广度还需进一步拓展 ; ②计算机辅助标注与人工检验结合成为主流,但标注层级需要标准化 可检验;③侧重应用的“医+文”交叉领域成为新的研究热点,但其研究成果有待公开化。
关键词 : 语料库建设 ; 医药英语 ; 回顾与展望 ; 文献计量学
Abstract : New medical sciences prioritize interdisciplinary research,and the construction of medicine——related corpora is one of the most crucial forms of integration.The research on corpora construction in medicine is still dis- persed across a number of disciplinary areas and does not present a targeted combination.Therefore,this paper,with the support of CiteSpace,adopted a systematic literature review to sort out articles on the construction of medicine- related corpora in China from 2002 to 2022,clarifying corpus material,annotation methods and development trends. The analysis revealed that : ①multi——modal material has become popular among studies,but the depth and breadth need to be further expanded ; ②Computer——aided annotation combined with manual inspection has emerged as the mainstream,but the annotation hierarchy should be standardized and verifiable ; ③The intersection of“medicine + humanism”with an emphasis on application has developed in to a new research hotspot,but its findings have yet to
be made public.
Key words : corpus construction ; medical English ; retrospect and prospect ; bibliometrics
一、引言
近二十年来,语料库相关研究发展迅速,已成 为语言学界重要的科研方向之一。许家金指出当今语言研究中,语料库相关的研究与应用已引起了学界的广泛关注[1] 。 医药相关语料库指以医药相 关话题为主题的语料信息集合,是专门化语料库的 重要分支之一。2022 年,教育部高等教育司继续提出高质量高等教育体系建设,深化“四新”建设,积极探索医文融合的健康学科体系,启动学科交叉的 创新性研究。医药相关语料库建设作为重要一环, 可为医药相关研究的纵深发展提供新的数据发现 点。然而,目前针对医药相关语料库建设的研究分 散在不同领域,采用的语料类型、标注方法,乃至以后的发展趋势也尚不明确。
鉴于此,本文以中国知网、万方、维普的期刊论 文为数据来源,在 CiteSpace 的支持下,采用文献综 述法总结国内 2002 年至 2022 年药相关语料库建设的特点与趋向,并提出些许建议。
二、研究设计
( 一) 研究方法
本文采用系统文献综述与文献计量分析结合 的方法展现近二十年国内医药语料库建设的研究 现状,采用 CiteSpace 计量分析工具整合文献信息, 客观呈现领域内知识结构的发展进程。拟 回答3个问题 :
( 1) 语料采集的类型有何特点?
(2) 语料标注的方法是什么?
(3) 语料建设的发展有何趋势?
( 二) 文献收集
文献筛选自中国知网( CNKI) 、万方数据(Wan- Fang) 、维普数据库(VIP) 。 由于医药相关语料库建 设相关信息可能存在于以语料库为研究方法的文 献中,因此以“语料”和“医”相关的表达作为检索 词,具体检索篇名包含“语料”,且篇关摘含有“医” 或“药”“病”“症”“患”“诊”“护理”的学术期刊,检 索式为 TI = 语料 AND(TKA%‘医’OR TKA%‘药’ OR TKA%‘症’OR TKA%‘病’OR TKA%‘患’OR TKA%‘护理’OR TKA%‘诊 ’) 。检索时限为 2002- 01——01 至 2022——12——31 。初步检索到 498 条相关期 刊,经过 NoteExpress 软件删除重复文献及不相关题 录 175 篇,剩余 323 篇。
(三) 发现与讨论
本文对 2002——2022 年所发表的 323 篇文献进 行关键词共现分析( 图 1) ,按照话题中心度排名,前 十名关键词分别是 : 医学英语、中医英语、中医药、 翻译、中医、医患会话、教学、英译、会话分析、词汇 教学,表明该领域的研究主题包括医学英语教学、 ( 中) 医药翻译及医患话语分析。对所得文献进行人工梳理,从语料类型、语料标注、发展趋势三个方面进行综述。
1.语料类型 : 从单模转向多模态语料
医药语料库材语料选择与研究主题息息相关, 医学英语教学与( 中) 医药翻译相关主题往往采用 传统单模文本语料,而医患话语分析主题则多采用 多模态语料。
单模文本语料是指以文本为主要表现形式的 材料。 以医学英语教学为研究主题的语料库建设 以学术期刊为主,如中美医学论文英文标题语料 库[2]、国际医学论文摘要语料库[3] 。 ( 中) 医药翻译 为主题的语料库通常以双语平行语料库的形式出 现,语料选自汉英对照丛书、经典原文及权威译文, 如英语丛书、教科书、工具书[4]、涵盖多种医药学科 的文库[5]、《黄帝内经》等典籍汉英双语书籍[6]。
多模态语料是指以音频、视频等多种信息整合 的材料。 目前,语料库建设逐渐涉及医疗场域下的 语言,包含医患会话、特殊人群话语、电子病历及医 学影像等。医患会话以医生或患者为话语主体,是 医患社会关系的重要参考,语料收集注重客观性和 多元性。学者通常整合不同级别下医院的多个科 室的真实医患即时会话,采用多模态会话标注方 法,如标注音律、体态语等人际交互要素,分析发现 医生会灵活使用人称[7]、调整言语行为[8],以缓解 患者的忧虑。特殊人群话语以特定疾病患者为话 语主体,采用即席自然话语或任务诱导话语,如智 力退化老人言语表现[9]、中国失语患者任务话语表 现等[10] 。此外,电子病例及其医学影像话语,是生 物医学文本挖掘的重要资源,具有多模态实体对应 的特点。一些学者分别就心血管疾病[11]、儿科疾 病[12] 以及甲状腺结节[13] 患者电子病历及相关影像资料,构建相应疾病多模态语料库。
就目前检索到的文献来看,多模态语料库是语料库建设的新起之秀,不仅能够调用视觉、听觉等 感官信息,还能够实现多模态语料与检索及实体对 应,后续可应用于多模态翻译研究、多模态医药教 学等。 因此,医药相关语料库建设应进一步挖掘多模态语料的深度和外延。
2.语料标注 : 从重复人工到智能识别
语料标注是指对语言样本的属性和特征所做 的描述。语料标注方法因语料类型而各异。单模 文本语料标注与双语平行语料库标注方法差异不 大。 目前,软件辅助的文本标注方法成为主流,减 少 了 人 工 标 注 的 成 本。 刘 建 鹏 通 过 UAM CorpusTool 以及 LIWC 软件对阿尔茨海默病患者话 语进行功能词和实体词角度的跨语篇的特征描写。 李文 通 过 EmEditor 软 件去除信息杂质,再 借 助 UAM CorpusTool 中 的 TreeTagger 软件对收集 的 以 XML 为格式的现代医学英语书面语语料进行词性赋码。
多模态语料标注涉及电子病历、医学影像以及 特定疾病患者数据。 电子病历( electric medical re- cord) 是指医疗活动中产生的文字、符号等诊疗记 录。 曲春燕开发实体标注工具,参照 i2b2 2010( In- formatics for Integrating Biology & the Bedside) 评测 数据构建规范进行标注,最终结果由 IAA 评价体系 检验[14] 。昝红英采用最大双向匹配对标注语料进 行预标注,并采用专家多轮标注及协定的方式明确 结果。此外,患者多模态数据标注也是重要内容。 比如,陈珍珍采集命名性失语患者会话内容,通过 CLAN( Computerized Language Analysis) 计算语言分 析软件将会话、动作、表情 等语 料 转 换 为 CHAT ( Codes for the Human Analysis of Transcript) 格式并 进行自动标注,最终结果由 MOR( Morphology) 语法 检验[15]。
当下语料标注技术吸收计算机技术已取得不 小进展,但标注层级构建因研究视角及内容载体不 同而杂乱无序,也无统一的建设与检验标准。 以电 子病历标注为例,虽然脑卒中与甲状腺疾病都能够 通过医学影像体现,但因表征不同以及人们对素材 的理解和分析遵循不同路径,语料标注层级差异较 大。 因此,后续医药相关多模态语料库建设应尝试 建设统一的检验标准,以保障后续语料库信息化数据的延续使用。
3.发展趋势: “医+文”交叉成为主流
突现词是指在一定时间范围内使用频次显著 上升的词,体现该领域在一定时间范围内的研究热 点以及未来研究趋势。 由图 2 可见,2009 年以前, 医药相关语料库建相关突现词为教学、英语、词汇 教学、错误分析,表明早期专注( 中) 医学语言教学, 关注语言表层信息,可称为语言教学研究期。2010 年至 2017 年,突现词有医患会话、指示语、语步、医 学期刊、医学英语、词块、英文摘要、护理英语、医学 论文、搭配、对比研究、英译、翻译、中医英语,表明 该段时间以医学学术文本、医患诊疗会话、中医药 翻译为重点,研究内容得到拓展和丰富,可称为多 体裁文本研究期。2018 年以来,突现词包含精准医 学、中医、深度学习、自闭症、自主学习、中医药、人际意义,表明该时期语料库建设突破学科限制,运 用计算机技术将语料库应用于医学实践等领域,可称为交叉实践研究期。
就当下而言,医药相关语料库建设应用于精准 医学领域,体现在将医药相关文字信息化,关联实 体工具,用于临床诊治工作。医学影像及其电子病 历的识别与标注是重要研究领域。苏嘉提出适应 中文特点的心血管疾病风险因素标注体系,构建了 第一个中文心血管疾病因素的语料库。昝红英融 合国内外医学标准资源,构建了面向儿科疾病的医 学实体及关系语料库与儿科医学问答系统。此外, 计算机辅助新视角给传统医学英语教学研究提供了新思路。 比如蔡莹基于 ELAN 构建小型医护英语教学多模态语料库,对师生话语、行为互动等进 行反思,改变学习者被动聆听的角色。周旭通过循 证医学专业语料库,提升中医药本科生循证医学英文写作能力。
由此可见,医药相关语料库建设逐渐 向“医+ 文”的学科交叉方向发展。但所建设的语料库多局 限于研究者使用,建设成果很少公开。实践于临床 领域的医药相关语料库以临床诊断作为分类依据, 建设主题多样,需要多领域专业人士支持。然而, 建设方法和程序未能公开阐述,给未来语料库升级 带来不少困难。 因此,后续医药相关语料库建设, 尤其是针对“医+文”交叉领域,应相应地公开提供 语料库建设方法细则,持续更新语料库资源,确保数据的适时性。
三、结语
借助 CiteSpace 技术,本文梳理了近 20 年国内 有关医药相关语料库建设,发现 : ①多模态语料成 为新的建设主体,但深度与广度还需进一步拓展。 医药多模态语料引起实体对应特性,逐渐成为多领 域研究的重要载体,后续可对医药图画、医学形象、 临床教学等语料进行分析。②计算机辅助标注与 人工检验结合成为主流,但标注层级需标准化可检 验。医药相关语料库建设在计算机学科的支持下 已取得提高效率和丰富内容的进展,但学者间研究 视角及模态间内容差异导致标注层级纷繁复杂,后 续研究亟须语料库建设专家与医药领域专家联手 建设统一检验标准。③侧重应用的“医+文”交叉领 域成为新的研究热点,但其研究成果有待公开化。 医药相关语料库建设应用于精准医学应用不仅推 动临床诊治工作发展,而且赋予传统研究新的活 力,后续研究者应公开语料库建设细则并持续更 新。面对新医科、新文科建设的诉求,医药相关语 料库建设不仅可以充分发挥语言学相关学科的效用,也能推动临床相关学科及研究发展,值得关注。
参考文献 :
[1]许家金.语料库研究学术源流考[J].外语教 学与研究,2017,49( 1) : 51——63+ 159.
[2]王兰英,王连柱,雍文明,等.基于语料库的中美医学期刊英文标题文本对比研究[J].中国科技 期刊研究,2011,22(5) : 784——787.
[3]吕颖.语料库驱动的中外医学论文摘要程 式语对比研究[J].外语电化教学,2017( 1) : 78——82.
[4]唐国顺.以双语对应语料库快译中医文献 的研究[J].中国科技翻译,2014,27(4) : 24——27.
[5]徐春捷,赵秋荣.中医翻译框架中的英汉平 行语料库的研发[J].外语学刊,2014(4) : 152——154.
[6]刘春梅.自建中医典籍双语平行语料库促 进中医英译[J].中国中医基础医学杂志,2016,22 ( 11) : 1545——1547.
[7]杨石乔.基于语料库的医患第二人称单数 指示语对比研究[J].大理学院学报,2011,10 (9) : 25——29.
[8]郭丽,李成团.基于语料库的医患交际语篇 特征分析[J].外语电化教学,2018(5) : 76——82.
[9]刘红艳.基于语料库的老年性痴呆患者找 词困难研究[J].解放军外国语学院学报,2014,37 ( 1) : 42——52.
[10]邓宝梅,林枫,赖庆玲,等.主概念分析法 用于失语症语料评估 : 基于常人对照的命名性失语 语料研 究[J].中国康复医学杂志,2021,36 ( 4 ) : 418——425.
[11]苏嘉,何彬,吴昊,等.基于中文电子病历 的心血管疾病风险因素标注体系及语料库构建[J]. 自动化学报,2019,45(2) : 420——426.
[12]昝红英,刘涛,牛常勇,等.面向儿科疾病 的命名实体及实体关系标注语料库构建及应用[J]. 中文信息学报,2020,34(5) : 19——26.
[13]林玉萍,龙红,李彪,等.基于医学影像和 病历文本的甲状腺多模态语料库构建与应用[J].西 北大学学报( 自然科学版) ,2021,51(2) : 198——206.
[14]曲春燕,关毅,杨锦锋,等.中文电子病历 命名实体标注语料库构建[J].高技术通讯,2015,25 (2) : 143——150.
[15]陈珍珍,林枫,邓宝梅,等.命名性失语的 汉语普通话语料库构建[J].中 国康 复 医 学杂 志, 2018,33(6) : 669——674.
