基于Python情感分析技术的网络翻译批评研究——以豆瓣读书网冯唐《飞鸟集》中译本短评为例论文

2024-10-18 11:35:55 来源: 作者:dingchenxi
摘要:本文以豆瓣读书网冯唐《飞鸟集》中译本的网络翻译批评为例,运用Python情感分析技术对其进行研究,从而直观呈现读者的整体情感态度。
[摘要]本文以豆瓣读书网冯唐《飞鸟集》中译本的网络翻译批评为例,运用Python情感分析技术对其进行研究,从而直观呈现读者的整体情感态度。本文发现:(1)短评中读者情感态度消极比重较大,与豆瓣星级数据显示的情感态度不完全一致;(2)译本评价角度多元,主要可以分为“译人”“译本”“媒介”三大角度;(3)读者评价多使用一定的修辞手法,存在偏激的情绪化表达。以上发现有助于揭示网络翻译批评中平台管理机制不够完善、草根网民读者评价缺乏客观性的问题,能够在一定程度上促进网络翻译评价的良性健康发展,并为今后的翻译工作提供一些参考。
[关键词]Python;情感分析;网络翻译批评;《飞鸟集》
1背景
以网络为媒介的网络翻译批评是翻译批评研究中一个不可忽视的重要内容,但目前学界对翻译批评的研究主要集中在文学翻译批评上,对于网络翻译批评的研究并不多。在理论性探索方面,许钧等(2006)、蓝红军(2012)等学者呼吁需要“更加重视对于网络翻译批评的研究”。王一多(2016、2021)将网络翻译批评进行“空间分类”和“形态分类”,对具体的网络翻译书评进行分类、特点论述以及评价,跨学科地将传播学与网络翻译研究联系在一起,为后续网络翻译批评研究奠定了深厚基础。
《飞鸟集》是印度诗人泰戈尔的代表作之一,内含325首以自然事物为题材的短诗,其优美简洁的语言、富含哲理的思想吸引了大量读者。“最早出版的郑振铎译本一直被奉为无可超越的经典”,但2015年7月浙江文艺出版社出版了冯唐执笔的《飞鸟集》中译本,在网络上引起轩然大波,并于同年12月28日被召回(刘源琦,2018)。网上评论中呈现两个极端:一部分声称其为“至今为止最好的译本”,而更大一部分指责其“充斥着荷尔蒙味道”,对其进行了唾骂。这一网络翻译批评事件无疑为网络翻译批评研究提供了典型的案例。
目前,国内关于冯唐《飞鸟集》翻译批评的研究主要围绕翻译文本层面,探究译者主体性、翻译标准、翻译伦理等,鲜有学者从网络翻译批评的角度对其展开研究。总体来说,冯唐《飞鸟集》网络翻译批评研究主要存在三个问题:(1)翻译批评主体多而泛,对具体某一批评主体关注不足;(2)研究以质性为主,缺乏量性分析;(3)对读者评价的分析较为概括笼统,不够细致。故本文将研究目标定位为豆瓣读书这一网络平台上冯唐《飞鸟集》中译本的读者评论,聚焦以草根网民读者为主的翻译主体,运用Python情感分析获取和分析相关数据,挖掘豆瓣读书网上草根网民读者的情感态度和评价,以期促进网络翻译评价的良性健康发展,为今后的翻译工作提供一些参考。
2情感分析研究评述
情感分析又可以叫作“意见挖掘”,是一种通过计算机技术和自然语言处理(Natural Language Process)技术对文本的情感倾向进行识别、提取和分析的过程(Tripathy et al.,2015)。唐晓波等(2017)、谭翠萍(2022)的研究成果提高了情感分析的精度,但其提供的方法目前只能实现英文文本的情感分析,对中文文本的情感分析有待进一步探索研究。
情感分析可以应用于多个领域,例如社交媒体监控、品牌声誉管理、客户服务和市场营销;但目前它主要应用于“产品评论、社交媒体和在线博客领域”(Araujo et al.,2022)。故本文根据张璐(2019)的思路,将计算机领域的情感分析应用于网络翻译批评研究中,利用Python工具中的SnowNLP来挖掘冯唐《飞鸟集》网络翻译批评中草根网民读者的情感态度和评价,以期促进网络翻译评价良性健康发展,为今后的翻译工作提供一些参考。
3研究设计
研究设计主要分为数据来源、研究步骤两大板块,其中研究步骤分为数据爬取、数据清洗与降噪、情感分析三个步骤。
3.1数据来源
本文采用的冯唐《飞鸟集》网络翻译批评的读者评论来源于豆瓣读书网上《飞鸟集》冯唐译本的短评。豆瓣读书网从属于豆瓣网,创始于2005年,是同类书评网站中活跃用户较多的平台之一,具有功能多样、模块丰富的特点。本文选择数量庞大的豆瓣短评作为数据来源,受限于平台反爬虫和反水军的短评显示机制,本文爬取的原始短评数据为300条。
3.2研究步骤
3.2.1数据爬取
笔者利用Python在2023年5月30日早上9时登录豆瓣读书网页,并访问《飞鸟集》译本的短评页面从页面源代码中获取cookie值,以便模拟登录并获取短评数据。笔者通过不断地翻页观察统一资源定位符(Uniform Resource Locator,简称URL)的规律,为Python自动打开每一页面做好准备;然后再次观察页面源代码,找到对应属性的内容,使用parsel第三方库解析html内容以获取用户名称、评价时间、评价星级、评价内容、点赞数等数据。由于豆瓣读书网反爬虫和反水军机制的限制,本次爬取共获取300条数据,共44,754字节。
3.2.2数据清洗与降噪
首先,初步清洗。笔者将获取数据中的5条繁体字评论转化为简体汉字,删除评价内容为无关文字、乱码、数字等4条数据,剩余296条数据。
其次,文本降噪。笔者利用Python读取评价内容,并写入txt文档中。在中国开发者网络(CSDN)为开发者提供的开源项目创新服务平台GitCode网上,笔者获取了一个综合中文停用词表,并在Python中创建了停用词列表stop_words。该词表由哈尔滨工业大学、百度、四川大学机器智能实验室对停用词合并去重后得出。笔者利用jieba第三方库,向jieba词库人工增加jieba库可能识别不出的词语之后,对句子进行中文分词。
最后,人工去除非主题词或无意义词。笔者对处理后冯唐译本读者评价文档进行检查,摘除词性不是实词和与主题无关的词语,并将其加入stop_words列表。随后,笔者记录分词错误的情况,并将其增加到jieba词库中。在得到新的停用词表和增加的分词表之后,笔者再次重复分词,将分词结果覆盖原txt文档。
3.2.3情感分析
本文的情感分析采用SnowNLP第三方库来实现。SnowNLP的核心算法是基于朴素贝叶斯算法和最大熵模型的情感分析算法,能“算出评论的整体情感分”,不仅方便快捷,
而且能确保较高程度的准确性(张冬等,2021)。运用SnowNLP得到的结果数值介于0到1之间:数值趋向于1,则说明读者评价情感态度趋于积极;数值趋向于0,则说明读者评价情感态度趋于消极。本文以0.3333和0.6667为消极、中立、积极三种情感态度的分界值。实验结果显示,豆瓣读书网对冯唐《飞鸟集》中译本的短评中,共有184条读者评价态度处于消极状态,49条读者评价态度处于中立状态,63条读者评价态度处于积极状态。
4数据分析
4.1读者星级评价与情感分数
豆瓣读书网对冯唐《飞鸟集》中译本的读者星级评价总平均分,以及1到5星各评分星级读者的所占比重进行了可视化分析,结果显示,豆瓣读书官方统计得出的各星级评分读者的比重参差不齐,好评差评呈现两极分化,这说明该译本质量存在较大的争议和分歧。笔者利用SnowNLP第三方库计算获得的情感分析值显示:在296条有效数据中,持积极态度的读者比重为21.28%;持中立态度的读者比重为16.55%;持消极态度的读者比重为62.16%。可见,读者评价中态度消极的短评占比较大。
豆瓣的审查机制和短评机制不仅是导致读者评价态度差异巨大的主要原因,而且还会对读者造成一些消极影响,主要表现如下:(1)虽然豆瓣短评机制确实能够有效地管理和审核短评内容,但是由于只展示部分短评,且短评均由算法筛选,一些优秀的短评可能会被忽略或隐藏,而一些质量较差的短评可能会被展示出来。这不仅会导致短评中显示的情感趋于消极,而且可能会对读者的阅读期待以及体验产生一定的误导和影响。(2)由于短评内容需要经过官方审核和管理,一些读者可能无法完整表达自己真实想法和感受,从而选择活跃在其他平台上。因此,豆瓣短评机制应该在保障评论区质量的基础上,考虑读者的真实需求和表达自由,从而得到公正、客观的读者评价。
4.2主题云词分析
李书影等(2020)指出词云图“使浏览者能一目了然地领略文本的关注热点和主题”。词云图上,主题关键词的字号体现了它的出现频率,出现频率越高,字号则越大。如图1所示,冯唐《飞鸟集》中译本读者评价词云图显示出读者态度呈现积极、消极两极分化的情况。本文将读者评论角度主要分为三类:
第一类为“译人”,即关于作品和翻译活动主体的关键词,如“飞鸟集”“冯唐”“泰戈尔”“郑振铎”“出版社”“译者”“原作者”“读者”等。这说明读者具有一定的文学修养,对原作品或原作者有一定的了解,所以会将冯译本与原文本进行比较。同时,读者多次提及“郑振铎”,将郑译本与冯译本进行比较,再一次验证郑振铎《飞鸟集》译本是经典之作。Lefevere(2004)指出“赞助人是一个权力实体”。而“出版社”正是该次翻译活动的“赞助人”,其会要求冯唐的译本尽量贴近他们的意识形态。而读者评价中频繁出现的“出版社”一词正体现了读者对于浙江文艺出版社的品牌形象、出版质量或社会责任感等方面的质疑。同时还应注意到,读者评价中出现了对译者冯唐的人身攻击,这类不文明发言是网络翻译批评存在的较大问题。
第二类为“译本”,即关于冯唐译本评价角度的关键词,包括“押韵”“韵律”“直译”等有关冯唐翻译策略的关键词;“个人风格”“创作”“荷尔蒙”“骚气”“低俗”“油腻”“臭”“雅”“意境”“唯美”“美感”等有关冯唐翻译风格的关键词;“裤裆”“死”“妈”“大千世界”“情人”等有关冯唐译本中特定几首小诗的关键词。这说明读者主要是从具体诗歌着手,分析冯唐的翻译策略和翻译风格。
第三类为“媒介”,即关于以何种方式阅读冯唐译本的关键词,包括“电子版”“纸质”“微博”“豆瓣”等关键词。这表明传统纸媒和新兴网络媒介并行,读者阅读冯唐译本的方式多样化。
综上所述,豆瓣读书网短评中的评价褒贬不一。为便于论述,本文将这些关键词分为“译人”“译本”“媒介”三大角度,评价角度多元。读者通过各种阅读媒介和平台阅读冯唐《飞鸟集》中译本,对于其翻译策略的评价较为客观,但对其翻译风格的评价存在较大分歧,读者出于主观态度可能会对作品有所偏好,但在评价中出现人身攻击行为是不可取的。
5结语
计算机科学技术的不断进步以及网络高效便捷、成本低廉的特点促进了网络翻译批评的进一步发展。本文将Python情感分析技术运用到网络翻译批评事件中去,是计算机科学与翻译学跨学科研究的一次尝试。但网络翻译批评仍存在平台管理机制不够完善、草根网民读者评价缺乏客观性的局限。网络翻译评价的良性健康发展,离不开平台乃至国家对网络翻译批评的规范化管理和广大草根网民读者批评素质的提升。
参考文献
[1]ARAUJO A F,GÔLO M P S,MARCACINI R M.Opinion mining for app reviews:an analysis of textual representation and predictive models[J].Automated software engineering,2022,29(1):1-30.
[2]LEFEVERE A.Translation,rewriting and the manipulation of literary fame[M].Shanghai:Shanghai Foreign Language Education Press,2004.
[3]TRIPATHY A,AGRAWAL A,RATH S K.Classification of sentimental reviews using machine learning techniques[J].Procedia computer science,2015(57):821-829.
[4]蓝红军.翻译批评的现状、问题与发展[J].中国翻译,2012,33(4):15.
[5]李书影,王宏俐.《道德经》英译本的海外读者接受研究——基于Python数据分析技术[J].外语电化教学,2020,192(2):35-41+6.
[6]刘源琦.接受美学视域下的文学翻译研究[D].北京:北京外国语大学,2018.
[7]谭翠萍.文本细粒度情感分析研究综述[J].大学图书馆学报,2022,40(4):85-99+119.
[8]唐晓波,刘广超.细粒度情感分析研究综述[J].图书情报工作,2017,61(5):132-140.
[9]王京山,杜建华.利用豆瓣网进行图书网络口碑营销的策略分析[J].科技与出版,2012,210(6):10-13.
[10]王一多.传播学视角下网络翻译批评模式研究[J].上海翻译,2021,156(1):7-12.
[11]王一多.中国网络翻译批评现状及其研究[J].外语教学,2016,37(3):99-103.
[12]许钧,高方.网络与文学翻译批评[J].外语教学与研究,2006(3):216-220+241.
[13]张冬,魏俊斌.情感驱动下主流媒体疫情信息数据分析与话语引导策略[J].图书情报工作,2021,65(14):101-108.
[14]张璐.从Python情感分析看海外读者对中国译介文学的接受和评价:以《三体》英译本为例[J].外语研究,2019,36(4):80-86.
