在海量数据、深度学习和强大算力三驾马车的加持下,神经机器翻译已取得飞速的进展,但也存在一些亟待解决的问题,如语篇级的文本产出或生成的质量不如人意等。为解决此问题,以往的研究主要来自于计算机科学的视角,而少有从语言学角度的切入。
近几年来,西安交大俄罗斯专享会官网翻译研究团队以复杂网络作为研究方法,考察机器翻译的文本语言学特征,力图促进语言学、计算机科学与网络科学之间的交叉互动。团队通过构建机器译本的语言连贯网络,并以人工译本的语言连贯网络作为参照,考察机器译本的语篇连贯特征,以求有助于解决机器翻译语篇衔接方面的问题。
研究发现,基于人工和机器翻译文本所构建的语言连贯网络同样具有小世界和无标度等普遍网络特征。但是,语言连贯网络的幂率拟合中呈现出一个拐点,反映了此种网络的独特之处。该项研究构建了语言连贯网络,扩大了语言网络的范围,同时,进一步验证了复杂网络的普遍特征。
图1 语言连贯网络的小世界和无标度参数值
图2 语言连贯网络无标度属性拟合示意
研究还发现,相较于人工译本网络,机器译本网络有较少的边和节点数、较低的平均度值、较小的网络直径、较短的平均路径长度、较高的聚类系数和度-度相关系数以及更加多样的网络模体。因此,机器译本的文本信息语义连接稀疏,且连接多为局部连接;网络连接主要发生在发挥关键作用的信息内容之间,其他内容则较少产生连接关系;连接的形式也比较单一。以上发现对了解机器译本语言特征从而解决语篇级机器翻译问题具有重要的启发意义,同时,网络路径对解决机器翻译的语言学问题提供了利器。
图3 机器译本网络与人工译本网络的最短路径长度之比较
该项研究成果于2020年10月份发表在国际知名学术期刊《国际现代物理学期刊C》(International journal of Modern Physics C)上,在持续推进翻译研究视角多元化、研究方法科学化、研究结果国际化的道路上迈进了重要一步,引起国内外同行的高度关注,多次邀稿作者。
该研究工作由西安交大我院教授蒋跃、西安交通大学自动化科学与工程学院副教授周亚东与蒋跃教授博士生牛江共同完成。牛江为论文第一作者,蒋跃为通讯作者,西安交通大学为第一作者单位。
论文链接:https://www.worldscientific.com/doi/10.1142/S0129183120501752
(撰稿人:牛江、范璐)