【SLATOR】亚洲语言神经网络机器翻译现状

链接:https://slator.com/features/th ... ages/ 


概要:

这篇文章概括了亚洲语言资源现状及其对神经网络机器翻译的影响,提出了现有的应对方案和未来的努力方向。

近年来,亚洲经济发展,各国交流需求增多,神经网络机器翻译是大势所趋,一些企业也开始为此项研究贡献力量。由于当下许多亚洲语言资源不充足,且载体非罗马文字,所以研究难度仍然较大。

Slator以访谈的形式邀请两位专家回答亚洲语言神经网络机器翻译相关问题,他们分别是:

刘伍颖先生,现就职于广东外语外贸大学的语言工程与计算实验室,发表学术论文并管理机器翻译与语言资源论坛。
Lucy Park女士,现就职于韩国搜索引擎巨头公司Naver,旗下的翻译软件拥有千万用户。

采访内容主要涵盖以下三个方面:

一、 亚洲低资源语言现状及应对方案

刘伍颖准备研发机器翻译系统,将东盟国家的语言转换为中文,让自然语言处理更好地为贸易文化交流服务。他研究的一个重点是将自然语言处理技术与适当人工干预相结合,建立双语语料库。随着技术不断进步,代码不是问题,大规模语料库才是瓶颈。

东南亚语言资源十分稀缺,在没有优质双语语料库的情况下,刘伍颖主张使用源语言中意义或主题相近的文本对,建立对比语料库。同源语言之间的转移学习可以有效缓解资源上的限制,生成式对抗网络等深度学习模型也可以降低机器学习对数据的依赖。

Lucy Park认为由于亚洲语言结构复杂,所以拆分语素和标注词性十分重要。同时还要考虑到不同语言的特点,例如韩语中有敬语平语之分,还经常省略主语。

二、 东西方自然语言处理和神经网络机器翻译

刘伍颖提出西方语言多为同源,且采用拉丁文字,欧盟组织也为各种语言交流提供了良好环境;亚洲语言来源复杂多样,且语料库不足,自然语言处理和神经网络机器翻译正处于资源积累阶段,但势头良好,前景开阔。

Lucy Park提出现有的大多数机器翻译方法都以英-德、英-法等西方主要语言对为基准,不一定适用于亚洲语言。针对亚洲语言独特的语法和书写系统,立足语言特点进行合理改良,可以促进亚洲自然语言处理和神经网络机器翻译的研究。因此开放源代码和数据的意义重大,她本人也致力于开发韩语分词标注组件KoNLPy。

三、 亚洲语言神经网络机器翻译的未来

去年以来,人们的关注范围愈加广泛,除中日韩语言之外,关于东南亚语言翻译的研究也越来越多,坚持纵向研究,兼顾横向发展。

亚洲许多学术机构和互联网企业活跃在亚洲语言神经网络机器翻译领域,人工智能和开源项目加速了更适应亚洲市场的产品和服务出现。


思考:

1. 亚洲语言之间的转换
在Naver搜索关于Lucy Park的信息时,使用谷歌翻译进行韩译中的效果确实不佳,译文不是很通顺,一些短词的译文甚至不达意;但将英语作为桥梁,先进行韩译英,再英译中,效果就会好一些。使用Naver开发的翻译工具Papago直接进行韩译中,译文相比之下优于谷歌翻译的产物。以上测试虽然不够全面,但面对亚洲语言之间的转换,应当多考虑语言特色,有针对性的处理。
 
2.  分词标注
在语言学习和机器翻译中,词性扮演着着烟雾弹般令人又爱又恨的重要角色。“一把把把手把住”这短短的一句话里就出现了“把”字的三种词性。不同的断句方法能够赋予同一句话不同的含义,“下雨天留客天留我不留”,美感与歧义同在。在训练机器去理解语义的过程中,拆分词句和标注词性起到了十分重要的作用,恰当的处理可以有效提高译文准确率。

3.  语料库
在自然语言处理中,使用和建立标准且丰富的语料库意义重大。机器翻译的本质与语音识别和音字转换的本质一样,都是转换问题。语音识别是将音频转换成文字,所以标准的语音输入是关键。然而许多语音语料在录制时就存在错读、错断和语气不当的现象,影响了语音识别的准确度。关于音字转换,目前网络上含有中文拼音与文字一一对应的完整读物的语料库寥寥无几。大多数在线拼音标注类网站提供的结果已经是算法生成的产物,不能作为严谨的实验数据使用。哈尔滨工业大学自然语言处理实验室的WI输入法使用的语料是人民日报1997年至2007年的所有文章,其拼音由机器自动标注与人工添加逻辑相结合生成。虽然严谨的语料带来的效果很好,但也暴露了一些问题,比如逻辑没有覆盖的拼音标注数据成为了实验噪声,语料缺乏时效性且具有内容局限性,毕竟流行用语和新兴词汇在人民日报中鲜有出现,而这些词的读音往往比普通词汇更加特别。由以上两个例子可以得见,在建立语料库时不仅需要标准,还要保证丰富度。
 

问题:

在激烈的商业竞争背景下,如何推动源代码和数据的开放?


术语:

Neutral Machine Translation (NMT) / 神经网络机器翻译
Natural Language Processing (NLP) / 自然语言处理
Language-centric AI / 以语言为中心的人工智能
Low-resource language / 低资源语言
SEA language / 东南亚语言
Generative Adversarial Network (GAN) / 生成式对抗网络
General Public License (GPL) / 通用公共授权协议
 
 

作者:

张晓彤
北京语言大学高级翻译学院
2019级翻译专业硕士(本地化管理方向)

1 个评论

在源代码的开放方面,在机器翻译研究界和企业界已经有非常好的传统,但是这些东西对于翻译圈来说都太远,整个圈子里的人基本上都不知道如何使用别人开放出来的东西。

要回复文章请先登录注册