【Slator】面向亚洲语言的神经机器翻译发展现状

链接:https://slator.com/features/th ... ages/
 
概要:
 
由于亚洲国家的语言都缺乏大规模、高质量、广覆盖率的平行语料库,对于语言服务提供者而言,去拓展这样一个市场会产生重大经济、文化和技术的效应,因此,近年发展迅速的神经机器翻译面临不少挑战和机遇,Slator编辑Gino Diño就面向亚洲语言的神经机器翻译发展的相关问题采访了两位专家,分别是在2018亚洲语言自然语言处理国际会议发布论文的刘伍颍研究员和Naver公司的机器翻译研究科学家露西·帕克(Lucy Park)。
 
亚洲语言的神经机器翻译发展面临的挑战:缺乏可用的语料。
 
刘伍颖博士称,低资源语言的机器翻译训练数据来源:高校语言专业的教师和学生,建立可比语料库,迁移学习同族语言,以及运用近期热门的生成对抗网络GAN(Generative Adversarial Network)和无监督学习。
 
亚洲语言的自然语言处理以及神经机器翻译发展态势:未来可期,相较于西方国家语言的发展而言,亚洲语言研究尚处于资源积累的阶段。露西认为,主要基于英德、英法语言对之上的研究,对亚洲语言的研究的有效性有待考证。
 
如何激发面向亚洲语言的神经机器翻译研究活力:露西认为首先要发展语言专业知识;其次是有公开可用、无版权限制的研究数据;最后,需要更多自然语言处理的开源项目。
 
面向亚洲语言的NLP和NMT发展中最有潜力的领域:刘伍颖博士认为贸易、电子商务以及技术方面的翻译将获得重点关注。露西•帕克则认为非拉丁文字的自然语言处理以及克服文化语言困难将成为发展潜力巨大的领域。
 
最后,两位专家还提到目前该领域研究发展较好的学术机构和国内外公司,以及值得关注的技术。
 
思考:
 
(1)亚洲语言的语料不足,体现了此前这些国家翻译文化事业发展落后,不少是由于这些国家经济、文化实力不强等历史原因造成的。翻译事业的发展,意味着国家的开放、技术的引进、思想的碰撞、社会的进步。随着 “一带一路”丝绸之路经济带的深入发展,小语种国家将成为经贸、文化、技术开发的新市场,语言服务需求随之也将呈现指数增长。因此,面向这些小语种国家语言的机器翻译发展前景巨大,但想要克服语料资源不足的限制,需要相关学科加大科研力度,仍有很长的路要走。
 
(2)全世界有7000多种语言,平均每2个星期就有一种语言消失,据统计,世界80%的人讲83种主要语言,剩下6000多种语言绝大多数从没有留下语料资料,极为脆弱。一些经济发达的国家是否能给出支持,帮助保护这些濒危语言及其所代表的的民族文化呢?正如Notre Dame巴黎圣母院仅存的一份激光扫描数据那样,当灾难降临后,我们依旧有复制的可能。有些语言,希望在其依稀尚存之际,我们能抓紧时间为它留下一些存在过的印记。
 
问题:
 
针对低资源语言的机器翻译,我们应该首先解决低资源的问题,还是机器翻译机器学习的技术问题?
 
术语:
 
GAN Generative Adversarial Network 生成对抗网络
POS part of speech 词类
Hangul 韩文,谚文,韩字
Jamo 韩语字母
Logograph 语标文字
 
作者:
 
万宇
北京语言大学高级翻译学院
2019级翻译专业硕士(本地化管理方向)

0 个评论

要回复文章请先登录注册