【TAUS】机器翻译训练:获取平行语料的三种途径

链接:https://blog.taus.net/three-wa ... ining 


概要:

这篇文章介绍了三种获取平行语料的途径,为机器翻译引擎训练提供良好的数据支持。

近年来机器翻译发展迅速,频繁走进人们的视野。平行语料对训练引擎意义重大,但由于访问许可、保密协议和知识产权等限制,获取原文与译文一一对应的优质语料仍然不易。TAUS致力于促进机器翻译发展,收集了以下三种获取优质平行语料的途径:

1. 公共数据
CLARIN:拥有84个平行语料库,可从国家资源库或语词检索网站下载,主要涵盖欧洲语言对,也涉及印度语、泰米尔语及越南语等非欧洲语言。点击访问
OPUS:拥有网络爬取的平行语料库,基于字幕网站、TED演讲、维基百科等免费开源产品,自动预处理,无人工更正。点击访问
ParaCrawl:拥有网络爬取的平行语料库,数据清晰对齐且匿名,涵盖24种欧洲语言,即将增加冰岛语、挪威语、巴斯克语等长尾语言。点击访问

2. 行业共享数据
TAUS云数据:拥有翻译记忆库和平行语料库,根据语言对、行业领域、内容类型和数据来源进行分类,数据量逾350亿词,涵盖千余种语言对,自动检查和常规整理功能不断强化。点击访问 

3. 特定领域语料库
如果常规数据无法满足需求,添加特定领域的语料可以使译文更加准确。许多机器翻译技术公司提供定制化服务,译者也可以使用谷歌云平台自行定制机器翻译引擎。点击访问

鉴于平行语料的重要意义,TAUS开发数据匹配技术,根据用户提供的样本,在专有环境中搜索TAUS云数据、ParaCrawl爬取数据、以及自己的翻译记忆库,寻找最佳匹配选项,从而生成用于训练机器翻译引擎的平行语料库。


思考:

1. 语料收集
优秀的餐馆需要美味菜品的支持,好用的机器翻译引擎需要优质平行语料的支持,不能“又想马儿跑,又想马儿不吃草”。常规语料可以通过文中介绍的方法获取,特定领域语料可以到语料商城购买,或到论坛社区寻找。
语料是有强烈特色的,例如在搜索鲁迅作品的平行语料时,发现了绍兴文理学院的鲁迅小说平行语料库,受到那句烂熟于心的“鲁迅原名周树人浙江绍兴人我国伟大的文学家思想家革命家”的启示,如果收集语料时遇到困难,或许可以逆向思考,先找平台,再去搜索。
除了网络爬取数据,还可以使用已有的多语电子文献和专业书籍等,对应关系也很强。根据不同的文本风格选择丰富的数据来源,多语报刊和字幕也是很好的选择。

2. 语料库分享
语料库在线网站:支持汉语,语料标准但缺乏流行词汇,即使是“给力”这样的过气网红仍未被索引,“网红”这个词也是一样。点击访问
美国当代英语语料库COCA:支持英语,涵盖口语、小说、杂志、报纸和期刊等类型,资源丰富。点击访问
北京语言大学大数据与语言教育研究所语料库BCC:支持汉语、英语、法语和汉英双语,在文学、报刊、科技和古汉语等类型基础上,添加了微博,内容更具时效性。点击访问


问题:

建立自己的平行语料库有哪些需要注意的地方?


术语:

Parallel language data / 平行语料库
Intellectual property right / 知识产权
Automatic pre-processing / 自动预处理



作者:

张晓彤
北京语言大学高级翻译学院
2019级翻译专业硕士(本地化管理方向)

0 个评论

要回复文章请先登录注册