“互联网机器翻译论坛”观后感

韩林涛 发表了文章 • 0 个评论 • 235 次浏览 • 2018-03-29 15:10 • 来自相关话题

本文发布于2015年4月19日
 
今天去蹭了一场中国电子学会和百度翻译共同举办的“互联网机器翻译论坛”,开口谈“机器翻译”的都是大腕,包括:中国工程院院士倪光南教授、百度副总裁王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授。除他们之外还有两位产业界的人士:足迹CEO杨柳和医脉通CEO田立新。

中国工程院院士倪光南教授曾经在1984年参与创办“计算所公司”,全称叫做“中国科学院计算技术研究所新技术发展公司”,他担任总工程师。这段历史我们大多数人可能不太熟悉,但是接着往下说就越道越明了。倪光南院士担任计算机公司总工时发明了“联想式汉字输入法”,主持研发了“联想式汉字输入系统”,简称“联想汉卡”,并于1988年获得了国家科技进步一等奖。这个“计算所公司”就是“联想公司”的前身。

倪光南院士与联想的各种故事还有很多,但与机器翻译无关,上面的故事仅仅是个简单的铺垫。在今天的论坛主旨发言中,倪院士介绍了他眼中我国机器翻译的发展历史。

我国研制第一代机器翻译系统时,倪院士参与了汉字显示、汉字输入、汉字打印等相关的工作,做汉字处理是他的本行。他提到当年的“快译通”提供的翻译服务仅仅是简单的词的对应,机器并未理解句子,也没有进行语法句法的分析,功能有限。

我国第二代机器翻译系统虽然比第一代要先进很多,但因为没有完全理解语言而遇到瓶颈,无法快速提高。在我们当今所处的大数据时代,大数据作为“实验归纳”、“模拟推演”、“仿真模拟”以外的“第四范式”,推动了机器翻译技术发展,使得科研人员可以依靠计算机大数据方法来做研究。在大数据的支撑下,机器根本不需要了解句子的意思,也可以把句子翻译的很漂亮。第二代机器翻译系统得益于大数据的帮助,逐渐为大众所使用。而第三代机器翻译系统能否成功研制,就要看机器能否真得理解语言。而如今机器翻译技术发展的现状已经让倪院士感慨:梦想终于实现。

倪院士主旨发言之后是百度副总裁王海峰博士对百度翻译的介绍,并且还现场让百度马艳军博士演示了翻译机器人“小度”是如何做口译的。

根据王海峰博士的介绍:百度翻译目前支持热门的16个语种、164个翻译方向,日均翻译需求量达上亿次,覆盖多种平台,并为大批公司提供免费的API支持。

百度翻译通过基于互联网大数据的理论创新、基于互联网海量用户的技术创新、基于互联网云计算平台的工程创新和基于互联网思维的应用创新实现了机器翻译大规模产业化应用。

在现场的演讲中,王海峰博士对百度翻译的诸多技术还仅仅是介绍,因时间有限他并未深入详解。就现场所听到的信息,我对其技术创新的理解是:

技术创新一:机器翻译云平台

一大堆可以协同计算的计算机组成了百度翻译背后的云平台,这些计算机通过各种技术的支持确保能够持续提供高效快速的计算服务支撑大规模双语语料和大规模单语语料的处理。王海峰博士说,百度翻译的机器翻译云平台一天可完成全网超过2000亿网页双语资源的模型训练。这句话可能挺难理解,也许用通俗的话来讲就是:百度翻译背后那些超牛的计算机集群可以把从2000亿网页中收集到的双语资源处理后训练出可以自动翻译文章的机器翻译系统,而所需的时间仅需一天。

技术创新二:海量翻译知识获取

这项技术说的是百度翻译程序员们写的程序可以分析网页的拓扑结构,知道网页中哪些内容是原文和译文对应的双语内容,然后提取出来送给机器翻译系统去分析和处理。而这个“分析和处理”的过程又非常智能,能去粗取精,把错误的双语对应语料去掉,留下正确的双语语料。

技术创新三:基于深度语义的语言分析和翻译技术

他举了一个例子:

原文是:梅德韦杰夫对欧盟有效解决经济危机带来的问题表示赞赏。

百度翻译的系统分析出这个句子中“对”、“表示”、“赞赏”这三个词的关系,然后得到下面的译文。

译文:Medvedev expresses appreciation to EU for effectively solve the problems caused by financial crisis.

技术创新四:枢轴语言翻译技术

根据他的介绍,这里的“枢轴语言”有点英语里所说的“lingua franca”(有时翻译成“通用语”)。

“A lingua franca (plural lingue franche or lingua francas), also known as a bridge language, trade language or vehicular language, is a language systematically (as opposed to occasionally, or casually) used to make communication possible between persons not sharing a native language, in particular when it is a third language, distinct from both native languages.”(维基百科)

通过枢轴语言翻译技术,系统可以使用将大型汉-英双语语料处理后获得的汉-英翻译模型和将大型英-日双语语料处理后获得的英-日翻译模型共同推导出汉-日中间语言翻译模型,这个时候再结合小型汉-日双语语料处理后得到的汉-日翻译模型获得更好的汉日翻译模型。

也就是说:机器能把汉英转换的很好,能把英日转换的很好,在汉日转换差的情况下,将前两者的翻译模型放在一起处理,结合已有的汉日转换模型,获得更好的汉日机器翻译系统。

王海峰博士把百度翻译技的关键术分为三类:语料处理技术、模型处理技术和翻译方法。 语料处理技术包括:语料质量评估、语料挖掘技术、语料分类与选择、语料实时挖掘与退场;模型处理技术包括:分布式模型、模型平滑与压缩、动态更新技术、语义表示与消歧;方法方法包括:领域自适应技术、枢轴语言技术、多策略翻译技术和深度神经网络技术。

通过王海峰博士的介绍,大体能够看到百度翻译背后雄厚的技术实力。他演讲结束后马艳军博士现场演示的“小度”机器人让现场的观众十分激动。

这个“小度”机器人其实可以看成是个口译软件,中国人说中文后,它将语音转变为文字,翻译完成后合成目标语,如韩语,然后再合成语音播放出来;韩国人听到“小度”的韩语后将语音转变为文字,翻译完成后合成中文,再播放出合成的中文语音。

“小度”机器人演示环节过后,王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授、足迹CEO杨柳和医脉通CEO田立新上台参与了一场题为“机器翻译能否成为下一波产业浪潮”的主题讨论。

这场讨论还是非常有意思的,我将几位嘉宾的观点总结如下:

孙茂松:机器翻译最典型的应用场景是“一带一路”,一带一路覆盖了半个地球,涉及到60多个国家,百余种语言。这么大的市场,政治、经济、文化等方方面面都有所涉及,如果语言不通,合作会大打折扣。机器翻译在这样的场景下会得到大量应用,也会遇到很多挑战。

宗成庆:在谈及“机器翻译领域发展到怎样的阶段”时,他说目前机器翻译技术发展非常快,现在最热门的技术是“深度学习”、“神经网络”,94年这个技术就有学者提出,但是那个时候应用非常有限,因为计算能力和数据量都有限,与现在不可同日而语。

机器翻译要特定到某一个领域和行业,要真正把领域机器翻译技术落地才能收获更多用户。

刘挺:目前机器翻译技术的第一大应用是在线翻译;第二大应用是信息发布,配合计算机辅助翻译软件有很大应用空间;第三大应用是实时语音翻译。机器翻译的应用前景和研究空间都很大,但也有一些问题:以Siri为代表的语音助手由于背后技术不是特别成熟导致用户量下滑。当用户期望很高,觉得机器什么都可以翻译的时候,用户会很容易失望。另外,机器如果能够根据用户的地理位置自动切换机器翻译的领域,为用户提供适应某个领域的机器翻译服务会更好。

以“打”为例,在篮球场上“打篮球”的“打”跟其他场景中的“打破”的“打”是不一样的意思,机器需要能够识别不同的领域、场景、语境。

田立新:目前在医疗领域,医生主要看外文文献,也主要写外文文献,机器翻译目前在这个领域不能做到极致。需要与百度深入合作,将更多医药领域的知识融入到百度翻译中去;将海量医疗文献处理后,让百度能够在临床上为医生提供决策支持。

杨柳:足迹APP让人人都能做字幕,优质的双语信息能够轻易帮助每个人都成为诗人、哲人,轻松表达自己的情感。通过与百度翻译的合作,百度提供了很多语料,翻译质量逐渐提高;足迹也会给百度反馈,让翻译质量提高。

足迹之后会加入图像识别,根据场景来为用户提供更多可用于表达的词句;会尽快将热门的网络词加入到翻译APP中,机器翻译能够在更多场景中应用。

在这场主题讨论后,中国电子学会的秘书长徐晓兰也发表了一段演讲,她提到她是赛迪翻译的董事长,当年为了提高机器翻译的质量,他们大量收集双语语料,投入大量人力物力财力建语料库,依然觉得有收集不完的语料。

感想:

参加完这场论坛后,我有一些感想,我也简单总结一下:

翻译类院校师生应当如何看待机器翻译?

翻译类院校几乎每天都在不断培养专业的翻译人才,而目前翻译类人才开始担忧自己是否会被机器翻译所取代。我觉得翻译类院校应当担心,也应该主动应对。应对的方式是:机器翻译+译后编辑,即要教会学生在翻译工作中如何处理机器翻译后的文本,如何快速高效编辑机器文本达到不同的程度(可读、可发布、可出版等)。

2. 像百度翻译这类机器翻译系统最重要的用户是谁?

百度翻译作为一款产品,按照王海峰博士的观点和百度目前的战略,要“连接人与服务”,即为用户提供他们需要的服务。那么百度翻译这类机器翻译系统最重要的用户是普通的大众还是专业的译员?从谷歌翻译的应用来看,普通用户和专业译员都是兼顾的,而百度翻译则主要面向普通用户,对专业译员而言似乎并不看上眼,没有提供足够的专业服务。我认为百度百度翻译应该尽快接入现有的计算机辅助翻译系统,让专业译员尽快使用上,并提出更专业的使用反馈。

专业翻译公司提供的双语语料比一个普通翻译爱好者发布在网上的双语文本更有价值,对翻译模型的训练更为重要,因此百度翻译应当加快与翻译公司的语料合作。现在SDL已经为企业提供定制翻译引擎的训练,让翻译公司可以训练自己的机器翻译引擎,中国翻译公司更在乎语料的安全性,害怕资产流失,更需要本土公司提供类似的语料训练服务。

3. 机器翻译是一门技术,机器翻译应用是一项技巧

通过王海峰博士的介绍,我发现在百度翻译背后还有那么多深不可测的计算机技术,远远超过普通人的想象。虽然我们经常诟病机器翻译的质量,但不可否认,发展到今天的机器翻译技术每天都会聪明一点,因此我们应该尊重这门技术,尊重机器翻译技术背后的技术人员和科研人员,努力理解他们正在做的事情。

同时,我们作为机器翻译技术的门外行,可以多想想机器翻译究竟可以在什么样的场景得到更有价值的应用,如何利用机器翻译技术让我们的日常生活更便捷。有一天机器翻译也许真得会替代我们,但我不希望看到我的孩子还看在用最传统的方式做翻译或者阅读晦涩难懂的机器翻译译文,我希望机器翻译能够为未来的人们提供更便捷的自动服务,打破语言的障碍,让多语信息没有传播的界限。 查看全部
本文发布于2015年4月19日
 
今天去蹭了一场中国电子学会和百度翻译共同举办的“互联网机器翻译论坛”,开口谈“机器翻译”的都是大腕,包括:中国工程院院士倪光南教授、百度副总裁王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授。除他们之外还有两位产业界的人士:足迹CEO杨柳和医脉通CEO田立新。

中国工程院院士倪光南教授曾经在1984年参与创办“计算所公司”,全称叫做“中国科学院计算技术研究所新技术发展公司”,他担任总工程师。这段历史我们大多数人可能不太熟悉,但是接着往下说就越道越明了。倪光南院士担任计算机公司总工时发明了“联想式汉字输入法”,主持研发了“联想式汉字输入系统”,简称“联想汉卡”,并于1988年获得了国家科技进步一等奖。这个“计算所公司”就是“联想公司”的前身。

倪光南院士与联想的各种故事还有很多,但与机器翻译无关,上面的故事仅仅是个简单的铺垫。在今天的论坛主旨发言中,倪院士介绍了他眼中我国机器翻译的发展历史。

我国研制第一代机器翻译系统时,倪院士参与了汉字显示、汉字输入、汉字打印等相关的工作,做汉字处理是他的本行。他提到当年的“快译通”提供的翻译服务仅仅是简单的词的对应,机器并未理解句子,也没有进行语法句法的分析,功能有限。

我国第二代机器翻译系统虽然比第一代要先进很多,但因为没有完全理解语言而遇到瓶颈,无法快速提高。在我们当今所处的大数据时代,大数据作为“实验归纳”、“模拟推演”、“仿真模拟”以外的“第四范式”,推动了机器翻译技术发展,使得科研人员可以依靠计算机大数据方法来做研究。在大数据的支撑下,机器根本不需要了解句子的意思,也可以把句子翻译的很漂亮。第二代机器翻译系统得益于大数据的帮助,逐渐为大众所使用。而第三代机器翻译系统能否成功研制,就要看机器能否真得理解语言。而如今机器翻译技术发展的现状已经让倪院士感慨:梦想终于实现。

倪院士主旨发言之后是百度副总裁王海峰博士对百度翻译的介绍,并且还现场让百度马艳军博士演示了翻译机器人“小度”是如何做口译的。

根据王海峰博士的介绍:百度翻译目前支持热门的16个语种、164个翻译方向,日均翻译需求量达上亿次,覆盖多种平台,并为大批公司提供免费的API支持。

百度翻译通过基于互联网大数据的理论创新、基于互联网海量用户的技术创新、基于互联网云计算平台的工程创新和基于互联网思维的应用创新实现了机器翻译大规模产业化应用。

在现场的演讲中,王海峰博士对百度翻译的诸多技术还仅仅是介绍,因时间有限他并未深入详解。就现场所听到的信息,我对其技术创新的理解是:

技术创新一:机器翻译云平台

一大堆可以协同计算的计算机组成了百度翻译背后的云平台,这些计算机通过各种技术的支持确保能够持续提供高效快速的计算服务支撑大规模双语语料和大规模单语语料的处理。王海峰博士说,百度翻译的机器翻译云平台一天可完成全网超过2000亿网页双语资源的模型训练。这句话可能挺难理解,也许用通俗的话来讲就是:百度翻译背后那些超牛的计算机集群可以把从2000亿网页中收集到的双语资源处理后训练出可以自动翻译文章的机器翻译系统,而所需的时间仅需一天。

技术创新二:海量翻译知识获取

这项技术说的是百度翻译程序员们写的程序可以分析网页的拓扑结构,知道网页中哪些内容是原文和译文对应的双语内容,然后提取出来送给机器翻译系统去分析和处理。而这个“分析和处理”的过程又非常智能,能去粗取精,把错误的双语对应语料去掉,留下正确的双语语料。

技术创新三:基于深度语义的语言分析和翻译技术

他举了一个例子:

原文是:梅德韦杰夫对欧盟有效解决经济危机带来的问题表示赞赏。

百度翻译的系统分析出这个句子中“对”、“表示”、“赞赏”这三个词的关系,然后得到下面的译文。

译文:Medvedev expresses appreciation to EU for effectively solve the problems caused by financial crisis.

技术创新四:枢轴语言翻译技术

根据他的介绍,这里的“枢轴语言”有点英语里所说的“lingua franca”(有时翻译成“通用语”)。

“A lingua franca (plural lingue franche or lingua francas), also known as a bridge language, trade language or vehicular language, is a language systematically (as opposed to occasionally, or casually) used to make communication possible between persons not sharing a native language, in particular when it is a third language, distinct from both native languages.”(维基百科)

通过枢轴语言翻译技术,系统可以使用将大型汉-英双语语料处理后获得的汉-英翻译模型和将大型英-日双语语料处理后获得的英-日翻译模型共同推导出汉-日中间语言翻译模型,这个时候再结合小型汉-日双语语料处理后得到的汉-日翻译模型获得更好的汉日翻译模型。

也就是说:机器能把汉英转换的很好,能把英日转换的很好,在汉日转换差的情况下,将前两者的翻译模型放在一起处理,结合已有的汉日转换模型,获得更好的汉日机器翻译系统。

王海峰博士把百度翻译技的关键术分为三类:语料处理技术、模型处理技术和翻译方法。 语料处理技术包括:语料质量评估、语料挖掘技术、语料分类与选择、语料实时挖掘与退场;模型处理技术包括:分布式模型、模型平滑与压缩、动态更新技术、语义表示与消歧;方法方法包括:领域自适应技术、枢轴语言技术、多策略翻译技术和深度神经网络技术。

通过王海峰博士的介绍,大体能够看到百度翻译背后雄厚的技术实力。他演讲结束后马艳军博士现场演示的“小度”机器人让现场的观众十分激动。

这个“小度”机器人其实可以看成是个口译软件,中国人说中文后,它将语音转变为文字,翻译完成后合成目标语,如韩语,然后再合成语音播放出来;韩国人听到“小度”的韩语后将语音转变为文字,翻译完成后合成中文,再播放出合成的中文语音。

“小度”机器人演示环节过后,王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授、足迹CEO杨柳和医脉通CEO田立新上台参与了一场题为“机器翻译能否成为下一波产业浪潮”的主题讨论。

这场讨论还是非常有意思的,我将几位嘉宾的观点总结如下:

孙茂松:机器翻译最典型的应用场景是“一带一路”,一带一路覆盖了半个地球,涉及到60多个国家,百余种语言。这么大的市场,政治、经济、文化等方方面面都有所涉及,如果语言不通,合作会大打折扣。机器翻译在这样的场景下会得到大量应用,也会遇到很多挑战。

宗成庆:在谈及“机器翻译领域发展到怎样的阶段”时,他说目前机器翻译技术发展非常快,现在最热门的技术是“深度学习”、“神经网络”,94年这个技术就有学者提出,但是那个时候应用非常有限,因为计算能力和数据量都有限,与现在不可同日而语。

机器翻译要特定到某一个领域和行业,要真正把领域机器翻译技术落地才能收获更多用户。

刘挺:目前机器翻译技术的第一大应用是在线翻译;第二大应用是信息发布,配合计算机辅助翻译软件有很大应用空间;第三大应用是实时语音翻译。机器翻译的应用前景和研究空间都很大,但也有一些问题:以Siri为代表的语音助手由于背后技术不是特别成熟导致用户量下滑。当用户期望很高,觉得机器什么都可以翻译的时候,用户会很容易失望。另外,机器如果能够根据用户的地理位置自动切换机器翻译的领域,为用户提供适应某个领域的机器翻译服务会更好。

以“打”为例,在篮球场上“打篮球”的“打”跟其他场景中的“打破”的“打”是不一样的意思,机器需要能够识别不同的领域、场景、语境。

田立新:目前在医疗领域,医生主要看外文文献,也主要写外文文献,机器翻译目前在这个领域不能做到极致。需要与百度深入合作,将更多医药领域的知识融入到百度翻译中去;将海量医疗文献处理后,让百度能够在临床上为医生提供决策支持。

杨柳:足迹APP让人人都能做字幕,优质的双语信息能够轻易帮助每个人都成为诗人、哲人,轻松表达自己的情感。通过与百度翻译的合作,百度提供了很多语料,翻译质量逐渐提高;足迹也会给百度反馈,让翻译质量提高。

足迹之后会加入图像识别,根据场景来为用户提供更多可用于表达的词句;会尽快将热门的网络词加入到翻译APP中,机器翻译能够在更多场景中应用。

在这场主题讨论后,中国电子学会的秘书长徐晓兰也发表了一段演讲,她提到她是赛迪翻译的董事长,当年为了提高机器翻译的质量,他们大量收集双语语料,投入大量人力物力财力建语料库,依然觉得有收集不完的语料。

感想:

参加完这场论坛后,我有一些感想,我也简单总结一下:

翻译类院校师生应当如何看待机器翻译?

翻译类院校几乎每天都在不断培养专业的翻译人才,而目前翻译类人才开始担忧自己是否会被机器翻译所取代。我觉得翻译类院校应当担心,也应该主动应对。应对的方式是:机器翻译+译后编辑,即要教会学生在翻译工作中如何处理机器翻译后的文本,如何快速高效编辑机器文本达到不同的程度(可读、可发布、可出版等)。

2. 像百度翻译这类机器翻译系统最重要的用户是谁?

百度翻译作为一款产品,按照王海峰博士的观点和百度目前的战略,要“连接人与服务”,即为用户提供他们需要的服务。那么百度翻译这类机器翻译系统最重要的用户是普通的大众还是专业的译员?从谷歌翻译的应用来看,普通用户和专业译员都是兼顾的,而百度翻译则主要面向普通用户,对专业译员而言似乎并不看上眼,没有提供足够的专业服务。我认为百度百度翻译应该尽快接入现有的计算机辅助翻译系统,让专业译员尽快使用上,并提出更专业的使用反馈。

专业翻译公司提供的双语语料比一个普通翻译爱好者发布在网上的双语文本更有价值,对翻译模型的训练更为重要,因此百度翻译应当加快与翻译公司的语料合作。现在SDL已经为企业提供定制翻译引擎的训练,让翻译公司可以训练自己的机器翻译引擎,中国翻译公司更在乎语料的安全性,害怕资产流失,更需要本土公司提供类似的语料训练服务。

3. 机器翻译是一门技术,机器翻译应用是一项技巧

通过王海峰博士的介绍,我发现在百度翻译背后还有那么多深不可测的计算机技术,远远超过普通人的想象。虽然我们经常诟病机器翻译的质量,但不可否认,发展到今天的机器翻译技术每天都会聪明一点,因此我们应该尊重这门技术,尊重机器翻译技术背后的技术人员和科研人员,努力理解他们正在做的事情。

同时,我们作为机器翻译技术的门外行,可以多想想机器翻译究竟可以在什么样的场景得到更有价值的应用,如何利用机器翻译技术让我们的日常生活更便捷。有一天机器翻译也许真得会替代我们,但我不希望看到我的孩子还看在用最传统的方式做翻译或者阅读晦涩难懂的机器翻译译文,我希望机器翻译能够为未来的人们提供更便捷的自动服务,打破语言的障碍,让多语信息没有传播的界限。