TMXmall机器翻译插件安装后无法运行

回复

韩林涛 发起了问题 • 1 人关注 • 0 个回复 • 547 次浏览 • 2018-04-12 09:53 • 来自相关话题

如何在SDL Trados Studio 2015中嵌入机器翻译?

韩林涛 发表了文章 • 0 个评论 • 535 次浏览 • 2018-04-12 08:45 • 来自相关话题

方法一:使用TMXmall的机器翻译插件
 
第一步:注册TMXmall账号
 
网址:www.tmxmall.com​
 
第二步:前往插件下载页面下载对应版本的插件
 
网址:www.tmxmall.com/home/download?innertab=2​ 
 
第三步:安装插件,并在Trados项目中添加插件
 
第四步:充值
 
第五步:使用
 
详细的使用方法,请参见下方的附件:Tmxmall_MT_Plugin_for_SDL_Trados_Studio使用说明.pdf
 
使用中遇到问题请在下方留言。
 
方法二:使用SDL Trados Studio 2015自带的谷歌机器翻译插件
 
待添加 查看全部
方法一:使用TMXmall的机器翻译插件
 
第一步:注册TMXmall账号
 
网址:www.tmxmall.com​
 
第二步:前往插件下载页面下载对应版本的插件
 
网址:www.tmxmall.com/home/download?innertab=2​ 
 
第三步:安装插件,并在Trados项目中添加插件
 
第四步:充值
 
第五步:使用
 
详细的使用方法,请参见下方的附件:Tmxmall_MT_Plugin_for_SDL_Trados_Studio使用说明.pdf
 
使用中遇到问题请在下方留言。
 
方法二:使用SDL Trados Studio 2015自带的谷歌机器翻译插件
 
待添加

昨天机器同传又败给了人工同传,那明天我们应该做什么?

韩林涛 发表了文章 • 0 个评论 • 360 次浏览 • 2018-04-11 21:41 • 来自相关话题

背景

2018年3月22日-23日,北京语言大学

翻译自动化用户协会亚洲峰会(TAUS Asia Conference)采用了微软公司开发的名为“Presentation Translator”的PowerPoint插件为参会者提供了实时口语翻译服务,技术本身令人称赞,翻译结果却令人唏嘘。

参考:刘和平、韩林涛: 下“机器翻译替代人类”结论为时尚早

http://opinion.huanqiu.com/cul ... .html

2018年4月09-10日,鳌博亚洲论坛

“为鳌博亚洲论坛提供翻译服务的,正是由Tencent公司推出的人工智能同声传译解决方案'Tencent同传',也是2018鳌博亚洲论坛官方采用的首家AI同传技术展示合作方。'Tencent同传'由Tencent翻译君联合微信智聆共同打造, 将为论坛开幕式及部分论坛提供现场同传服务,包括会议现场投屏、小程序查看、语音收听、会议纪要回放等。这是鳌博亚洲论坛首次尝试使用AI机器同传技术。”

来源:

《未来已来  人工智能翻译首次亮相鳌博亚洲论坛》

http://tech.qq.com/a/20180409/015861.htm

比起3月份的TAUS会议,这次Tencent的技术服务可谓相当到位,从目前看到的新闻可知:

微软还仅限于基于PowerPoint提供同传服务,而Tencent则可以直接为自由发言的多人论坛提供同传服务,可以说Tencent的肌肉秀得更漂亮;

微软基于网页和“微软翻译APP”提供同传服务,而Tencent则通过微信小程序就能快速提供,的确是更懂中国人;

微软的“Presentation Translator”是任何一个人都可以下载使用的,而Tencent应该是专为鳌博论坛定制了一套机器同传系统。

相比之下,Tencent同传的技术服务更到位,技术同样令人称赞,但翻译结果依然令人唏嘘。

正文

我和刘和平老师之所以选择在“环球网”发那篇署名的文章,并不是在冷嘲热讽机器翻译,更不是站在AI的对立面,代表人类向机器宣战。我本人是研究计算机辅助翻译的,刘和平老师是口译界最早(而且始终、一直、不断、持续)呼吁“拥抱技术”的资深口译专业教授,我们都看好技术的发展。

但是,我们最担心的是机器翻译的开发者、机器翻译研发团队的写手、互联网媒体记者、自媒体小编一次又一次突破底线得宣称自己的机器翻译技术水平已经超越人类。这对整个翻译行业(语言服务行业)而言是致命的打击!!有潜力的优秀学子将不再考虑报考翻译专业!!

具体可参见我写的:人工智能时代传统翻译教育的危机

2018年3月和4月分别出现的两起“机器翻译翻车事故”给搞机器翻译技术落地的团队泼了两瓢冷水,同时也让不少学生译员和职业译员感受到了真正的冲击。

但昨天的事儿已经成为历史,今天我们要思考的是明天我们要做什么。这里的“我们”是指“搞机器翻译技术落地的团队”、“学生译员和职业译员”以及“从事翻译教育的高校教师和教学指导委员会”。

诸位,如今我们不需要写公关稿去洗地,也不需要再发什么截图去冷嘲热讽,这一页得翻过去了,嘴炮打完后就得继续撸起袖子加油干了。

建议“搞机器翻译技术落地的团队”做的事

我是研究计算机辅助翻译的,说白了就是研究怎么使用各种各样的计算机技术和工具来帮助学翻译做翻译的人提高翻译效率和质量,这与“机器翻译”是两码事儿。我会教学生怎么在做笔译的专业软件中嵌入不同的机器翻译引擎,但不会详细讲解机器翻译的原理,学翻译的同学和做翻译的职业译者不需要自己去搭建神经机器翻译系统。对我而言,“翻译”是一种“服务”,而“服务”是全过程的,不仅仅只关注结果。

从这个角度来说,“搞机器翻译技术落地的团队”也不应该只关注机器翻译的质量,既然是搞技术落地,就需要根据场景进行适应性的技术调整,把软件技术和硬件技术结合在一起去做落地。

比如说,无论是3月份的TAUS还是4月份的鳌博,影响机器翻译结果的很大一部分原因是源语言的语音识别效果。TAUS的会议是个人发言式的,鳌博的会是多人论坛式的,后者的场景更为复杂;TAUS的会议是提前训练过发言人的发言内容的,但没有提前训练发言人的语音,而鳌博的会似乎也没有提前训练发言人的语音,也没有拿到发言稿。所以鳌博的会对语音识别的挑战更大。可是,站得多高,跌下来就有多疼。越是复杂的场景,越应该准备好备用方案(Tencent同传的备用方案应该是“人”......而不是其他的技术方案)。

也许下一步,为了提高语音识别的效果,Tencent会在硬件上下些功夫,为大会提供他们自己研发的“Tencent话筒”、“Tencent耳麦”、“Tencent同传接收机”、“Tencent红外发射机”......,提前设置好哪位演讲人说什么样的语言,或者通过统一的软件平台预设每个话筒的发言语言,外加现在已有的语言识别技术,这样就不会出现因为语言识别错误而导致翻译错误了。

也许下一步,Tencent可以选择收购“博世”(BOSCH)、“泰利维克”(Telivic)这样的同传设备供应商,直接基于他们现有的同传设备硬件技术来嵌入他们的同传技术。虽然微软推出“Presentation Translator”已经很久了,但是职业译员在做会时之所以一直没有用上,根本原因是这玩意必须主办方来安装,译员唯一接收声音的地方是自己的耳机,而耳机的声音很难再转到另一个做语音识别的设备或软件中。如果在硬件上下些功夫......

也许下一步,Tencent可以和国内的几大高翻学院合作培养口译背景的学生来做产品经理,或者和研究(且真懂)计算机辅助口译的口译专业(做得好且教得好的)教师一起推动Tencent同传在真实同传场景下的应用,推出一些实用的“计算机辅助口译”系统。

也许下一步,Tencent只需要多拿出几千万、多招几位工程师和产品经理就能在现有的技术基础上实现进一步的飞跃。

我个人觉得,Tencent同传现在什么都不缺,迈向下一个高峰前只需要更多的钱、更多的人和更多的实战经验。如果说现在真缺什么,那缺的应该是“SDL Trados”这类计算机辅助翻译工具的“曲径通幽”的态度,他们从不说自己要“替代”什么,只说自己怎么“辅助”。

用温水才能煮得了青蛙。

建议“学生译员和职业译员”现在应该做的事

在“计算机辅助口译”这个话题上,我听到很多学生译员和职业译员都说,译员的精力是有限的,像记数字、记专业术语这种事儿译员更希望机器辅助做完。

另外,一个在译员圈公认的事实是:绝大多数译员在做同传时并不能将发言人的全部信息传递出来。而这个事实却很难被公众接受,你既然不能把全部信息传达出来,信息还原度低于100%,那么为什么我还要付给你那么多钱?如果说“笔译”是一项充满遗憾的艺术,那“口译”是怎样的艺术呢?

还有,很多人会误以为坐在谈判桌上提供翻译服务的“交替传译员”也是“同传”,我听很多译员讲,做交替传译比做同声传译要更紧张,交替传译反而更难做。

除了上面这些,还有很多很多各种关于人类翻译水平天花板的现实。只要人类还需要跨语言沟通,就会需要翻译服务,只要有人需要翻译服务就会存在提供翻译服务的人员之间的竞争。我们如何能够在更短的时间内突破人类生理的局限更快速学习翻译、提供更好的翻译服务,这应该是每一个人类译员都应该思考并去践行的问题。

在我看来,“拥抱技术、探索技术、应用技术”是一个必然的过程。我相信会有越来越多的人开始探索现有技术应用的最佳实践,并广而告之。微信当年是如何普及到我们生活的每一个缝隙的,人工智能接下来就会如何融入到同传服务的每一个流程。

建议“从事翻译教育的高校教师和教学指导委员会”应该做的事

“跨学科”、“跨学科”、“跨学科”!

在大学工作了将近四年后,我算是非常清楚得知道了大学老师的工作状态,所以我不建议也不愿意看到如今33岁以上的从事翻译教育的高校教师还去学什么机器翻译技术,所谓“术语也专攻”,目前这个群体的老师是难以在没有任何数学基础、计算机基础的情况下去接触一个新的学科,但这个群体的老师是完全可以与其他学科(尤其是计算语言学、机器翻译、自然语言处理、人工智能等背景的22岁以上)的学生、工程师或学者一起开展项目合作,联合推动“翻译教育技术”的研究(关于翻译教育技术:论“翻译教育技术”)。

尤其要注意的是,“学习如何使用计算机辅助翻译软件”和“跨学科”是两码事儿。

至于33岁以下的老师嘛,能多学一点技术就多学一点技术,此时还不晚。

唯有如此,从事翻译教育的高校教师才能有更广阔的视野,给学生指引更正确的方向。

对于教学指导委员会的专家们,哎,不知道该建议啥。反正你们也不会看我这篇文章。


结语


空谈误国,实干兴邦。

实践是检验真理的唯一标准。

撸起袖子加油干。 查看全部
背景

2018年3月22日-23日,北京语言大学

翻译自动化用户协会亚洲峰会(TAUS Asia Conference)采用了微软公司开发的名为“Presentation Translator”的PowerPoint插件为参会者提供了实时口语翻译服务,技术本身令人称赞,翻译结果却令人唏嘘。

参考:刘和平、韩林涛: 下“机器翻译替代人类”结论为时尚早

http://opinion.huanqiu.com/cul ... .html

2018年4月09-10日,鳌博亚洲论坛

“为鳌博亚洲论坛提供翻译服务的,正是由Tencent公司推出的人工智能同声传译解决方案'Tencent同传',也是2018鳌博亚洲论坛官方采用的首家AI同传技术展示合作方。'Tencent同传'由Tencent翻译君联合微信智聆共同打造, 将为论坛开幕式及部分论坛提供现场同传服务,包括会议现场投屏、小程序查看、语音收听、会议纪要回放等。这是鳌博亚洲论坛首次尝试使用AI机器同传技术。”

来源:

《未来已来  人工智能翻译首次亮相鳌博亚洲论坛》

http://tech.qq.com/a/20180409/015861.htm

比起3月份的TAUS会议,这次Tencent的技术服务可谓相当到位,从目前看到的新闻可知:

微软还仅限于基于PowerPoint提供同传服务,而Tencent则可以直接为自由发言的多人论坛提供同传服务,可以说Tencent的肌肉秀得更漂亮;

微软基于网页和“微软翻译APP”提供同传服务,而Tencent则通过微信小程序就能快速提供,的确是更懂中国人;

微软的“Presentation Translator”是任何一个人都可以下载使用的,而Tencent应该是专为鳌博论坛定制了一套机器同传系统。

相比之下,Tencent同传的技术服务更到位,技术同样令人称赞,但翻译结果依然令人唏嘘。

正文

我和刘和平老师之所以选择在“环球网”发那篇署名的文章,并不是在冷嘲热讽机器翻译,更不是站在AI的对立面,代表人类向机器宣战。我本人是研究计算机辅助翻译的,刘和平老师是口译界最早(而且始终、一直、不断、持续)呼吁“拥抱技术”的资深口译专业教授,我们都看好技术的发展。

但是,我们最担心的是机器翻译的开发者、机器翻译研发团队的写手、互联网媒体记者、自媒体小编一次又一次突破底线得宣称自己的机器翻译技术水平已经超越人类。这对整个翻译行业(语言服务行业)而言是致命的打击!!有潜力的优秀学子将不再考虑报考翻译专业!!

具体可参见我写的:人工智能时代传统翻译教育的危机

2018年3月和4月分别出现的两起“机器翻译翻车事故”给搞机器翻译技术落地的团队泼了两瓢冷水,同时也让不少学生译员和职业译员感受到了真正的冲击。

但昨天的事儿已经成为历史,今天我们要思考的是明天我们要做什么。这里的“我们”是指“搞机器翻译技术落地的团队”、“学生译员和职业译员”以及“从事翻译教育的高校教师和教学指导委员会”。

诸位,如今我们不需要写公关稿去洗地,也不需要再发什么截图去冷嘲热讽,这一页得翻过去了,嘴炮打完后就得继续撸起袖子加油干了。

建议“搞机器翻译技术落地的团队”做的事

我是研究计算机辅助翻译的,说白了就是研究怎么使用各种各样的计算机技术和工具来帮助学翻译做翻译的人提高翻译效率和质量,这与“机器翻译”是两码事儿。我会教学生怎么在做笔译的专业软件中嵌入不同的机器翻译引擎,但不会详细讲解机器翻译的原理,学翻译的同学和做翻译的职业译者不需要自己去搭建神经机器翻译系统。对我而言,“翻译”是一种“服务”,而“服务”是全过程的,不仅仅只关注结果。

从这个角度来说,“搞机器翻译技术落地的团队”也不应该只关注机器翻译的质量,既然是搞技术落地,就需要根据场景进行适应性的技术调整,把软件技术和硬件技术结合在一起去做落地。

比如说,无论是3月份的TAUS还是4月份的鳌博,影响机器翻译结果的很大一部分原因是源语言的语音识别效果。TAUS的会议是个人发言式的,鳌博的会是多人论坛式的,后者的场景更为复杂;TAUS的会议是提前训练过发言人的发言内容的,但没有提前训练发言人的语音,而鳌博的会似乎也没有提前训练发言人的语音,也没有拿到发言稿。所以鳌博的会对语音识别的挑战更大。可是,站得多高,跌下来就有多疼。越是复杂的场景,越应该准备好备用方案(Tencent同传的备用方案应该是“人”......而不是其他的技术方案)。

也许下一步,为了提高语音识别的效果,Tencent会在硬件上下些功夫,为大会提供他们自己研发的“Tencent话筒”、“Tencent耳麦”、“Tencent同传接收机”、“Tencent红外发射机”......,提前设置好哪位演讲人说什么样的语言,或者通过统一的软件平台预设每个话筒的发言语言,外加现在已有的语言识别技术,这样就不会出现因为语言识别错误而导致翻译错误了。

也许下一步,Tencent可以选择收购“博世”(BOSCH)、“泰利维克”(Telivic)这样的同传设备供应商,直接基于他们现有的同传设备硬件技术来嵌入他们的同传技术。虽然微软推出“Presentation Translator”已经很久了,但是职业译员在做会时之所以一直没有用上,根本原因是这玩意必须主办方来安装,译员唯一接收声音的地方是自己的耳机,而耳机的声音很难再转到另一个做语音识别的设备或软件中。如果在硬件上下些功夫......

也许下一步,Tencent可以和国内的几大高翻学院合作培养口译背景的学生来做产品经理,或者和研究(且真懂)计算机辅助口译的口译专业(做得好且教得好的)教师一起推动Tencent同传在真实同传场景下的应用,推出一些实用的“计算机辅助口译”系统。

也许下一步,Tencent只需要多拿出几千万、多招几位工程师和产品经理就能在现有的技术基础上实现进一步的飞跃。

我个人觉得,Tencent同传现在什么都不缺,迈向下一个高峰前只需要更多的钱、更多的人和更多的实战经验。如果说现在真缺什么,那缺的应该是“SDL Trados”这类计算机辅助翻译工具的“曲径通幽”的态度,他们从不说自己要“替代”什么,只说自己怎么“辅助”。

用温水才能煮得了青蛙。

建议“学生译员和职业译员”现在应该做的事

在“计算机辅助口译”这个话题上,我听到很多学生译员和职业译员都说,译员的精力是有限的,像记数字、记专业术语这种事儿译员更希望机器辅助做完。

另外,一个在译员圈公认的事实是:绝大多数译员在做同传时并不能将发言人的全部信息传递出来。而这个事实却很难被公众接受,你既然不能把全部信息传达出来,信息还原度低于100%,那么为什么我还要付给你那么多钱?如果说“笔译”是一项充满遗憾的艺术,那“口译”是怎样的艺术呢?

还有,很多人会误以为坐在谈判桌上提供翻译服务的“交替传译员”也是“同传”,我听很多译员讲,做交替传译比做同声传译要更紧张,交替传译反而更难做。

除了上面这些,还有很多很多各种关于人类翻译水平天花板的现实。只要人类还需要跨语言沟通,就会需要翻译服务,只要有人需要翻译服务就会存在提供翻译服务的人员之间的竞争。我们如何能够在更短的时间内突破人类生理的局限更快速学习翻译、提供更好的翻译服务,这应该是每一个人类译员都应该思考并去践行的问题。

在我看来,“拥抱技术、探索技术、应用技术”是一个必然的过程。我相信会有越来越多的人开始探索现有技术应用的最佳实践,并广而告之。微信当年是如何普及到我们生活的每一个缝隙的,人工智能接下来就会如何融入到同传服务的每一个流程。

建议“从事翻译教育的高校教师和教学指导委员会”应该做的事

“跨学科”、“跨学科”、“跨学科”!

在大学工作了将近四年后,我算是非常清楚得知道了大学老师的工作状态,所以我不建议也不愿意看到如今33岁以上的从事翻译教育的高校教师还去学什么机器翻译技术,所谓“术语也专攻”,目前这个群体的老师是难以在没有任何数学基础、计算机基础的情况下去接触一个新的学科,但这个群体的老师是完全可以与其他学科(尤其是计算语言学、机器翻译、自然语言处理、人工智能等背景的22岁以上)的学生、工程师或学者一起开展项目合作,联合推动“翻译教育技术”的研究(关于翻译教育技术:论“翻译教育技术”)。

尤其要注意的是,“学习如何使用计算机辅助翻译软件”和“跨学科”是两码事儿。

至于33岁以下的老师嘛,能多学一点技术就多学一点技术,此时还不晚。

唯有如此,从事翻译教育的高校教师才能有更广阔的视野,给学生指引更正确的方向。

对于教学指导委员会的专家们,哎,不知道该建议啥。反正你们也不会看我这篇文章。


结语


空谈误国,实干兴邦。

实践是检验真理的唯一标准。

撸起袖子加油干。

你也想代表人类挑战微软的实时口语机器翻译系统吗?

韩林涛 发表了文章 • 0 个评论 • 356 次浏览 • 2018-03-29 16:05 • 来自相关话题

背景

3月22-23日,北京语言大学举办了“翻译自动化协会(TAUS)亚洲峰会”,现场提供了两种同声传译服务:人工同传和机器同传。

1、人工同传:北京语言大学高级翻译学院英语口译专业研二的四位同学

四位同学坐在会场二层的同传箱中为现场的观众提供同传服务,现场观众通过手中的同传设备收听他们的口译结果。

下图是其中一位译员朱乾坤同学从同传箱中拍摄的照片:







2、机器同传:微软公司提供的实时机器翻译

微软公司早些时候向公众发布了名为“Presentation Translator”的Microsoft PowerPoint插件,安装后可以为正在播放的PPT提供实时字幕,配合手机上的“微软翻译”APP可以收听机器合成的多个国家语言的译文语音。

下图是现场演讲人发言时PPT下方实时出现的语音识别结果:






下图是手机上看到的机器翻译结果,带上耳机后能在会场清晰听到机器合成的声音:






经过两天的会议,大家普遍的感觉是:目前的机器翻译质量还远远达不到“替代人类译者”的效果,但这种形式背后的技术还是让人极为称赞的。假以时日,这套系统如果能够精准识别不同环境下不同演讲人的内容和形式都极为复杂的发言,那么那时机器翻译的质量应当能够达到令人满意的程度。

现在这套机器翻译系统(以及所有同类型的系统)似乎最大的问题是无法识别语义。

会后,译员朱乾坤同学给高翻学院名誉院长刘和平教授发了一封邮件,内容发布在了刘老师的微信公众号上,大家可以点击查看他的思考:

机器翻译将代替人?一位口译硕士生的回答......

如何体验这套微软的机器翻译系统?

为了方便所有人都能体验到这套系统,我录制了一个长视频(约19分钟),详细介绍了:

1、如何在自己的电脑上安装微软提供的插件

2、如何基于这个插件训练PPT中的文本数据以提高语音识别效果

3、如何在演讲时获得实时机器翻译的结果

4、如何在手机上收听机器翻译的实时语音合成结果

如果你也想体验这套系统,请耐心观看完这个视频,再去尝试。欢迎大家在尝试完后在下方留言告诉我你的感受。

视频链接:https://v.qq.com/x/page/i0613g9j1an.html

视频: 查看全部
背景

3月22-23日,北京语言大学举办了“翻译自动化协会(TAUS)亚洲峰会”,现场提供了两种同声传译服务:人工同传和机器同传。

1、人工同传:北京语言大学高级翻译学院英语口译专业研二的四位同学

四位同学坐在会场二层的同传箱中为现场的观众提供同传服务,现场观众通过手中的同传设备收听他们的口译结果。

下图是其中一位译员朱乾坤同学从同传箱中拍摄的照片:

微信图片_20180325171211.jpg



2、机器同传:微软公司提供的实时机器翻译

微软公司早些时候向公众发布了名为“Presentation Translator”的Microsoft PowerPoint插件,安装后可以为正在播放的PPT提供实时字幕,配合手机上的“微软翻译”APP可以收听机器合成的多个国家语言的译文语音。

下图是现场演讲人发言时PPT下方实时出现的语音识别结果:

DSC00372.JPG


下图是手机上看到的机器翻译结果,带上耳机后能在会场清晰听到机器合成的声音:

test.jpg


经过两天的会议,大家普遍的感觉是:目前的机器翻译质量还远远达不到“替代人类译者”的效果,但这种形式背后的技术还是让人极为称赞的。假以时日,这套系统如果能够精准识别不同环境下不同演讲人的内容和形式都极为复杂的发言,那么那时机器翻译的质量应当能够达到令人满意的程度。

现在这套机器翻译系统(以及所有同类型的系统)似乎最大的问题是无法识别语义。

会后,译员朱乾坤同学给高翻学院名誉院长刘和平教授发了一封邮件,内容发布在了刘老师的微信公众号上,大家可以点击查看他的思考:

机器翻译将代替人?一位口译硕士生的回答......

如何体验这套微软的机器翻译系统?

为了方便所有人都能体验到这套系统,我录制了一个长视频(约19分钟),详细介绍了:

1、如何在自己的电脑上安装微软提供的插件

2、如何基于这个插件训练PPT中的文本数据以提高语音识别效果

3、如何在演讲时获得实时机器翻译的结果

4、如何在手机上收听机器翻译的实时语音合成结果

如果你也想体验这套系统,请耐心观看完这个视频,再去尝试。欢迎大家在尝试完后在下方留言告诉我你的感受。

视频链接:https://v.qq.com/x/page/i0613g9j1an.html

视频:


“谜一样的新技术”与“自甘堕落的老行业”:TAUS最新翻译行业报告读后感

韩林涛 发表了文章 • 0 个评论 • 321 次浏览 • 2018-03-29 15:59 • 来自相关话题

前言

12月13日,位于荷兰阿姆斯特丹的翻译自动化用户协会(TAUS)发布了最新的翻译行业报告,题目是《Nunc est Tempus: Redesign your translation business, now!》

“Nunc est Tempus”是拉丁语,译成英文是“Now is the time”,中文可译成“时机已到”。后半部分可译为“即刻重塑你的翻译业务”。

在TAUS发给所有会员的邮件中,这样描述这份报告:“the most daring ebook in the history of TAUS, a veritable industry event more than anything”,可见TAUS自己如何重视这份报告。

作为TAUS在中国的代表,我第一时间就看到了这份报告,看完后有很多感想,整理了一下写在这里。我今天这篇文章主要围绕报告第二章的六个话题,将我在看完后的一些真实的想法结合我对中国的翻译行业的观察记录下来,希望对正在学翻译的学生和正在教翻译的老师提供一些参考。至于翻译行业的从业者,尤其是翻译公司的管理人员,我建议去购买这份报告,仔细读一下全部的内容。

正文

我这篇读后感的题目叫:“谜一样的新技术”与“自甘堕落的老行业”。后面一部分非常激进,我想表达的确实是一种我站在外围对这个由传统翻译公司构成的翻译行业的最直接的态度,我觉得传统的翻译公司应当思考如何转型,并且付诸实际行动,否则命不久矣。

同时,我也在这里建议,优秀的翻译专业学生毕业后暂时不要考虑前往传统的翻译公司,而是去那些能让你的语言服务价值得到认可并能使之持续提升的企业。我所谓的“传统的翻译公司”是指还没有在工作流程中的方方面面进行技术升级换代的翻译公司。

我也建议各位即将报考翻译专业的大学生,在择校前要看清楚你报考的那所学校的翻译专业是否已经或正在推动技术与翻译教学、翻译实践、翻译研究等的结合,如果还没有请慎重考虑,否则研究生的两年里即便你能拿到梦想的“研究生帽子”,也无法在接下来5-10年的职业快速发展期得到升华。

我接下来尽量少说废话,把我的思考直接说出来。每一点都对应报告第二章的的一节。

一、开源算法越来越多,行业内却无人能用

“开源技术”(Open Source)是一种免费的开放技术。如果你想做一个多语言的公司网站,但又没有钱找人开发,那么可以去网上找别人开放了源代码的程序,下载下来安装在自己的服务器上,就可以上线运营了。

同样的,如果你想拥有自己的“谷歌翻译”、“百度翻译”,你也可以自己去网上下载谷歌等大企业免费共享的机器翻译引擎源代码。

这两年来,各种开源技术层出不穷,但是,行业里竟然没有几家翻译公司能在自己的服务器上搭建机器翻译引擎来训练自己的机器翻译系统。原因很简单,翻译公司一般没有自己的技术支持团队,即便有也没有机器翻译技术背景,所以免费的技术摆在面前也无法使用,只能求助懂得搭建开源机器翻译系统的高校科研团队。

但大部分翻译公司又发现他们的服务很贵,而且还不是一次性的服务,开源技术在使用过程中如果没有长期的技术支持,一旦出了问题就无法修复。很多翻译公司还不愿意将自己手里的双语数据交给陌生人。

对于翻译公司的管理人员而言,不论参加多少场神经机器翻译的讲习班,始终都觉得“神经机器翻译技术”是谜一样的技术,大致了解,但无法加以使用。

二、劳动力驱动的行业在转变成数据驱动的过程中坐吃山空

上帝毁掉巴别塔阻止人们相互沟通,那每一个人都希望语言互通吗?

翻译行业本是一个劳动力驱动的行业,有些翻译公司可以没有一个译者,但什么业务都敢接,因为业务拿到手了再全世界到处找人都来得及。有时候低价接的业务再低价给译者,因为他们业务的上游就不是什么高质量的客户。

机器翻译技术的发展让许多翻译公司也意识到机器翻译的质量比他们招聘的不少译者的质量的还要好,从排斥机器翻译到接受机器翻译。于是有人告诉翻译公司,把你们手里的“数据”拿出来,不但可以卖钱,还可以进一步提升机器翻译的质量。

从机器翻译技术起步的时候开始,技术人员就从许多机构内部获取了高质量的成熟的双语或多语语料,这些来源包括联合国、欧洲议会等语言服务的需求方(甲方),他们付钱购买语言服务,自然也拥有语言服务的产品。

除了欧洲议会这种政府背景的甲方外,还有许多商业公司作为甲方,手中也有许多成熟的语料,比如许多IT公司,在将产品卖到全世界的同时也购买了许多翻译服务来帮助他们更好的国际化,这也就是“本地化”的起源。

当机器翻译技术人员掏空了政府和商业公司的语料后,就开始通过“爬虫”来下载互联网上公开的双语或多语信息,比如网站信息、文档内容等。

等互联网的语言数据被榨干后,又有人打起了翻译公司、学校和个人的主意。比如我们国内有UTH、TMXmall、语言大数据联盟等企业和组织,尽最大程度从不同渠道购买数据、分享数据、清洗数据和过滤数据。

有些翻译公司手里的数据最开始就没有做好共享的准备,都在各种类型的文档中杂乱的存储,在共享的过程中就付出了很多精力来清洗数据,比如把PDF、图片转换成Word再进行句句对齐。有些翻译公司动作太晚,采购方有一套比对数据是否已经存在的流程,一对比发现不少翻译公司提供的数据早就有人提供了,这样的数据自然就买不上好价钱。

当翻译公司因为没有技术实力让自己手中的价值升值而卖出自己的数据给数据交易公司时,就已经走上了坐吃山空的道路。

三、翻译公司在翻译行业技术升级的过程中一败再败

中国的翻译行业升级换代过程非常缓慢,直接体现就是在翻译行业提供技术服务的公司发展缓慢。许多技术公司意识到翻译公司要使用计算机辅助翻译技术,于是向他们卖国外的现成产品,但翻译公司更喜欢用免费的单机盗版软件,一直不购买服务器版的更为强大的正版计算机辅助翻译软件。像SDL Trados这样的计算机辅助翻译工具在中国的翻译公司身上是赚不到钱的。

而计算机辅助翻译软件也在发生着从桌面端到云端的技术变革,国内外出现了大量的在浏览器里就能使用的计算机辅助翻译工具。但不少翻译公司依然拒绝这种变革,其中一个理由就是,不愿意将自己的数据放在别人的服务器上。最保险的还是自己电脑上装的盗版软件。

而当技术公司看准机器翻译技术的发展契机,开始向翻译公司提供定制机器翻译服务时,翻译公司依然因为缺钱和群心眼,无法接受定制机器翻译服务。

在这样的发展过程中,翻译公司的技术升级缓慢推进,而技术公司则看清了这些抠门的家伙,不再视他们为目标客户。既然赚不到你们的钱,要么忽视你们,要么就消灭你们。于是,一场从翻译行业上游发起的技术革命正在悄然开始。

这场“甲方翻译技术革命”是从两个方面展开的,一方面是向甲方提供节省翻译服务成本的方案,另一方面就是培养甲方,在高校里培养离不开翻译技术的翻译专业学生。

这场革命还在悄悄进行中,而且中国这么大,需要翻译服务的客户群体那么大,优秀学生的培养速度又跟不上,革命能否成功还无法预料。

可以预见的是,与“翻译”相关的衍生服务将会越来越多,原本与翻译没有关系的公司也来提供翻译服务,原本需要翻译公司介入的流程现在都在“去中间化”,互联网让翻译服务变得像水电一样随处可得,翻译服务的需求方通过技术手段可以跳过翻译公司直接获取个人的翻译服务。在中国这样的环境下,这个进程只会加速,不会衰减。

技术要替代的不是翻译服务,也许是传统的翻译公司。

四、语音翻译和语音控制让翻译服务与大众生活融入在一起

我已经不止一次用语音控制的方法来设置手机闹钟,我享受这种不用动手就能实现目的的过程。无论是国外的谷歌、微软,还是国内的百度、搜狗、腾讯,都在推动口语翻译技术的发展。

我曾经这样说,他们的目的也许并不是替代同声传译员,而是让用户可以用语音的方式与这个世界交互,用语音控制设备。

如今很多人开始使用跨语言检索的方式来浏览国外的网站,他们搜的是中文,看到的是中文,因为搜到的外文信息已经在后台转换成了中文。你能搜到的东西越多,就越想去搜索,你的搜索次数越多看到的广告也就越多,搜索引擎的广告服务就越赚钱。

当机器翻译可以把你输入的文字精准转换成另一个语言时,机器就可以把任何外文通过机器翻译转换成机器可以“看懂”的指令。机器翻译服务隐藏了后台,你可以用语音跟硬件设备(比如机器人?)交互。外国人不用学中文也可以控制中国制造的智能家居,这是不是很让人兴奋的一件事?

搞机器翻译的不需要知道文学文本如何翻译,这与他们的商业目的和最终目标没有关系,他们在乎的是在商业的世界机器翻译如何发挥更大的价值。专业的口笔译员压根没有入人家的法眼,不过是机器翻译技术发展过程中的陪跑者而已,到了终点就只剩全场的聚光灯了,没有人会去关注陪跑的人。

五、与中文有关的翻译服务和中国市场将不断升值

这部分我没有什么想说的。全世界的人都想赚中国人的钱,中国人也想把自己的产品卖到全世界。大家只需要知道:与中文相关的翻译服务将会不断产生新的价值。在这个过程中,翻译公司的作用将会不断被更多不同类型的商业服务所替代。传统的翻译公司还能在中国市场存活下去,但没有大钱可赚。包括翻译在内的高级语言服务将更有价值。

六、要深入挖掘数据中的洞见

翻译服务的上游是“数据”,下游也是“数据”。大部分的翻译公司单纯傻傻的输入数据输出数据,而不提供对数据的解读。咨询公司需要翻译服务、律师事务所需要翻译服务、公关公司需要翻译服务,但他们比翻译公司更能赚钱,原因就是他们能够从翻译完之后的数据中获取更多洞见,为客户提供更多价值,从而赚更多的钱。

如果你现在正在学习的是如何做翻译,那么你更应该学习的是如何在技术的辅助下快速做完翻译,然后在技术的帮助下更好的理解你产出的文本,从中发现更多的价值。

结语

写到这里,我把我看完TAUS报告的大部分所思所想都记录了下来。需要说明的是,这些不是报告里的内容,只是读完报告后瞎想的内容。

看完这个报告后,我给这篇文章起了一个耸人听闻的题目,这实际上是我对当今的翻译行业和翻译教育行业的担忧。因为,目前,这个行业给优秀技术人员的进入和先进技术的融合制造了很大很大的困难。“技术”对这个行业的人来说,永远是个看不透的“谜”。如果一个行业不从内向外突围,就只能被人从外到内侵蚀。

这个行业相当不缺“会说”的人,但万分欠缺“能做”的人。我的这些话只能写给还没有进入这个行业的学生们,因为只有你们开始改变,未来才会充满惊喜。 查看全部
前言

12月13日,位于荷兰阿姆斯特丹的翻译自动化用户协会(TAUS)发布了最新的翻译行业报告,题目是《Nunc est Tempus: Redesign your translation business, now!》

“Nunc est Tempus”是拉丁语,译成英文是“Now is the time”,中文可译成“时机已到”。后半部分可译为“即刻重塑你的翻译业务”。

在TAUS发给所有会员的邮件中,这样描述这份报告:“the most daring ebook in the history of TAUS, a veritable industry event more than anything”,可见TAUS自己如何重视这份报告。

作为TAUS在中国的代表,我第一时间就看到了这份报告,看完后有很多感想,整理了一下写在这里。我今天这篇文章主要围绕报告第二章的六个话题,将我在看完后的一些真实的想法结合我对中国的翻译行业的观察记录下来,希望对正在学翻译的学生和正在教翻译的老师提供一些参考。至于翻译行业的从业者,尤其是翻译公司的管理人员,我建议去购买这份报告,仔细读一下全部的内容。

正文

我这篇读后感的题目叫:“谜一样的新技术”与“自甘堕落的老行业”。后面一部分非常激进,我想表达的确实是一种我站在外围对这个由传统翻译公司构成的翻译行业的最直接的态度,我觉得传统的翻译公司应当思考如何转型,并且付诸实际行动,否则命不久矣。

同时,我也在这里建议,优秀的翻译专业学生毕业后暂时不要考虑前往传统的翻译公司,而是去那些能让你的语言服务价值得到认可并能使之持续提升的企业。我所谓的“传统的翻译公司”是指还没有在工作流程中的方方面面进行技术升级换代的翻译公司。

我也建议各位即将报考翻译专业的大学生,在择校前要看清楚你报考的那所学校的翻译专业是否已经或正在推动技术与翻译教学、翻译实践、翻译研究等的结合,如果还没有请慎重考虑,否则研究生的两年里即便你能拿到梦想的“研究生帽子”,也无法在接下来5-10年的职业快速发展期得到升华。

我接下来尽量少说废话,把我的思考直接说出来。每一点都对应报告第二章的的一节。

一、开源算法越来越多,行业内却无人能用

“开源技术”(Open Source)是一种免费的开放技术。如果你想做一个多语言的公司网站,但又没有钱找人开发,那么可以去网上找别人开放了源代码的程序,下载下来安装在自己的服务器上,就可以上线运营了。

同样的,如果你想拥有自己的“谷歌翻译”、“百度翻译”,你也可以自己去网上下载谷歌等大企业免费共享的机器翻译引擎源代码。

这两年来,各种开源技术层出不穷,但是,行业里竟然没有几家翻译公司能在自己的服务器上搭建机器翻译引擎来训练自己的机器翻译系统。原因很简单,翻译公司一般没有自己的技术支持团队,即便有也没有机器翻译技术背景,所以免费的技术摆在面前也无法使用,只能求助懂得搭建开源机器翻译系统的高校科研团队。

但大部分翻译公司又发现他们的服务很贵,而且还不是一次性的服务,开源技术在使用过程中如果没有长期的技术支持,一旦出了问题就无法修复。很多翻译公司还不愿意将自己手里的双语数据交给陌生人。

对于翻译公司的管理人员而言,不论参加多少场神经机器翻译的讲习班,始终都觉得“神经机器翻译技术”是谜一样的技术,大致了解,但无法加以使用。

二、劳动力驱动的行业在转变成数据驱动的过程中坐吃山空

上帝毁掉巴别塔阻止人们相互沟通,那每一个人都希望语言互通吗?

翻译行业本是一个劳动力驱动的行业,有些翻译公司可以没有一个译者,但什么业务都敢接,因为业务拿到手了再全世界到处找人都来得及。有时候低价接的业务再低价给译者,因为他们业务的上游就不是什么高质量的客户。

机器翻译技术的发展让许多翻译公司也意识到机器翻译的质量比他们招聘的不少译者的质量的还要好,从排斥机器翻译到接受机器翻译。于是有人告诉翻译公司,把你们手里的“数据”拿出来,不但可以卖钱,还可以进一步提升机器翻译的质量。

从机器翻译技术起步的时候开始,技术人员就从许多机构内部获取了高质量的成熟的双语或多语语料,这些来源包括联合国、欧洲议会等语言服务的需求方(甲方),他们付钱购买语言服务,自然也拥有语言服务的产品。

除了欧洲议会这种政府背景的甲方外,还有许多商业公司作为甲方,手中也有许多成熟的语料,比如许多IT公司,在将产品卖到全世界的同时也购买了许多翻译服务来帮助他们更好的国际化,这也就是“本地化”的起源。

当机器翻译技术人员掏空了政府和商业公司的语料后,就开始通过“爬虫”来下载互联网上公开的双语或多语信息,比如网站信息、文档内容等。

等互联网的语言数据被榨干后,又有人打起了翻译公司、学校和个人的主意。比如我们国内有UTH、TMXmall、语言大数据联盟等企业和组织,尽最大程度从不同渠道购买数据、分享数据、清洗数据和过滤数据。

有些翻译公司手里的数据最开始就没有做好共享的准备,都在各种类型的文档中杂乱的存储,在共享的过程中就付出了很多精力来清洗数据,比如把PDF、图片转换成Word再进行句句对齐。有些翻译公司动作太晚,采购方有一套比对数据是否已经存在的流程,一对比发现不少翻译公司提供的数据早就有人提供了,这样的数据自然就买不上好价钱。

当翻译公司因为没有技术实力让自己手中的价值升值而卖出自己的数据给数据交易公司时,就已经走上了坐吃山空的道路。

三、翻译公司在翻译行业技术升级的过程中一败再败

中国的翻译行业升级换代过程非常缓慢,直接体现就是在翻译行业提供技术服务的公司发展缓慢。许多技术公司意识到翻译公司要使用计算机辅助翻译技术,于是向他们卖国外的现成产品,但翻译公司更喜欢用免费的单机盗版软件,一直不购买服务器版的更为强大的正版计算机辅助翻译软件。像SDL Trados这样的计算机辅助翻译工具在中国的翻译公司身上是赚不到钱的。

而计算机辅助翻译软件也在发生着从桌面端到云端的技术变革,国内外出现了大量的在浏览器里就能使用的计算机辅助翻译工具。但不少翻译公司依然拒绝这种变革,其中一个理由就是,不愿意将自己的数据放在别人的服务器上。最保险的还是自己电脑上装的盗版软件。

而当技术公司看准机器翻译技术的发展契机,开始向翻译公司提供定制机器翻译服务时,翻译公司依然因为缺钱和群心眼,无法接受定制机器翻译服务。

在这样的发展过程中,翻译公司的技术升级缓慢推进,而技术公司则看清了这些抠门的家伙,不再视他们为目标客户。既然赚不到你们的钱,要么忽视你们,要么就消灭你们。于是,一场从翻译行业上游发起的技术革命正在悄然开始。

这场“甲方翻译技术革命”是从两个方面展开的,一方面是向甲方提供节省翻译服务成本的方案,另一方面就是培养甲方,在高校里培养离不开翻译技术的翻译专业学生。

这场革命还在悄悄进行中,而且中国这么大,需要翻译服务的客户群体那么大,优秀学生的培养速度又跟不上,革命能否成功还无法预料。

可以预见的是,与“翻译”相关的衍生服务将会越来越多,原本与翻译没有关系的公司也来提供翻译服务,原本需要翻译公司介入的流程现在都在“去中间化”,互联网让翻译服务变得像水电一样随处可得,翻译服务的需求方通过技术手段可以跳过翻译公司直接获取个人的翻译服务。在中国这样的环境下,这个进程只会加速,不会衰减。

技术要替代的不是翻译服务,也许是传统的翻译公司。

四、语音翻译和语音控制让翻译服务与大众生活融入在一起

我已经不止一次用语音控制的方法来设置手机闹钟,我享受这种不用动手就能实现目的的过程。无论是国外的谷歌、微软,还是国内的百度、搜狗、腾讯,都在推动口语翻译技术的发展。

我曾经这样说,他们的目的也许并不是替代同声传译员,而是让用户可以用语音的方式与这个世界交互,用语音控制设备。

如今很多人开始使用跨语言检索的方式来浏览国外的网站,他们搜的是中文,看到的是中文,因为搜到的外文信息已经在后台转换成了中文。你能搜到的东西越多,就越想去搜索,你的搜索次数越多看到的广告也就越多,搜索引擎的广告服务就越赚钱。

当机器翻译可以把你输入的文字精准转换成另一个语言时,机器就可以把任何外文通过机器翻译转换成机器可以“看懂”的指令。机器翻译服务隐藏了后台,你可以用语音跟硬件设备(比如机器人?)交互。外国人不用学中文也可以控制中国制造的智能家居,这是不是很让人兴奋的一件事?

搞机器翻译的不需要知道文学文本如何翻译,这与他们的商业目的和最终目标没有关系,他们在乎的是在商业的世界机器翻译如何发挥更大的价值。专业的口笔译员压根没有入人家的法眼,不过是机器翻译技术发展过程中的陪跑者而已,到了终点就只剩全场的聚光灯了,没有人会去关注陪跑的人。

五、与中文有关的翻译服务和中国市场将不断升值

这部分我没有什么想说的。全世界的人都想赚中国人的钱,中国人也想把自己的产品卖到全世界。大家只需要知道:与中文相关的翻译服务将会不断产生新的价值。在这个过程中,翻译公司的作用将会不断被更多不同类型的商业服务所替代。传统的翻译公司还能在中国市场存活下去,但没有大钱可赚。包括翻译在内的高级语言服务将更有价值。

六、要深入挖掘数据中的洞见

翻译服务的上游是“数据”,下游也是“数据”。大部分的翻译公司单纯傻傻的输入数据输出数据,而不提供对数据的解读。咨询公司需要翻译服务、律师事务所需要翻译服务、公关公司需要翻译服务,但他们比翻译公司更能赚钱,原因就是他们能够从翻译完之后的数据中获取更多洞见,为客户提供更多价值,从而赚更多的钱。

如果你现在正在学习的是如何做翻译,那么你更应该学习的是如何在技术的辅助下快速做完翻译,然后在技术的帮助下更好的理解你产出的文本,从中发现更多的价值。

结语

写到这里,我把我看完TAUS报告的大部分所思所想都记录了下来。需要说明的是,这些不是报告里的内容,只是读完报告后瞎想的内容。

看完这个报告后,我给这篇文章起了一个耸人听闻的题目,这实际上是我对当今的翻译行业和翻译教育行业的担忧。因为,目前,这个行业给优秀技术人员的进入和先进技术的融合制造了很大很大的困难。“技术”对这个行业的人来说,永远是个看不透的“谜”。如果一个行业不从内向外突围,就只能被人从外到内侵蚀。

这个行业相当不缺“会说”的人,但万分欠缺“能做”的人。我的这些话只能写给还没有进入这个行业的学生们,因为只有你们开始改变,未来才会充满惊喜。

“译者”在人工智能时代扮演什么样的角色?

韩林涛 发表了文章 • 0 个评论 • 411 次浏览 • 2018-03-29 15:56 • 来自相关话题

背景

现代语音识别和自然语言处理研究的先驱、美国工程院院士Frederick Jelinek曾经有句名言:“Every time I fire a linguist, the performance of the speech recognizer goes up.”(我每开除一位语言学家,我的语言识别系统性能就会提升。)

人们有时候会误读这句话,认为在自然语言处理技术发展的进程中,语言专家的作用微乎其微,拯救世界的任务还得落在程序员身上。

我去专门查过Frederick Jelinek大牛的维基百科介绍,里面有段话很有意思(注意粗体加下划线的部分):

“Although its fame and iconic status are undisputed (it was for example used as the title of a 1998 speech by Julia Hirschberg), its context is unknown and its specific wording and dating are unclear. According to Daniel Jurafsky and James H. Martin, Jelinek himself recalled the quote as "Anytime a linguist leaves the group the recognition rate goes up" and dated it to December 1988 (Wayne, Pennsylvania), further noting that the quote did not appear in the published proceeding,[2][3] whereas Roger K. Moore gave the wording as "Every time we fire a phonetician/linguist, the performance of our system goes up" and dated it to an IEEE Automatic Speech Recognition and Understanding workshop held in 1985.[4] According to Steve Young, "the story goes that one day one of his linguists resigned, and Fred decided to replace him not by another linguist but by an engineer. A little while later, Fred noticed that the performance of his system improved significantly. So he encouraged another linguist to find alternative employment, and sure enough performance improved again."”

来源:https://en.wikipedia.org/wiki/ ... ote-6

思考

自然语言处理专家嘴边经常提及这句话,搞机器翻译技术的专家也时不时拿这句话调侃一下。如今很多机器翻译团队里并没有所谓的“语言学家”(Linguist),不需要任何语言学家就能搭建一套高效能的机器翻译程序,产出他们眼中高质量的机器翻译译文,发布令他们兴奋不已的成果。

而令他们兴奋不已的论文数据又会令媒体记者的双手颤抖不已,写下惊天地泣鬼神,令翻译人员闻字丧胆的热文。

但以下新闻引发了我的思考:

新闻一:

《谷歌:用算法和大数据“干掉”语言学家》

时间:2013年9月25日

摘要:

谷歌是一家极度看重算法、充满工程师文化的公司,但或许你还是会为此而感到惊奇——他们认为翻译是一个数学和统计学方面的问题。最近,位于谷歌总部的谷歌翻译团队正迅速扩张,他们新招了数名德国计算机科学家,但却没有招收一名语言学家。

来源:钛媒体 http://www.tmtpost.com/498825.html

新闻二:

《实现无监督学习?谷歌雇百名语言学家为训练数据“镀金”》

时间:2016年12月01日

摘要:

谷歌组织了一个由大量语言学博士组成团队,它把这支团队称为“Pygmalion”,使用这些语言学家人工筛选的数据来训练神经网络。实际上,谷歌的机器通过观察人类的做法来学习如何从长段落中提取相关答案,这个过程需要重复多遍,相当漫长。这些艰苦的努力同时证明了深度学习的能力和局限性。为了训练像这样的人工智能系统,需要大量的、由专业人士筛选过的数据。这些数据不容易得到,也不便宜,而且对这种数据的需求不会很快消失。

来源:新智元 https://mp.weixin.qq.com/s/AmLvehhPpTB-eoGFlXISSA

新闻三:

《特写 | 人工智能背后的人》

时间:2017年4月7日

摘要:

秦娇今年刚满 30 岁,几个月前刚刚从呼叫中心跳槽到一家「数据加工」公司。虽然跨了行业,她并不觉得两份工作有什么不同,都是按照甲方的要求和己方的工作节奏,把人手安排到一个又一个项目中去。

公司刚成立不到一年,眼下业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别等不同领域。

「数据加工」公司所在地距「大数据之城」贵阳五十多公里,是一座只接受科技公司入驻的「数字小镇」。

小镇的隔壁有一间规模不小的高职学校,学校的学生构成了这家公司目前主要的员工来源。高职学校初建的目的是教育扶贫,因此学生们大多来自贫困山区,学校会提供不少补助和奖学金。在数据加工公司兼职赚来的钱不仅足够生活,有些学生还会拿出一部分补贴家用。偶尔这份工作还能成为职业跳板,「我们的学生踏实又努力,有的去北京实习,因为熟悉标注工作、又认真,反馈回来说比同样实习的北京大学生强得多」。

除此之外,她们还可以承接小语种的语料收集工作。地处西南、临近东南亚,当地的人际关系链和频繁的商务交往能提供不少便利。

来源:机器之心 https://zhuanlan.zhihu.com/p/26181394

我不知道诸位读者看到这三条新闻后是什么样的感受?我的感受是这样的:

严格意义上来说,“语言学家”、“语言专家”、“语言学博士”与“翻译学家”、“翻译家”、“翻译专家”、“翻译学博士”是两个圈子的人。我如果说“我身边最牛的翻译根本不知道语言学是什么”,你信吗?我如果说“做翻译根本不需要语言学知识”,你信吗?我如果说“现在的翻译专业学生根本不需要《语言学》”,你信吗?

机器翻译研发团队之所以没有大牛翻译,并不是因为翻译人员没有作用,而是因为他们已经过气了,机器翻译研发团队手里拿来训练机器翻译程序的“语料/数据”是哪儿来的?还不是一堆他们并不知道名字的译者一个字一个字翻译出来的,但翻译完就完了,他们并不清楚自己的译文以后会起到什么作用,以为只是作为“作品”被陌生读者阅读罢了。

谷歌之所以又需要语言学博士来标注数据了,并不是因为他们的技术没有作用,而是因为他们手里的数据不够用了,需要由人来补充新的更高质量的数据。而机器翻译研发团队还没有开始招募“语言学博士”、“翻译学博士”,是因为人翻译的速度太慢了,价格又太贵了,短时间内提供的高质量的双语数据对机器翻译程序性能的提升并没有太大提升,而直接从第三方公司手中买廉价的双语数据或者自己写程序去抓取免费的双语数据则更划算一些。

标注数据这种工作跟富士康流水线上装配手机的工作一样,“恶心但必需”。“人工智能”时代,耗费多少“人工”,就有多么“智能”。

译者通常认为自己产出的“双语平行文本”没有什么用,但通过技术可以进一步挖掘双语平行文本中的诸多信息,比如双语术语、语义信息、句法信息等。那些年长的译者花几十年从双语文本中靠经验挖掘出来的“知识”可能远不及计算机程序几秒钟挖掘出来的的信息。

那人工智能时代,“译者”究竟扮演着什么样的角色?在我看来,只要世界不停转,译者就有翻译不完的文字,只要有翻译不完的文字就有赚不完的钱,所以译者的生存问题是不会受到影响的。

但,在今天的翻译行业生态环境下,“译者”也要顺应适者生存、优胜劣汰的法则,总有人因为不适应人工智能时代工作模式的变革而被淘汰,也总有人会在人工智能时代找到驾驭技术迎难而上的突破口。

人工智能时代,聪明的“译者”要做一个“变革者”,熟悉技术、拥抱技术、使用技术。但在这个过程中,译者其实处于非常弱势的位置,因为最终改变译者命运的不是译者自己,而是为译者提供技术服务的开发者。因此,聪明的“译者”还要做一个“合作者”,熟悉提供技术服务的人、使用他们提供的技术。

结语

人工智能时代,年轻一代译者的价值应当在两方面凸显,一方面是自身的翻译水平,另一方面是自身的技术认识。老一辈的译者可以在翻译水平方面引领年轻一代译者的发展,但不能冥顽不化,令年轻一代错失认识技术的良机。“技术”包罗万象,年轻一代译者并不需要样样精通,也绝无可能,需要有人引领年轻一代译者认识对其有价值的真技术。

作为年轻一代译者,被机器翻译专家开除并不可怕,可怕的是被翻译专家开除。 查看全部
背景

现代语音识别和自然语言处理研究的先驱、美国工程院院士Frederick Jelinek曾经有句名言:“Every time I fire a linguist, the performance of the speech recognizer goes up.”(我每开除一位语言学家,我的语言识别系统性能就会提升。)

人们有时候会误读这句话,认为在自然语言处理技术发展的进程中,语言专家的作用微乎其微,拯救世界的任务还得落在程序员身上。

我去专门查过Frederick Jelinek大牛的维基百科介绍,里面有段话很有意思(注意粗体加下划线的部分):

“Although its fame and iconic status are undisputed (it was for example used as the title of a 1998 speech by Julia Hirschberg), its context is unknown and its specific wording and dating are unclear. According to Daniel Jurafsky and James H. Martin, Jelinek himself recalled the quote as "Anytime a linguist leaves the group the recognition rate goes up" and dated it to December 1988 (Wayne, Pennsylvania), further noting that the quote did not appear in the published proceeding,[2][3] whereas Roger K. Moore gave the wording as "Every time we fire a phonetician/linguist, the performance of our system goes up" and dated it to an IEEE Automatic Speech Recognition and Understanding workshop held in 1985.[4] According to Steve Young, "the story goes that one day one of his linguists resigned, and Fred decided to replace him not by another linguist but by an engineer. A little while later, Fred noticed that the performance of his system improved significantly. So he encouraged another linguist to find alternative employment, and sure enough performance improved again."”

来源:https://en.wikipedia.org/wiki/ ... ote-6

思考

自然语言处理专家嘴边经常提及这句话,搞机器翻译技术的专家也时不时拿这句话调侃一下。如今很多机器翻译团队里并没有所谓的“语言学家”(Linguist),不需要任何语言学家就能搭建一套高效能的机器翻译程序,产出他们眼中高质量的机器翻译译文,发布令他们兴奋不已的成果。

而令他们兴奋不已的论文数据又会令媒体记者的双手颤抖不已,写下惊天地泣鬼神,令翻译人员闻字丧胆的热文。

但以下新闻引发了我的思考:

新闻一:

《谷歌:用算法和大数据“干掉”语言学家》

时间:2013年9月25日

摘要:

谷歌是一家极度看重算法、充满工程师文化的公司,但或许你还是会为此而感到惊奇——他们认为翻译是一个数学和统计学方面的问题。最近,位于谷歌总部的谷歌翻译团队正迅速扩张,他们新招了数名德国计算机科学家,但却没有招收一名语言学家。

来源:钛媒体 http://www.tmtpost.com/498825.html

新闻二:

《实现无监督学习?谷歌雇百名语言学家为训练数据“镀金”》

时间:2016年12月01日

摘要:

谷歌组织了一个由大量语言学博士组成团队,它把这支团队称为“Pygmalion”,使用这些语言学家人工筛选的数据来训练神经网络。实际上,谷歌的机器通过观察人类的做法来学习如何从长段落中提取相关答案,这个过程需要重复多遍,相当漫长。这些艰苦的努力同时证明了深度学习的能力和局限性。为了训练像这样的人工智能系统,需要大量的、由专业人士筛选过的数据。这些数据不容易得到,也不便宜,而且对这种数据的需求不会很快消失。

来源:新智元 https://mp.weixin.qq.com/s/AmLvehhPpTB-eoGFlXISSA

新闻三:

《特写 | 人工智能背后的人》

时间:2017年4月7日

摘要:

秦娇今年刚满 30 岁,几个月前刚刚从呼叫中心跳槽到一家「数据加工」公司。虽然跨了行业,她并不觉得两份工作有什么不同,都是按照甲方的要求和己方的工作节奏,把人手安排到一个又一个项目中去。

公司刚成立不到一年,眼下业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别等不同领域。

「数据加工」公司所在地距「大数据之城」贵阳五十多公里,是一座只接受科技公司入驻的「数字小镇」。

小镇的隔壁有一间规模不小的高职学校,学校的学生构成了这家公司目前主要的员工来源。高职学校初建的目的是教育扶贫,因此学生们大多来自贫困山区,学校会提供不少补助和奖学金。在数据加工公司兼职赚来的钱不仅足够生活,有些学生还会拿出一部分补贴家用。偶尔这份工作还能成为职业跳板,「我们的学生踏实又努力,有的去北京实习,因为熟悉标注工作、又认真,反馈回来说比同样实习的北京大学生强得多」。

除此之外,她们还可以承接小语种的语料收集工作。地处西南、临近东南亚,当地的人际关系链和频繁的商务交往能提供不少便利。

来源:机器之心 https://zhuanlan.zhihu.com/p/26181394

我不知道诸位读者看到这三条新闻后是什么样的感受?我的感受是这样的:

严格意义上来说,“语言学家”、“语言专家”、“语言学博士”与“翻译学家”、“翻译家”、“翻译专家”、“翻译学博士”是两个圈子的人。我如果说“我身边最牛的翻译根本不知道语言学是什么”,你信吗?我如果说“做翻译根本不需要语言学知识”,你信吗?我如果说“现在的翻译专业学生根本不需要《语言学》”,你信吗?

机器翻译研发团队之所以没有大牛翻译,并不是因为翻译人员没有作用,而是因为他们已经过气了,机器翻译研发团队手里拿来训练机器翻译程序的“语料/数据”是哪儿来的?还不是一堆他们并不知道名字的译者一个字一个字翻译出来的,但翻译完就完了,他们并不清楚自己的译文以后会起到什么作用,以为只是作为“作品”被陌生读者阅读罢了。

谷歌之所以又需要语言学博士来标注数据了,并不是因为他们的技术没有作用,而是因为他们手里的数据不够用了,需要由人来补充新的更高质量的数据。而机器翻译研发团队还没有开始招募“语言学博士”、“翻译学博士”,是因为人翻译的速度太慢了,价格又太贵了,短时间内提供的高质量的双语数据对机器翻译程序性能的提升并没有太大提升,而直接从第三方公司手中买廉价的双语数据或者自己写程序去抓取免费的双语数据则更划算一些。

标注数据这种工作跟富士康流水线上装配手机的工作一样,“恶心但必需”。“人工智能”时代,耗费多少“人工”,就有多么“智能”。

译者通常认为自己产出的“双语平行文本”没有什么用,但通过技术可以进一步挖掘双语平行文本中的诸多信息,比如双语术语、语义信息、句法信息等。那些年长的译者花几十年从双语文本中靠经验挖掘出来的“知识”可能远不及计算机程序几秒钟挖掘出来的的信息。

那人工智能时代,“译者”究竟扮演着什么样的角色?在我看来,只要世界不停转,译者就有翻译不完的文字,只要有翻译不完的文字就有赚不完的钱,所以译者的生存问题是不会受到影响的。

但,在今天的翻译行业生态环境下,“译者”也要顺应适者生存、优胜劣汰的法则,总有人因为不适应人工智能时代工作模式的变革而被淘汰,也总有人会在人工智能时代找到驾驭技术迎难而上的突破口。

人工智能时代,聪明的“译者”要做一个“变革者”,熟悉技术、拥抱技术、使用技术。但在这个过程中,译者其实处于非常弱势的位置,因为最终改变译者命运的不是译者自己,而是为译者提供技术服务的开发者。因此,聪明的“译者”还要做一个“合作者”,熟悉提供技术服务的人、使用他们提供的技术。

结语

人工智能时代,年轻一代译者的价值应当在两方面凸显,一方面是自身的翻译水平,另一方面是自身的技术认识。老一辈的译者可以在翻译水平方面引领年轻一代译者的发展,但不能冥顽不化,令年轻一代错失认识技术的良机。“技术”包罗万象,年轻一代译者并不需要样样精通,也绝无可能,需要有人引领年轻一代译者认识对其有价值的真技术。

作为年轻一代译者,被机器翻译专家开除并不可怕,可怕的是被翻译专家开除。

被机器翻译替代不可怕,可怕的是被替代后还不会用技术

韩林涛 发表了文章 • 0 个评论 • 326 次浏览 • 2018-03-29 15:52 • 来自相关话题

本文发布于2017年6月27日
 
这两天又一条“爆炸性消息”引爆朋友圈,《刚刚宣告:同声传译即将消亡!》

我本以为这是一条微不足道的“震惊体”,不足挂齿,但一看阅读量和点赞量,分别是:100000+和16834,我就真震惊了:这样骇人听闻的“烂文章”为何猖狂至此?

恰好,我今天看到另一条真新闻:《李克强请来4位院士 国务院第一会议室成“科学讲堂”》,其中一段话我印象极为深刻:

总理感慨:“现在各种新事物、新技术、新业态层出不穷,我们必须不断加强学习,在政策制定中灵活运用。要紧紧跟踪新一轮科技革命和产业变革的脚步,千万不能沦为新的‘科盲’!”

1. 科盲的可怕之处

那么谁是“新的'科盲'”?我觉得在“机器翻译技术”这个话题上,翻译行业内内外外上上下下就有很多科盲,而成为“科盲”的根本原因是:不知道如何在与“翻译”相关的工作、学习、生活、科研中引入“新事物”、应用“新技术”和感知“新业态”去解决实际问题。

科盲的可怕之处并不在于“不知机器翻译的原理”,而在于不知如何驾驭技术和建立错误的技术观。

我们普通老百姓可以轻松买到一部精密设计和制造的手机,但并不知道手机是如何构成的。我们是终端消费者,我们花钱买产品,享受前沿技术带来的便捷生活,何乐而不为。不要忘了,我们手里所用手机的全称是“智能手机”(Smartphone)。

不知道手机原理并不意味着我们就是科盲,因为我们是会用手机的傻瓜用户,我们建立了正确的手机使用观,先进的技术让我们足以傻傻地驾驭手机。

2. 如何才能不做科盲

我一边在努力学习机器翻译技术,一边在努力学习机器翻译技术以外的其他技术。我知道我学不完所有的技术,我的精力和时间都是有限的,但是我更愿意知道什么样的技术能做什么样的事情,一个技术能够如何与另一个技术结合到一起,我的身边谁是懂某个技术的专家,当我有需求的时候能找到谁来用技术解决我的问题。

通识教育的失败致使行业里不少人一根筋,跟不上新技术的节奏,这些我已经无能为力了,就好像我无法控制我父母时不时在朋友圈转一些我自己觉得没有价值的养生文章,我告诉自己,父母吃什么不重要,心情好才重要。

所以我寄希望于比我年轻的学生们身上,当我看到他们能够用自己学到的某个我不会的语言编写出非常有意思的代码时,我并不担心他们会超过我,因为我知道他们绝对会比我越来越强,他们是未来的译者,将和我一起解决更多有意思的翻译问题,而且是用技术来辅助解决。

最重要的是,在市场经济条件下,有些事情要交给市场来做,交给懂技术的企业去完成。现在学校的整个体制机制都不利于快速推进跨学科、跨平台的协同创新,但校企合作的方式也许能有所突破。

技术浪潮席卷而来,现有师资无暇顾及,整个行业亟需新鲜血液,唯一希望只能放在两个主体身上:学生和企业。

但企业容易误导老师,老师容易误导学生,真正做起事来也会有各种问题。

3. 总觉得哪里不对,究竟是哪里不对呢

现在大家似乎觉得与翻译行业相关的技术只有一个,那就是“机器翻译技术”,然而,哪怕今天所有搞机器翻译的专家都被外星人抓走了,哪怕所有搞人工智能的专家都被三体星人掳走了,现有的各种信息技术也能让翻译教育、翻译服务更上一层楼,处处开花节节高。可偏偏大家都盯着一个玩意儿怼来怼去。

一个小小的学校,这个处的网站有一套用户名密码,那个处的网站有一套用户名密码,昨天新开的网站有一套用户名密码,明天即将搭建的网站又有一套用户密码,难道大家没有意识到真正的问题吗?

我们今天所处的工作环境、学习环境和生活环境都被老旧技术产品所统治,底层服务架构有很大的技术漏洞和业务逻辑问题,以至于我们庞大的未来生活愿景都建立在摇摇欲坠的豆腐渣工程上。

现在像翻译专业这样的文科背景专业最大的技术危机也许是:教育技术基础设施不够完善。

根据我对目前许多开设翻译专业院校的了解,许多学校没有足够好的网络环境、没有足够好的软硬件环境,没有足够好的懂技术懂点翻译的技术支持人员,没有足够好的教学教辅支撑平台。翻译教学不仅仅只有双语的平行语料库才值得存储和挖掘,从学生入学到毕业全流程中涉及的教学数据都是未来人才培养的黄金宝藏。

现在教育行业里有很多教育装备解决方案提供商,他们大多精通软硬件参数,但不知道如何将高大上的软硬件设备与翻译教学的实际需求结合到一起。

我最担心的是学校花了一大堆钱买了看起来很不错的软硬件,但用不到实处,造成资源浪费。就好比买了一大堆电子产品堆在家里,结果发现家里的电源插座不够,电子产品之间没法搭配使用,贵重的产品买了之后就拆箱那天用了一次。

可是,我担心这些有什么用呢。

简而言之,我写这篇帖子想表达以下几个主要的观点:

机器翻译技术不是唯一的技术,推动翻译教育事业向前发展的技术还有很多,灵活应用也许能产生更大的价值;

现有翻译教育师资不应成为技术培训的主体,不做科盲即可,但要培养学生的技术能力,要找到合适的企业技术合作伙伴;

学校决策者千万不能是科盲,在设计学校的信息化建设方案时,要考虑技术产品和教学需求的深度融合;

现在很多开设翻译专业的院校,虽然花了一大堆钱买了计算机辅助翻译软件,但底层基础技术设施十分不完善,这是进行持续信息化建设的巨大风险;

被机器翻译替代并不可怕,可怕的是被替代后依然不会使用包括机器翻译技术在内的各种技术来解决问题。

最后说一下那篇烂文:《刚刚宣告:同声传译即将消亡!》

评论:消亡又怎样,凭本事吃饭,一样赚大钱。 查看全部
本文发布于2017年6月27日
 
这两天又一条“爆炸性消息”引爆朋友圈,《刚刚宣告:同声传译即将消亡!》

我本以为这是一条微不足道的“震惊体”,不足挂齿,但一看阅读量和点赞量,分别是:100000+和16834,我就真震惊了:这样骇人听闻的“烂文章”为何猖狂至此?

恰好,我今天看到另一条真新闻:《李克强请来4位院士 国务院第一会议室成“科学讲堂”》,其中一段话我印象极为深刻:

总理感慨:“现在各种新事物、新技术、新业态层出不穷,我们必须不断加强学习,在政策制定中灵活运用。要紧紧跟踪新一轮科技革命和产业变革的脚步,千万不能沦为新的‘科盲’!”

1. 科盲的可怕之处

那么谁是“新的'科盲'”?我觉得在“机器翻译技术”这个话题上,翻译行业内内外外上上下下就有很多科盲,而成为“科盲”的根本原因是:不知道如何在与“翻译”相关的工作、学习、生活、科研中引入“新事物”、应用“新技术”和感知“新业态”去解决实际问题。

科盲的可怕之处并不在于“不知机器翻译的原理”,而在于不知如何驾驭技术和建立错误的技术观。

我们普通老百姓可以轻松买到一部精密设计和制造的手机,但并不知道手机是如何构成的。我们是终端消费者,我们花钱买产品,享受前沿技术带来的便捷生活,何乐而不为。不要忘了,我们手里所用手机的全称是“智能手机”(Smartphone)。

不知道手机原理并不意味着我们就是科盲,因为我们是会用手机的傻瓜用户,我们建立了正确的手机使用观,先进的技术让我们足以傻傻地驾驭手机。

2. 如何才能不做科盲

我一边在努力学习机器翻译技术,一边在努力学习机器翻译技术以外的其他技术。我知道我学不完所有的技术,我的精力和时间都是有限的,但是我更愿意知道什么样的技术能做什么样的事情,一个技术能够如何与另一个技术结合到一起,我的身边谁是懂某个技术的专家,当我有需求的时候能找到谁来用技术解决我的问题。

通识教育的失败致使行业里不少人一根筋,跟不上新技术的节奏,这些我已经无能为力了,就好像我无法控制我父母时不时在朋友圈转一些我自己觉得没有价值的养生文章,我告诉自己,父母吃什么不重要,心情好才重要。

所以我寄希望于比我年轻的学生们身上,当我看到他们能够用自己学到的某个我不会的语言编写出非常有意思的代码时,我并不担心他们会超过我,因为我知道他们绝对会比我越来越强,他们是未来的译者,将和我一起解决更多有意思的翻译问题,而且是用技术来辅助解决。

最重要的是,在市场经济条件下,有些事情要交给市场来做,交给懂技术的企业去完成。现在学校的整个体制机制都不利于快速推进跨学科、跨平台的协同创新,但校企合作的方式也许能有所突破。

技术浪潮席卷而来,现有师资无暇顾及,整个行业亟需新鲜血液,唯一希望只能放在两个主体身上:学生和企业。

但企业容易误导老师,老师容易误导学生,真正做起事来也会有各种问题。

3. 总觉得哪里不对,究竟是哪里不对呢

现在大家似乎觉得与翻译行业相关的技术只有一个,那就是“机器翻译技术”,然而,哪怕今天所有搞机器翻译的专家都被外星人抓走了,哪怕所有搞人工智能的专家都被三体星人掳走了,现有的各种信息技术也能让翻译教育、翻译服务更上一层楼,处处开花节节高。可偏偏大家都盯着一个玩意儿怼来怼去。

一个小小的学校,这个处的网站有一套用户名密码,那个处的网站有一套用户名密码,昨天新开的网站有一套用户名密码,明天即将搭建的网站又有一套用户密码,难道大家没有意识到真正的问题吗?

我们今天所处的工作环境、学习环境和生活环境都被老旧技术产品所统治,底层服务架构有很大的技术漏洞和业务逻辑问题,以至于我们庞大的未来生活愿景都建立在摇摇欲坠的豆腐渣工程上。

现在像翻译专业这样的文科背景专业最大的技术危机也许是:教育技术基础设施不够完善。

根据我对目前许多开设翻译专业院校的了解,许多学校没有足够好的网络环境、没有足够好的软硬件环境,没有足够好的懂技术懂点翻译的技术支持人员,没有足够好的教学教辅支撑平台。翻译教学不仅仅只有双语的平行语料库才值得存储和挖掘,从学生入学到毕业全流程中涉及的教学数据都是未来人才培养的黄金宝藏。

现在教育行业里有很多教育装备解决方案提供商,他们大多精通软硬件参数,但不知道如何将高大上的软硬件设备与翻译教学的实际需求结合到一起。

我最担心的是学校花了一大堆钱买了看起来很不错的软硬件,但用不到实处,造成资源浪费。就好比买了一大堆电子产品堆在家里,结果发现家里的电源插座不够,电子产品之间没法搭配使用,贵重的产品买了之后就拆箱那天用了一次。

可是,我担心这些有什么用呢。

简而言之,我写这篇帖子想表达以下几个主要的观点:

机器翻译技术不是唯一的技术,推动翻译教育事业向前发展的技术还有很多,灵活应用也许能产生更大的价值;

现有翻译教育师资不应成为技术培训的主体,不做科盲即可,但要培养学生的技术能力,要找到合适的企业技术合作伙伴;

学校决策者千万不能是科盲,在设计学校的信息化建设方案时,要考虑技术产品和教学需求的深度融合;

现在很多开设翻译专业的院校,虽然花了一大堆钱买了计算机辅助翻译软件,但底层基础技术设施十分不完善,这是进行持续信息化建设的巨大风险;

被机器翻译替代并不可怕,可怕的是被替代后依然不会使用包括机器翻译技术在内的各种技术来解决问题。

最后说一下那篇烂文:《刚刚宣告:同声传译即将消亡!》

评论:消亡又怎样,凭本事吃饭,一样赚大钱。

“互联网机器翻译论坛”观后感

韩林涛 发表了文章 • 0 个评论 • 236 次浏览 • 2018-03-29 15:10 • 来自相关话题

本文发布于2015年4月19日
 
今天去蹭了一场中国电子学会和百度翻译共同举办的“互联网机器翻译论坛”,开口谈“机器翻译”的都是大腕,包括:中国工程院院士倪光南教授、百度副总裁王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授。除他们之外还有两位产业界的人士:足迹CEO杨柳和医脉通CEO田立新。

中国工程院院士倪光南教授曾经在1984年参与创办“计算所公司”,全称叫做“中国科学院计算技术研究所新技术发展公司”,他担任总工程师。这段历史我们大多数人可能不太熟悉,但是接着往下说就越道越明了。倪光南院士担任计算机公司总工时发明了“联想式汉字输入法”,主持研发了“联想式汉字输入系统”,简称“联想汉卡”,并于1988年获得了国家科技进步一等奖。这个“计算所公司”就是“联想公司”的前身。

倪光南院士与联想的各种故事还有很多,但与机器翻译无关,上面的故事仅仅是个简单的铺垫。在今天的论坛主旨发言中,倪院士介绍了他眼中我国机器翻译的发展历史。

我国研制第一代机器翻译系统时,倪院士参与了汉字显示、汉字输入、汉字打印等相关的工作,做汉字处理是他的本行。他提到当年的“快译通”提供的翻译服务仅仅是简单的词的对应,机器并未理解句子,也没有进行语法句法的分析,功能有限。

我国第二代机器翻译系统虽然比第一代要先进很多,但因为没有完全理解语言而遇到瓶颈,无法快速提高。在我们当今所处的大数据时代,大数据作为“实验归纳”、“模拟推演”、“仿真模拟”以外的“第四范式”,推动了机器翻译技术发展,使得科研人员可以依靠计算机大数据方法来做研究。在大数据的支撑下,机器根本不需要了解句子的意思,也可以把句子翻译的很漂亮。第二代机器翻译系统得益于大数据的帮助,逐渐为大众所使用。而第三代机器翻译系统能否成功研制,就要看机器能否真得理解语言。而如今机器翻译技术发展的现状已经让倪院士感慨:梦想终于实现。

倪院士主旨发言之后是百度副总裁王海峰博士对百度翻译的介绍,并且还现场让百度马艳军博士演示了翻译机器人“小度”是如何做口译的。

根据王海峰博士的介绍:百度翻译目前支持热门的16个语种、164个翻译方向,日均翻译需求量达上亿次,覆盖多种平台,并为大批公司提供免费的API支持。

百度翻译通过基于互联网大数据的理论创新、基于互联网海量用户的技术创新、基于互联网云计算平台的工程创新和基于互联网思维的应用创新实现了机器翻译大规模产业化应用。

在现场的演讲中,王海峰博士对百度翻译的诸多技术还仅仅是介绍,因时间有限他并未深入详解。就现场所听到的信息,我对其技术创新的理解是:

技术创新一:机器翻译云平台

一大堆可以协同计算的计算机组成了百度翻译背后的云平台,这些计算机通过各种技术的支持确保能够持续提供高效快速的计算服务支撑大规模双语语料和大规模单语语料的处理。王海峰博士说,百度翻译的机器翻译云平台一天可完成全网超过2000亿网页双语资源的模型训练。这句话可能挺难理解,也许用通俗的话来讲就是:百度翻译背后那些超牛的计算机集群可以把从2000亿网页中收集到的双语资源处理后训练出可以自动翻译文章的机器翻译系统,而所需的时间仅需一天。

技术创新二:海量翻译知识获取

这项技术说的是百度翻译程序员们写的程序可以分析网页的拓扑结构,知道网页中哪些内容是原文和译文对应的双语内容,然后提取出来送给机器翻译系统去分析和处理。而这个“分析和处理”的过程又非常智能,能去粗取精,把错误的双语对应语料去掉,留下正确的双语语料。

技术创新三:基于深度语义的语言分析和翻译技术

他举了一个例子:

原文是:梅德韦杰夫对欧盟有效解决经济危机带来的问题表示赞赏。

百度翻译的系统分析出这个句子中“对”、“表示”、“赞赏”这三个词的关系,然后得到下面的译文。

译文:Medvedev expresses appreciation to EU for effectively solve the problems caused by financial crisis.

技术创新四:枢轴语言翻译技术

根据他的介绍,这里的“枢轴语言”有点英语里所说的“lingua franca”(有时翻译成“通用语”)。

“A lingua franca (plural lingue franche or lingua francas), also known as a bridge language, trade language or vehicular language, is a language systematically (as opposed to occasionally, or casually) used to make communication possible between persons not sharing a native language, in particular when it is a third language, distinct from both native languages.”(维基百科)

通过枢轴语言翻译技术,系统可以使用将大型汉-英双语语料处理后获得的汉-英翻译模型和将大型英-日双语语料处理后获得的英-日翻译模型共同推导出汉-日中间语言翻译模型,这个时候再结合小型汉-日双语语料处理后得到的汉-日翻译模型获得更好的汉日翻译模型。

也就是说:机器能把汉英转换的很好,能把英日转换的很好,在汉日转换差的情况下,将前两者的翻译模型放在一起处理,结合已有的汉日转换模型,获得更好的汉日机器翻译系统。

王海峰博士把百度翻译技的关键术分为三类:语料处理技术、模型处理技术和翻译方法。 语料处理技术包括:语料质量评估、语料挖掘技术、语料分类与选择、语料实时挖掘与退场;模型处理技术包括:分布式模型、模型平滑与压缩、动态更新技术、语义表示与消歧;方法方法包括:领域自适应技术、枢轴语言技术、多策略翻译技术和深度神经网络技术。

通过王海峰博士的介绍,大体能够看到百度翻译背后雄厚的技术实力。他演讲结束后马艳军博士现场演示的“小度”机器人让现场的观众十分激动。

这个“小度”机器人其实可以看成是个口译软件,中国人说中文后,它将语音转变为文字,翻译完成后合成目标语,如韩语,然后再合成语音播放出来;韩国人听到“小度”的韩语后将语音转变为文字,翻译完成后合成中文,再播放出合成的中文语音。

“小度”机器人演示环节过后,王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授、足迹CEO杨柳和医脉通CEO田立新上台参与了一场题为“机器翻译能否成为下一波产业浪潮”的主题讨论。

这场讨论还是非常有意思的,我将几位嘉宾的观点总结如下:

孙茂松:机器翻译最典型的应用场景是“一带一路”,一带一路覆盖了半个地球,涉及到60多个国家,百余种语言。这么大的市场,政治、经济、文化等方方面面都有所涉及,如果语言不通,合作会大打折扣。机器翻译在这样的场景下会得到大量应用,也会遇到很多挑战。

宗成庆:在谈及“机器翻译领域发展到怎样的阶段”时,他说目前机器翻译技术发展非常快,现在最热门的技术是“深度学习”、“神经网络”,94年这个技术就有学者提出,但是那个时候应用非常有限,因为计算能力和数据量都有限,与现在不可同日而语。

机器翻译要特定到某一个领域和行业,要真正把领域机器翻译技术落地才能收获更多用户。

刘挺:目前机器翻译技术的第一大应用是在线翻译;第二大应用是信息发布,配合计算机辅助翻译软件有很大应用空间;第三大应用是实时语音翻译。机器翻译的应用前景和研究空间都很大,但也有一些问题:以Siri为代表的语音助手由于背后技术不是特别成熟导致用户量下滑。当用户期望很高,觉得机器什么都可以翻译的时候,用户会很容易失望。另外,机器如果能够根据用户的地理位置自动切换机器翻译的领域,为用户提供适应某个领域的机器翻译服务会更好。

以“打”为例,在篮球场上“打篮球”的“打”跟其他场景中的“打破”的“打”是不一样的意思,机器需要能够识别不同的领域、场景、语境。

田立新:目前在医疗领域,医生主要看外文文献,也主要写外文文献,机器翻译目前在这个领域不能做到极致。需要与百度深入合作,将更多医药领域的知识融入到百度翻译中去;将海量医疗文献处理后,让百度能够在临床上为医生提供决策支持。

杨柳:足迹APP让人人都能做字幕,优质的双语信息能够轻易帮助每个人都成为诗人、哲人,轻松表达自己的情感。通过与百度翻译的合作,百度提供了很多语料,翻译质量逐渐提高;足迹也会给百度反馈,让翻译质量提高。

足迹之后会加入图像识别,根据场景来为用户提供更多可用于表达的词句;会尽快将热门的网络词加入到翻译APP中,机器翻译能够在更多场景中应用。

在这场主题讨论后,中国电子学会的秘书长徐晓兰也发表了一段演讲,她提到她是赛迪翻译的董事长,当年为了提高机器翻译的质量,他们大量收集双语语料,投入大量人力物力财力建语料库,依然觉得有收集不完的语料。

感想:

参加完这场论坛后,我有一些感想,我也简单总结一下:

翻译类院校师生应当如何看待机器翻译?

翻译类院校几乎每天都在不断培养专业的翻译人才,而目前翻译类人才开始担忧自己是否会被机器翻译所取代。我觉得翻译类院校应当担心,也应该主动应对。应对的方式是:机器翻译+译后编辑,即要教会学生在翻译工作中如何处理机器翻译后的文本,如何快速高效编辑机器文本达到不同的程度(可读、可发布、可出版等)。

2. 像百度翻译这类机器翻译系统最重要的用户是谁?

百度翻译作为一款产品,按照王海峰博士的观点和百度目前的战略,要“连接人与服务”,即为用户提供他们需要的服务。那么百度翻译这类机器翻译系统最重要的用户是普通的大众还是专业的译员?从谷歌翻译的应用来看,普通用户和专业译员都是兼顾的,而百度翻译则主要面向普通用户,对专业译员而言似乎并不看上眼,没有提供足够的专业服务。我认为百度百度翻译应该尽快接入现有的计算机辅助翻译系统,让专业译员尽快使用上,并提出更专业的使用反馈。

专业翻译公司提供的双语语料比一个普通翻译爱好者发布在网上的双语文本更有价值,对翻译模型的训练更为重要,因此百度翻译应当加快与翻译公司的语料合作。现在SDL已经为企业提供定制翻译引擎的训练,让翻译公司可以训练自己的机器翻译引擎,中国翻译公司更在乎语料的安全性,害怕资产流失,更需要本土公司提供类似的语料训练服务。

3. 机器翻译是一门技术,机器翻译应用是一项技巧

通过王海峰博士的介绍,我发现在百度翻译背后还有那么多深不可测的计算机技术,远远超过普通人的想象。虽然我们经常诟病机器翻译的质量,但不可否认,发展到今天的机器翻译技术每天都会聪明一点,因此我们应该尊重这门技术,尊重机器翻译技术背后的技术人员和科研人员,努力理解他们正在做的事情。

同时,我们作为机器翻译技术的门外行,可以多想想机器翻译究竟可以在什么样的场景得到更有价值的应用,如何利用机器翻译技术让我们的日常生活更便捷。有一天机器翻译也许真得会替代我们,但我不希望看到我的孩子还看在用最传统的方式做翻译或者阅读晦涩难懂的机器翻译译文,我希望机器翻译能够为未来的人们提供更便捷的自动服务,打破语言的障碍,让多语信息没有传播的界限。 查看全部
本文发布于2015年4月19日
 
今天去蹭了一场中国电子学会和百度翻译共同举办的“互联网机器翻译论坛”,开口谈“机器翻译”的都是大腕,包括:中国工程院院士倪光南教授、百度副总裁王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授。除他们之外还有两位产业界的人士:足迹CEO杨柳和医脉通CEO田立新。

中国工程院院士倪光南教授曾经在1984年参与创办“计算所公司”,全称叫做“中国科学院计算技术研究所新技术发展公司”,他担任总工程师。这段历史我们大多数人可能不太熟悉,但是接着往下说就越道越明了。倪光南院士担任计算机公司总工时发明了“联想式汉字输入法”,主持研发了“联想式汉字输入系统”,简称“联想汉卡”,并于1988年获得了国家科技进步一等奖。这个“计算所公司”就是“联想公司”的前身。

倪光南院士与联想的各种故事还有很多,但与机器翻译无关,上面的故事仅仅是个简单的铺垫。在今天的论坛主旨发言中,倪院士介绍了他眼中我国机器翻译的发展历史。

我国研制第一代机器翻译系统时,倪院士参与了汉字显示、汉字输入、汉字打印等相关的工作,做汉字处理是他的本行。他提到当年的“快译通”提供的翻译服务仅仅是简单的词的对应,机器并未理解句子,也没有进行语法句法的分析,功能有限。

我国第二代机器翻译系统虽然比第一代要先进很多,但因为没有完全理解语言而遇到瓶颈,无法快速提高。在我们当今所处的大数据时代,大数据作为“实验归纳”、“模拟推演”、“仿真模拟”以外的“第四范式”,推动了机器翻译技术发展,使得科研人员可以依靠计算机大数据方法来做研究。在大数据的支撑下,机器根本不需要了解句子的意思,也可以把句子翻译的很漂亮。第二代机器翻译系统得益于大数据的帮助,逐渐为大众所使用。而第三代机器翻译系统能否成功研制,就要看机器能否真得理解语言。而如今机器翻译技术发展的现状已经让倪院士感慨:梦想终于实现。

倪院士主旨发言之后是百度副总裁王海峰博士对百度翻译的介绍,并且还现场让百度马艳军博士演示了翻译机器人“小度”是如何做口译的。

根据王海峰博士的介绍:百度翻译目前支持热门的16个语种、164个翻译方向,日均翻译需求量达上亿次,覆盖多种平台,并为大批公司提供免费的API支持。

百度翻译通过基于互联网大数据的理论创新、基于互联网海量用户的技术创新、基于互联网云计算平台的工程创新和基于互联网思维的应用创新实现了机器翻译大规模产业化应用。

在现场的演讲中,王海峰博士对百度翻译的诸多技术还仅仅是介绍,因时间有限他并未深入详解。就现场所听到的信息,我对其技术创新的理解是:

技术创新一:机器翻译云平台

一大堆可以协同计算的计算机组成了百度翻译背后的云平台,这些计算机通过各种技术的支持确保能够持续提供高效快速的计算服务支撑大规模双语语料和大规模单语语料的处理。王海峰博士说,百度翻译的机器翻译云平台一天可完成全网超过2000亿网页双语资源的模型训练。这句话可能挺难理解,也许用通俗的话来讲就是:百度翻译背后那些超牛的计算机集群可以把从2000亿网页中收集到的双语资源处理后训练出可以自动翻译文章的机器翻译系统,而所需的时间仅需一天。

技术创新二:海量翻译知识获取

这项技术说的是百度翻译程序员们写的程序可以分析网页的拓扑结构,知道网页中哪些内容是原文和译文对应的双语内容,然后提取出来送给机器翻译系统去分析和处理。而这个“分析和处理”的过程又非常智能,能去粗取精,把错误的双语对应语料去掉,留下正确的双语语料。

技术创新三:基于深度语义的语言分析和翻译技术

他举了一个例子:

原文是:梅德韦杰夫对欧盟有效解决经济危机带来的问题表示赞赏。

百度翻译的系统分析出这个句子中“对”、“表示”、“赞赏”这三个词的关系,然后得到下面的译文。

译文:Medvedev expresses appreciation to EU for effectively solve the problems caused by financial crisis.

技术创新四:枢轴语言翻译技术

根据他的介绍,这里的“枢轴语言”有点英语里所说的“lingua franca”(有时翻译成“通用语”)。

“A lingua franca (plural lingue franche or lingua francas), also known as a bridge language, trade language or vehicular language, is a language systematically (as opposed to occasionally, or casually) used to make communication possible between persons not sharing a native language, in particular when it is a third language, distinct from both native languages.”(维基百科)

通过枢轴语言翻译技术,系统可以使用将大型汉-英双语语料处理后获得的汉-英翻译模型和将大型英-日双语语料处理后获得的英-日翻译模型共同推导出汉-日中间语言翻译模型,这个时候再结合小型汉-日双语语料处理后得到的汉-日翻译模型获得更好的汉日翻译模型。

也就是说:机器能把汉英转换的很好,能把英日转换的很好,在汉日转换差的情况下,将前两者的翻译模型放在一起处理,结合已有的汉日转换模型,获得更好的汉日机器翻译系统。

王海峰博士把百度翻译技的关键术分为三类:语料处理技术、模型处理技术和翻译方法。 语料处理技术包括:语料质量评估、语料挖掘技术、语料分类与选择、语料实时挖掘与退场;模型处理技术包括:分布式模型、模型平滑与压缩、动态更新技术、语义表示与消歧;方法方法包括:领域自适应技术、枢轴语言技术、多策略翻译技术和深度神经网络技术。

通过王海峰博士的介绍,大体能够看到百度翻译背后雄厚的技术实力。他演讲结束后马艳军博士现场演示的“小度”机器人让现场的观众十分激动。

这个“小度”机器人其实可以看成是个口译软件,中国人说中文后,它将语音转变为文字,翻译完成后合成目标语,如韩语,然后再合成语音播放出来;韩国人听到“小度”的韩语后将语音转变为文字,翻译完成后合成中文,再播放出合成的中文语音。

“小度”机器人演示环节过后,王海峰博士、中科院自动化所宗成庆博士、清华大学计算机科学与技术系孙茂松教授、哈工大计算机学院刘挺教授、足迹CEO杨柳和医脉通CEO田立新上台参与了一场题为“机器翻译能否成为下一波产业浪潮”的主题讨论。

这场讨论还是非常有意思的,我将几位嘉宾的观点总结如下:

孙茂松:机器翻译最典型的应用场景是“一带一路”,一带一路覆盖了半个地球,涉及到60多个国家,百余种语言。这么大的市场,政治、经济、文化等方方面面都有所涉及,如果语言不通,合作会大打折扣。机器翻译在这样的场景下会得到大量应用,也会遇到很多挑战。

宗成庆:在谈及“机器翻译领域发展到怎样的阶段”时,他说目前机器翻译技术发展非常快,现在最热门的技术是“深度学习”、“神经网络”,94年这个技术就有学者提出,但是那个时候应用非常有限,因为计算能力和数据量都有限,与现在不可同日而语。

机器翻译要特定到某一个领域和行业,要真正把领域机器翻译技术落地才能收获更多用户。

刘挺:目前机器翻译技术的第一大应用是在线翻译;第二大应用是信息发布,配合计算机辅助翻译软件有很大应用空间;第三大应用是实时语音翻译。机器翻译的应用前景和研究空间都很大,但也有一些问题:以Siri为代表的语音助手由于背后技术不是特别成熟导致用户量下滑。当用户期望很高,觉得机器什么都可以翻译的时候,用户会很容易失望。另外,机器如果能够根据用户的地理位置自动切换机器翻译的领域,为用户提供适应某个领域的机器翻译服务会更好。

以“打”为例,在篮球场上“打篮球”的“打”跟其他场景中的“打破”的“打”是不一样的意思,机器需要能够识别不同的领域、场景、语境。

田立新:目前在医疗领域,医生主要看外文文献,也主要写外文文献,机器翻译目前在这个领域不能做到极致。需要与百度深入合作,将更多医药领域的知识融入到百度翻译中去;将海量医疗文献处理后,让百度能够在临床上为医生提供决策支持。

杨柳:足迹APP让人人都能做字幕,优质的双语信息能够轻易帮助每个人都成为诗人、哲人,轻松表达自己的情感。通过与百度翻译的合作,百度提供了很多语料,翻译质量逐渐提高;足迹也会给百度反馈,让翻译质量提高。

足迹之后会加入图像识别,根据场景来为用户提供更多可用于表达的词句;会尽快将热门的网络词加入到翻译APP中,机器翻译能够在更多场景中应用。

在这场主题讨论后,中国电子学会的秘书长徐晓兰也发表了一段演讲,她提到她是赛迪翻译的董事长,当年为了提高机器翻译的质量,他们大量收集双语语料,投入大量人力物力财力建语料库,依然觉得有收集不完的语料。

感想:

参加完这场论坛后,我有一些感想,我也简单总结一下:

翻译类院校师生应当如何看待机器翻译?

翻译类院校几乎每天都在不断培养专业的翻译人才,而目前翻译类人才开始担忧自己是否会被机器翻译所取代。我觉得翻译类院校应当担心,也应该主动应对。应对的方式是:机器翻译+译后编辑,即要教会学生在翻译工作中如何处理机器翻译后的文本,如何快速高效编辑机器文本达到不同的程度(可读、可发布、可出版等)。

2. 像百度翻译这类机器翻译系统最重要的用户是谁?

百度翻译作为一款产品,按照王海峰博士的观点和百度目前的战略,要“连接人与服务”,即为用户提供他们需要的服务。那么百度翻译这类机器翻译系统最重要的用户是普通的大众还是专业的译员?从谷歌翻译的应用来看,普通用户和专业译员都是兼顾的,而百度翻译则主要面向普通用户,对专业译员而言似乎并不看上眼,没有提供足够的专业服务。我认为百度百度翻译应该尽快接入现有的计算机辅助翻译系统,让专业译员尽快使用上,并提出更专业的使用反馈。

专业翻译公司提供的双语语料比一个普通翻译爱好者发布在网上的双语文本更有价值,对翻译模型的训练更为重要,因此百度翻译应当加快与翻译公司的语料合作。现在SDL已经为企业提供定制翻译引擎的训练,让翻译公司可以训练自己的机器翻译引擎,中国翻译公司更在乎语料的安全性,害怕资产流失,更需要本土公司提供类似的语料训练服务。

3. 机器翻译是一门技术,机器翻译应用是一项技巧

通过王海峰博士的介绍,我发现在百度翻译背后还有那么多深不可测的计算机技术,远远超过普通人的想象。虽然我们经常诟病机器翻译的质量,但不可否认,发展到今天的机器翻译技术每天都会聪明一点,因此我们应该尊重这门技术,尊重机器翻译技术背后的技术人员和科研人员,努力理解他们正在做的事情。

同时,我们作为机器翻译技术的门外行,可以多想想机器翻译究竟可以在什么样的场景得到更有价值的应用,如何利用机器翻译技术让我们的日常生活更便捷。有一天机器翻译也许真得会替代我们,但我不希望看到我的孩子还看在用最传统的方式做翻译或者阅读晦涩难懂的机器翻译译文,我希望机器翻译能够为未来的人们提供更便捷的自动服务,打破语言的障碍,让多语信息没有传播的界限。