奇趣闻 > 数码科技 > \

技术洞察|翻译技术的原理及其发展内驱力

原标题:技术洞察 | 翻译技术的原理及其发展内驱力

以下文章来源于简言 ,作者韩林涛

前言

过去的几年,我在思考很多与语言服务行业发展相关的问题,其中两个问题是:什么是翻译技术的原理?翻译技术发展的内驱力是什么?

今天一时兴起,我想试着回答一下这两个问题。

首先,我想谈一下演绎与归纳,两个逻辑学里面的基本概念。虽然在传统逻辑学和现代逻辑学中人们对演绎和归纳的解释是不太相同的,但一般来说,我们认为:归纳是从个别到一般,演绎是从一般到个别。

归纳:

一款名叫Trados的计算机辅助翻译工具的核心功能是:编辑器+翻译记忆+术语+机器翻译。

一款名为memoQ的计算机辅助翻译工具的核心功能是:编辑器+翻译记忆+术语+机器翻译。

一款名为YiCAT的计算机辅助翻译工具的核心功能是:编辑器+翻译记忆+术语+机器翻译。

所以,计算机辅助翻译工具的核心功能是:编辑器+翻译记忆+术语+机器翻译。

以上过程就是从个别到一般的归纳过程。

演绎:

一位译员在翻译一篇文章时需要参考双语词典、过去翻译过的句子和机器自动翻译的译文,并且需要在一个像Word一样的字处理界面中完成翻译。

所以,我们可以在Word里面嵌入双语词典、翻译记忆和机器翻译。

我们也可以自己开发一个Word,在里面嵌入双语词典、翻译记忆和机器翻译。

我们也可以开发一个网页,在里面嵌入双语词典、翻译记忆和机器翻译。

我们也可以开发一个手机APP,在里面嵌入双语词典、翻译记忆和机器翻译。

我们甚至可以戴上VR眼镜,构建一个虚拟的翻译界面,左边是原文,右边是译文,然后嵌入双语词典、翻译记忆和机器翻译。

以上的过程就是从一般到个别的演绎过程。

正文

一、什么是翻译技术的原理?

我们在前面用计算机辅助翻译工具的例子分析了演绎和归纳的区别,基于以上例子我们来思考困惑我很久的这个问题:编辑器+翻译记忆+术语+机器翻译是否就是翻译技术的基本原理?我们如果想帮助译员做好翻译,是否至少应当了解编辑器的基本操作、翻译记忆的制作方法、术语的制作方法、机器翻译的引入方法,等都学会之后再基于这些工具和资源帮助我们提高翻译的效率和质量?

正是因为有这样的思考,我才会去追溯计算机辅助翻译工具的发展历史,想知道究竟是谁最早研发了计算机辅助翻译工具。

通过我对一部分网络资料的收集和整理,我大概得出了一个抽象的翻译技术的发展历程,但是这个历程目前还经不起推敲,所以就当是一番妄言,大家听完就乐呵一下:

翻译是个很古老的工作,从事翻译工作的人们并没有想过用什么样的现代技术来帮助自己提高效率和质量,认为把自己的大脑修炼好才是做好翻译的根本。

但当政府产生大量的翻译需求而计算机恰好成为政府的效率工具后,如何将计算机应用于翻译就成了一个人们自然会想到的问题,于是人们想到:既然做翻译需要纸质词典,那么为什么不把词典放到计算机里,这样做翻译的时候就可以查电子词典?于是计算机中的电子词典成为了首个应用于翻译生产的翻译技术:翻译生产中查词典的行为变成了查电子词典的行为。之所以人们想到的只有词典,是因为那时计算机的存储空间是极为有限的。

但当翻译的对象变成情报后,翻译行为变成了军事的一部分,指挥官们不认同人工翻译的效率,所以希望借助机器来完成自动的翻译,于是机器翻译成为了第二个非常重要的应用翻译生产的翻译技术。

但受限于当时计算机软硬件技术的限制,不仅没有能够支持高速计算的硬件,也没有支持自动翻译的数字资源,更没有支持高质量自动翻译的算法,所以机器翻译没能真正发展起来,反而落寞下去。人们探求自动翻译的诉求落空,在对机器翻译技术进行一番探查后,人们认为:与其用机器翻译还不如用电子词典。

当战争抛弃了机器翻译后,机器翻译研发过程中产生的副产品——双语翻译文本——成为了人们关注的对象,于是人们发现除了电子词典外,电子的双语文本也可以应用于翻译生产。

但是,当使用电子的双语文本来训练机器翻译引擎后,机器翻译要么就把之前翻译过的句子完整翻译出来,要么就什么也翻译不出来,所以人们开始思考如何在翻译过程中充分查找电子双语文本中的有效双语片段,于是翻译记忆技术开始出现:翻译生产中查电子词典的行为逐步变成了查双语文本的行为。

需要特别说明的是,人们此时并没有抛弃机器翻译,而是从完全使用机器翻译或完全不使用机器翻译变成了针对机器翻译进行译后编辑。

(对这段历史感兴趣的朋友可以阅读这篇文章:The origins of the translator’s workstation)

如何从翻译记忆中查找有效的双语片段从一个翻译问题变成了数学问题,在数学家设计的最短编辑距离算法出现后,翻译记忆技术趋于成熟。

但翻译记忆技术的出现并没有立刻改变翻译工作者的工作行为,因为翻译工作本质上是文字工作,如果文字工作没有好的显示工具和输入工具,是肯定无法做好的,所以:电子词典+机器翻译+翻译记忆的翻译技术组合还被人机交互技术束缚着。商业计算机和个人计算机的发展逐步打破了这样的束缚,个人计算机逐步变得相对廉价可用,但操作系统却没能跟上个人计算机的发展,复杂的操作系统依然在限制翻译技术的普及,也在限制着计算机辅助翻译工具的设计。

但图形化界面的操作系统出现后,更直观更友好的用户操作界面也相应出现,当这种页面开始出现在廉价的个人计算机上后,计算机辅助翻译工具才真正在翻译行业普及,友好的编辑器开始出现,一开始是基于字处理软件(如Word)来研发,慢慢的在优秀的操作系统的加持下变得可以独立设计研发,所以基于Windows操作系统的各类计算机辅助翻译工具在世界上广泛传播,掀起了计算机辅助翻译工具的热潮。

但是中国的改革开放并没有及时打开国门,中国的计算机技术发展也没有与世界突破,所以中国的计算机辅助翻译工具市场始终被国外工具占据着。由于计算机辅助翻译工具的核心是文字处理,而文字处理必须要基于文件格式,而文件格式标准又被国外公司把持,所以中国的计算机辅助翻译工具始终受到文件格式标准的束缚。

网络技术的发展给计算机辅助翻译工具带来了新的希望:原本在一台计算机上才能完成的翻译工作可以由多人同时完成,编辑器可以多人协同操作、电子词典可以多人共建和多人同时检索、翻译记忆库可以多人共建和多人同时检索、机器翻译可以不必受限于本地计算资源而是通过互联网来公开调用,于是计算机辅助翻译工具从独立使用变成了基于服务器使用。

互联网技术和移动通信技术的发展又使得访问一个网站比在本地安装一个软件要更容易,于是本地计算机辅助翻译工具逐步变成网页端计算机辅助翻译。

大数据技术的发展使得越来越多要翻译的数据不必存储在特定的文件格式中,而是可以直接存储在数据库中,于是原本受制于文件格式标准而无法广泛应用的计算机辅助翻译工具也迎来了春天,可以摆脱传统文件格式的束缚,新的计算机辅助翻译工具又井喷式出现。

随着现代语言服务流程越来越规范,人们认识到不仅翻译过程可以使用工具来辅助,语言服务的各个流程都可以使用工具来辅助,于是诸如翻译项目管理系统在内的不同类型的翻译技术工具纷纷涌现,而且原本嵌入在一个计算机辅助翻译工具中的技术也纷纷独立成单独的工具,市场不断出现专业的术语工具、语料库、机器翻译引擎等工具,所有的工具以接口的形式相互链接,从而极大提升了计算机辅助工具的功能性。

移动互联网技术和5G技术的出现促使原本通过纯文本来搭载的待翻译文本变成了音频、视频、图片、动画等多种形式的待翻译对象,这又使得原本只应用了纯文字处理技术的编辑器、词典、翻译记忆和机器翻译技术开始被新的技术加持,如:语音识别与合成技术、图像识别技术等。

今天的我们需要重新定义:在翻译过程中,我们能够使用怎样的计算机软硬件、我们拥有怎样的数字资源以及我们能够嵌入怎样的算法?

为什么我们要重新定义这几个问题?是因为现代逻辑学认为,演绎推理是必然性推理,如果演绎推理的前提是正确的,那么结论必然是正确的,而如果演绎推理的前提是错误的,那么结论也会是错误的。特斯拉创始人马斯克推崇亚里士多德的第一性原理,即:在每一系统的探索中,存在第一原理,是一个最基本的命题或假设,不能被省略或删除,也不能被违反。

假如本文最开始的这句话——“一位译员在翻译一篇文章时需要参考双语词典、过去翻译过的句子和机器自动翻译的译文,并且需要在一个像Word一样的字处理界面中完成翻译。”——本身就是错误的,那么我们又如何能够研发出真正能够帮助译员的计算机辅助翻译工具呢?所以我们在思考翻译技术的原理时,要思考我们所定义的“编辑器+翻译记忆+术语+机器翻译”是否就是不可打破的翻译技术基本原理组成,如果不是,什么才是?

二、什么在推动翻译技术的发展?

此时,还有另一个问题也是我们需要思考的:是什么在推动翻译技术的发展?

今天当我们在谈论翻译技术时,我们都会去探讨机器翻译,那么为什么机器翻译发展了这么多年,还有人在探讨计算机辅助翻译?为什么机器翻译最早出现在美国,而计算机辅助翻译工具却鲜有美国公司研发的?

这里,我想提及我的另一个假说:机器翻译的发展源于战争,而计算机辅助翻译的发展源于国际传播。

我重点解释一下后面这部分:经过我的部分调研,我发现,电子词典工具的应用源于欧盟,翻译记忆技术的应用源于杨百翰大学,翻译技术的普及源于科技公司。三者的共同点是:欧盟希望将一种语言的文本以多种语言的形式传递到欧洲其他国家,机器翻译固然高效,但不准确,所以必须借助工具来辅助人工翻译;杨百翰大学及相关人员希望将摩门教的教义以多语语言的形式传递到美国甚至世界其他地区,所以必须要研究如何才能准确且高效翻译摩门教的信息;科技公司希望将自己的产品销售到全球更多的国家,所以需要借助计算机辅助翻译工具来准确翻译产品说明书和其他产品信息。

通过去观察历史事实会发现,最早提出电子词典可以用于翻译流程的人来自欧盟的前身欧洲煤钢共同体,类似欧盟的组织还有联合国等,都是计算机辅助翻译技术的拥趸。最早提出翻译记忆技术的Alan Melby教授就是杨百翰大学的教授,而他本人也是摩门教徒(参见这篇文章了解他成长的背景:https://aclanthology.org/www.mt-archive.info/jnl/LangToday-1998-Melby.pdf),由于摩门教徒是需要学习多门语言的,这也促使他们去思考如何使用技术来提升语言学习的效果和翻译工作的效率。目前全世界知名的BYU语料库也是杨百翰大学的。今天全球使用最广的计算机辅助翻译工具Trados的前身INK是基于ALPS公司产品来研发,而这个ALPS公司就是源自杨百翰大学的摩门教文本机器翻译项目,他们研发了世界上第一款商业计算机辅助翻译工具。(参见论文:A SURVEY OF MACHINE TRANSLATION: ITS HISTORY, CURRENT STATUS, AND FUTURE PROSPECTS)。Trados和其前身INK都是为了翻译IBM公司的项目而研发的,而包括IBM、苹果、微软在内的互联网企业都是计算机辅助翻译工具的拥趸,微软公司更是后来成为了Trados公司的股东。如今这些互联网公司还在不断研发新的翻译技术,尤其是机器翻译技术。

无论是欧盟等国际组织,还是杨百翰大学还是科技公司,他们都发现机器翻译无法完全胜任他们的国际传播工作,所以必须要借助计算机辅助翻译工具,必须要通过人工翻译来提供高质量的文本。所以我认为国际传播是计算机辅助翻译技术发展的内驱力。

但为什么今天著名的计算机辅助翻译工具都不是美国公司或中国公司研发的呢?我猜想,这是因为中国虽然是一个多民族国家,但我们的通用语是汉语,所以政府并没有在翻译上花费太多经费来推动内部的传播,而在国际传播的过程中,中国政府和美国政府很相似,还是更相信自动翻译的价值,尤其是机器翻译在军事中的价值,而不是计算机辅助翻译工具的价值。中国的企业和美国的企业也很相似,不仅研发机器翻译,也深刻认同机器翻译在企业国际传播中的价值,所以今天的中国互联网公司,包括百度、腾讯、字节跳动、阿里巴巴、有道等,都拥有自己的计算机辅助翻译工具,而且绝大多数是以在线计算机辅助翻译工具为主,而非Trados这种客户端的计算机辅助翻译工具。

总结

前面我介绍了翻译技术的基本原理和发展内驱力,现在我们“演绎”一下,去思考今天的中国需要怎样的翻译技术。

必须要认同的是,机器翻译是极为重要的,但是计算机辅助翻译技术的发展同样对中国的国际传播有重大作用,无论是我们的国家语言服务还是企业个人的商业语言服务,都必须要重视翻译技术的发展,而且需要好好思考前面我们前面提及的问题:在翻译过程中,我们能够使用怎样的计算机软硬件、我们拥有怎样的数字资源以及我们能够嵌入怎样的算法?我们只有把这三个问题解答好,才能真正将翻译技术应用于国际传播过程中。

反观我们今天普遍对“翻译技术”的理解,我想除了对工具的介绍和功能的介绍外,如果想未来真正“演绎”出下一代的计算机辅助翻译工具,想创造性的推动翻译技术的发展,想真正提升国际语言服务的质量,还是应当深入原理,不能浮于表面。

…………………………………………………………………………………………………………

往期精彩回顾

专访 | 韩林涛:文科生如何学习机器翻译?

技术与工具 | 字幕翻译的好搭档:Arctime Pro+Urban Dictionary

CAT操作 | 如何在Déjà Vu X3中进行译前术语提取?

CAT操作丨如何使用Déjà Vu X3中的压缩工具&修复工具

实践答疑 | 区块链对语言服务行业会带来什么影响?

如需更深入学习,可关注微信公众号“翻译技术教育与研究”“语言服务行业”,留言交流。

显示全文

相关文章