机器翻译在台湾之研究与发展

苏克毅 1993/2/25  (Rev. 1997/3/07)

一、机器翻译系统在台湾的发展概况

相对于美国、苏联或中国大陆,台湾在机器翻译方面的研究,开始得相当晚。一直到 
1985年 5 月,才有清华大学电机工程研究所与英群电脑公司合作,由苏克毅教授带领
两位助理开始研究英汉机器翻译系统。接著台湾大学资讯工程研究所 (林一鹏教授主
持)、工业技术研究院电子所 (电通所的前身,由张照煌先生主持)、台湾松下研究所 
(郭俊桔先生主持)、台湾王安公司 (黄世道先生主持)、交通大学资讯工程研究所 (李
锡坚教授主持)、清华大学资讯科学研究所 (张俊盛教授主持)、资策会产品开发处 (
刘龙龙博士主持) 等,也都陆续展开这方面的研究。此外,中央研究院资讯所、交通
部电信研究所等单位,虽然没有机器翻译的研究计划,但也有相关性的研究计划。由
于研究机器翻译的人愈来愈多,为了让大家有交换研究心得及沟通意见的机会,台湾
从 1988 年起,每年都举办一次计算语言学研讨会 (英文名称为 R.O.C. Computational
Linguistics Conference,由中央研究院的陈克健教授及黄居仁教授筹办第一、二
届),并不定期举行各式小型讨论会。在各项活动日趋积极之后,大家觉得有必要成立
一个正式的组织,来推动这方面的研究。因此,计算语言学学会于 1990 年 3 月正式
成立 [1],负责统筹办理各项活动,并与国外相关研究单位联系。学会成立至今已历
三年,在第一任理事长谢清俊教授及第二任理事长陈克健教授带动下,成绩斐然。

除了计算语言学学会的活动之外,1991 年 6 月也在溪头专为机器翻译举办了一次「
机器翻译研讨会」,并邀请到三位国际知名的学者专家 (Makoto Nagao 教授、Winfield
Scott Bennett 博士以及 Masaru Tomita 教授) 作专题演讲。1993 年 2 月,更
进一步在计算语言学学会之下,正式成立机器翻译研究小组 (Special Interest Group
on Machine Translation,简称 SIGMT),并以 SIGMT 团体会员名义加入亚洲太平
洋区机器翻译协会(Asia-Pacific Association for Machine Translation) 及世界机
器翻译协会(International Assocication for Machine Translation)。因此台湾目
前的机器翻译研究发展已相当健全。

前面所提的是机器翻译在学术及研究单位进行的情形,接下来要介绍目前工业界商品
化的情形。前面提到的几个研究小组中,清华大学电机研究所与英群电脑公司合作的
计划,由于原来实验室空间不足,研究人员于 1988 年 2 月迁至新竹科学工业园区,
成立致远科技公司,继续从事机器翻译的研究开发。目前是以英汉系统为主,在工作
站上执行,并于1989 年 7 月开始提供翻译服务。主要是翻译技术手册。王安公司从
事英汉机译研究一段时期之后,因故中止。原先的研究人员自组欧泰公司,继续开发
英汉机译系统,现已有在个人电脑上执行的软体问世 (即「译经」)。此外,坊间也有
功学电脑公司,发行在个人电脑上执行的英汉及汉英系统 (广告上宣称还有其他数种
语言配对)。然而这些个人电脑上的软体,恐怕都还不是真正实用的产品 (意指能够大
量、快速、且可维持一定品质的翻译)。

除了上述的研发活动之外,台湾可能还有其他单位在研究开发机器翻译。限于手边资
料,难免有遗珠之憾。对于那些遗漏的单位,除在此致歉之外,也希望他们能提供资
料,以便日后有机会时,再作介绍。

以下我们将对曾经发表过论文,公开资料较多的系统,按照他们研发的先后时间,逐
一介绍。这些介绍主要是根据各单位提供的资料,然后再加以整理。有的单位在资料
中还提供了翻译的正确率及速度。但是因为机器翻译到目前为止还没有一个大家公认
且公开的测试环境及方法,各单位以不同的标准在不同的机器上测试,难免出入很大
。为了不误导读者,我们在以下的介绍中,将一律不列出正确率及速度,只介绍各个
系统的历史沿革及架构。有兴趣的读者,可向各单位索取更详细的资料。

二、各单位机器翻译系统简介:

1. 致远科技公司:

致远科技公司的机器翻译系统 (英文名称为 BehaviorTran),基本上是沿自清华大学
电机所与英群公司合作的研究计划。1988 年 2 月,该公司于新竹科学工业园区成立
,继续从事机器翻译的研究开发,并于 1989 年 7 月正式设立对外的翻译服务中心,
接受客户委托,展开实际的翻译业务。此后透过翻译中心的回馈,致远公司不断改善
系统的效能及使用者介面。早期 BehaviorTran 主要的翻译对象,是与电脑有关的手
册、使用说明以及书籍等。随著专业辞汇的增加,翻译的工作也逐渐扩大到电机、机
械、航空、心理学等领域。目前的客户是以在台的国际电脑公司为主。

BehaviorTran 是属于转换式 (Transfer) 的机器翻译系统,以 C 语言设计系统程式
。虽然是传统的转换架构,但这个系统加入了新的作法,使其能更适合新一代机器翻
译的需求。语法形式为补强型的词组结构语法 (Augmented Phrase Structure Grammar),
在词组律中加入了「限制条件」(Condition) 的检查,并利用个别词汇的属性及
语意分析,强化分析的能力,提高剖析的正确性。系统所用的剖析器,是经过强化的 
LR 剖析器,特色如下[8]∶

1.「Top-down 过滤」加「Bottom-up 剖析」:BehaviorTran 基本上是采由下而上  
(bottom-up) 的剖析方式,但同时也利用语法切分的方式,将剖析用的语法切分成数
  个次类语法 (Subgrammars),使其具有由上而下 (top-down) 方向的预测功能,便
于语法现象的描述及检查,以及过滤一些不适当的分析。

2. 部份剖析 (Partial Parsing):根据系统的特殊要求,以一个句子中的部份词串
(而非完整的句子) 为单位,进行剖析。例如,在剖析标题和分离式成语的受词时,检
查其中是否含有名词组等等。

3. 根据评分函数,删除可能性较低的剖析路径:除了利用语言学知识来删除歧义之外
,并以机率方式计算词类、语法和语意的分数,将未达设定标准的剖析路径删除,以
减少歧义数目及剖析时间。最后并以整合式的评分函数 [9] 选出最可能的剖析结果,
继续执行转换及生成的动作。

BehaviorTran 的词典依应用的层次分成∶(1) 一般词典,(2) 一般成语词典,(3) 分
离式成语词典,(4) 专业词典,(5) 客户词典,和 (6) 专案词典。在实际翻译文稿时
,由于一个词在不同词典的用法及意义可能同时出现,因此必须将各部词典里的资料
加以联并(Unification),以便得到所要的中文。词典联并时,资料取用的优先顺序为
:专案词典最先,客户词典次之,专业词典再次之,一般词典最后。

在新的技术方面,BehaviorTran 采用以语料为基础,架构在高层语言知识上的统计方
式,发展出一系列的技术来协助抽取知识、解决歧义及控制系统的行为。这些技术包
括:

1. 利用整合式的评分函数,解决词汇、语法及语意各层次的歧义现象 [2、7、9]。

2. 使用以鉴别力、强健性为导向的自动学习策略,调整系统参数,以减少不必要的深
层分析,并提高系统的执行绩效 [5、6]。

3. 利用机率式转换及生成模式,透过双语语料库 (Bilingual Corpus) 自动找出转换
单位及转换规则。并利用目标语的语法逆向找出系统的生成规则,以产生符合目标语
语法的译文,避免一般转换式系统生硬的翻译 [3]。

4. 在系统中并入回馈功能,使系统的行为能依使用者的需求调整,减少所需的译后修
缮 [11]。

有了这些新的作法,BehaviorTran 将可逐步整合语言学和统计学的知识,建构一个具
有一致性的大型自然语言处理系统。并以自动化、系统化的方式求取语言模式的参数
,改进传统的机器翻译系统,以迈向新一代机器翻译系统追求的目标。

近年来由于 Internet 的各种应用日新月异,由网路上快速抽取资讯的能力,不仅是
一般研究机构深感兴趣的话题,对一般商业机构提供更快速的资讯服务或藉此提高本
身的竞争力,也有莫大的助益。因此 BehaviorTran 研究小组也随时在注意『线上即
时机译』(Online Real Time MT) 及『线上即时资讯撷取』(Online Real Time
Information Retrieval) 等应用的可能发展。藉由上述机译技术的开发,未来将可望
提供更多类型的资讯转译 (Information Translation) 服务,以便即时跨越语言障碍,
快速抽取所需的资讯。

2. 台湾大学资讯工程研究所:

台湾大学资讯工程研究所在 1986 年由林一鹏教授主持,开始进行英中机器翻译系统 
(称为 NTUECMT) 的基础研究,目标是建立一套机器辅助翻译系统,并在此套系统上探
讨特殊语言现象的处理方式,以作为进一步应用的参考。到了 1989 年,陈信希教授
也开始参与此项研究计划,并改写了剖析器及执行环境。目前系统在 SPARCstation-1
 工作站 SunOS4.1.1-HLE 1.1.1 的中文环境下运作。

NTUECMT 是以联并为本的机器翻译系统,从剖析到转换都采用相同的策略。整个系统
架构具有均质性,主要部门包括语法编译器、词典管理模组、语汇模组、剖析模组、
转换模组、生成模组和两个资料库 (语法资料库及词典)。语法编译器的功能是编译语
法资料库,以产生剖析模组和转换模组。语法是编译成 Prolog 程式码。NTUECMT 是
一套左隅、由下而上 (left-corner, bottom-up) 循序处理的系统。词典管理模组以 
C 语言设计。语汇模组担任前处理的工作,将输入语句中的复合词、惯用词和缩写词
预先处理,并还原语形。剖析模组和转换模组是两个并列执行的单元,运用组合原理
将英文句子结构转换成中文属性结构。联并运算扮演语法和语意知识的角色,以帮助
系统选择词语、增删词语和调整结构。在属性结构中,属性的顺序对于联并运算并无
意义,但在句子的产生上,属性的顺序却很重要。因此生成模组依据设定顺序,将中
文属性结构线性化,以产生对应的中文句子。除了基本结构的设计之外,时间信息的
转换、介词片语的定位及翻译、省略句型的剖析及翻译、指涉分析及其在机器翻译的
应用等,也都是 NTUECMT 设计上的重要课题。

3. 工业技术研究院电脑及通讯工业研究所 (简称工研院电通所)

工研院电通所在机器翻译方面的发展相当早,共有两个系统,一个是英文译成中文的
系统(称为 TransMaster),另一个是日文译成中文的系统 (称为 ITRI/CCL JCMT)。英
中系统的发展时间是 1986 年到 1990 年,最先由张照煌先生负责,在张照煌先生赴
美进修后,由黎伟权先生负责。使用的人力平均为每年 6 个人,曾对工业界作技术转
移。日中系统的发展时间为 1989 年到 1992 年,由李炳煌先生负责。平均人力为每
年 9 个人。目前基本架构已经完成,正在作细部调整。

英中系统的架构是转换式,使用强化式语境自由语法 (Augmented Context Free Grammar)
及语意格语法 (Case Grammar) 分析句子,再根据依存结构 (DependencyStructure)
作转换,转换后使用格位样型 (Case Pattern) 进行合成。规则库的大小为:(1)
长句断句 (Long Sentance Segmentation):35 条,(2) 形态分析:45 条,(3) 英
文句法分析:600 条,(4) 语意分析:100 条,(5) 词汇转换:2000 条,(6) 语法转
换:50 条,(7) 中文合成:400 条。字词以框架 (Frame) 结构表示,包含语意分类
及分析所需的各类信息。一般词汇有 50,000 词,电脑专业词典有 15,000 词。整个
系统是以 Lisp 语言写成,可在个人电脑上执行。

日中系统也是采转换式,使用强化式语境限制语法 (Augmented Context Sensitive
Grammar) 及语意格语法进行分析,而以格位样型进行合成。转换及生成的作法和英中系
统相同。规则库的大小为:(1) 形态分析:860 条,(2) 句法分析:800条,(3) 语意
分析:97 条,(4) 词汇转换:94 条,(5) 合成:306 条。词典结构和英中系统相同
,共有基本词汇 79,180 词。系统以 C 语言写成,在 Sun SPARC 工作站上执行。

4. 台湾松下研究所 (Matsushita Electric Institute of Technology, Taipei)

台湾松下研究所从 1987 年 9 月开始发展日中翻译系统 (称为 MITTRAN),由郭俊桔
先生担任计划主持人。机译架构采转换式。目前是以研究计划的形式进行。这套系统
不管分析、转换还是生成,都是采用树形转换语法 (Tree TransformationGrammar)。
另外在语意分析及中文生成方面,还应用了语意格语法;而在结构转换方面,则应用
了依存结构。规则总数约有 1500 条,基本词典的词项有 60,000 个。整个系统以C 
语言写成,在 Solbourne 系列的 UNIX 工作站上执行。目前并构建了一个语法发展环
境,提供描述树状结构转换 (Tree Transducing) 的语言。

5. 交通大学资讯工程研究所

交通大学资讯工程研究所的中英机器翻译计划 (简称 CEMAT),是由李锡坚教授主持,
从1988 年 8 月开始研究。目前人力有博士班 1 人,硕士班 4 人。这个中英翻译系
统采用转换式架构。中文断词及词类标记 (Word Segmentation and Tagging) 是使用
马可夫模式 (Bi/Trigram Markov Model)。语法是采用规则导向的概化结构语法 (Rul
e-OrientedGeneralized Phrase Structure Grammar),及词汇导向的中心语驱动语法
 (Lexicon-Oriented Head-driven Phrase Structure Grammar)。结构语法是用来描
述构成成份(Constituent) 之间的关系,词汇信息则用来描述构成成份的个别性质及
彼此之间的呼应关系 (Agreement Restriction)。这个系统的剖析器是强化的联并导
向 LR 剖析器(Generalized Unification-based LR Parser)。

这套系统对中文的时制及动貌 (Tense and Aspect) 作了特别的处理。他们分析了时
态成份 (Temporal Constituent),如「了」等,以抽离出时制及动貌信息。在解决词
汇歧义方面,系统使用的是特徵结构 (Feature Structure)。在结构转换方面,CEMAT
 使用的是一种 Top-down Guided Bottom-up Structure Transfer 的作法。这种转换
方式是根据组合原理 (Compositionality Principle),将下层信息带到上层节点。系
统并特别处理了中文的「把」字句及名物化结构 (Nominalization)。而目标语的生成
是以规则来驱动(Rule-Driven)。生成语法的形式是 X 标杠理论 (X-bar Theory) 及
概化结构语法。

6. 清华大学资讯科学研究所

清华大学资讯科学所从 1990 年开始研究英中翻译系统,计划是由张俊盛教授主持。
目前人力有博士班学生 1 名,硕士班学生 3 名,以及专任助理 2 名。这个计划是以
中英文版的国际无线电联合会公约为对象,进行小规模的句法剖析、转换及合成研究
。其中句法剖析是以 PROLOG 语言制作程式。系统采用简单的句法规则及联并式的图
表剖析方式。转换部份是由主动式的双语词典驱动,进行有限的转换动作。中文翻译
部份是采用以系统语法为基础的句子合成器。

另外在 1991 年,资讯科学研究所还以印表机使用手册为语料,研究自动产生英文及
中文句子的方法。他们是以句子中名词组之间的格位关系作为输入格式,采用系统语
法来合成句法结构。

从 1992 年起,资讯科学研究所开始从事整合式英中翻译系统的研究。他们整合了机
率式、范例式、传统模组式的机器翻译作法,采用机读式朗文当代英汉双解词典及双
语技术手册语料库为工具,以一般性文章为语料进行研究。目前已经完成的工作包括
:词典资料的撷取、词性分析、词组分析、双语资料的辞汇对应。

另外,从 1992 年起,资讯科学研究所也开始研究可翻译及审查计算机名词的机器辅
助系统。这个系统是利用词典资料及适切的使用者介面,来降低翻译、修正、审查的
打字输入及认知过程的成本。目前的效果据估计已经能节省 50% 左右的人力。

三、结语

一般说来,机器翻译需要钜量而琐细的知识 (规则)。传统上,归纳规则的工作是由人
来完成。这需要非常大量的人力,而且也很难维持这些知识的一致性。往往在加入一
些规则以改进某些句子的翻译之后,其他一些原本可以处理的句子,又变得无法处理
。形成像跷跷板一样,在某处将错误压下去,在别的地方又会冒出新的错误。这种现
象使得系统在日趋庞大之后,变得愈来愈复杂、愈来愈难维护及改进。这个严重的问
题,是许多以传统方法设计的机器翻译系统,最后无法突破瓶颈的原因。

目前比较有希望的方法,可能是所谓的「以语料库为基础,以统计为导向的作法」
(Corpus-based Statistics-oriented Approach) [4、10]。这种方法是先建构一个大型
的语料库,然后由人设计一些语言模式 (Language Model) 及语言使用模式 (Language
Using Model)。这些模式是由许多参数来规范。参数值的计算,则是由计算机从语料
库中自动学习。这种作法将获取知识 (Knowledge Acquisition) 的重担,从人转移到
计算机,由计算机去获取及管理这一大堆参数。因为计算机每次在学习这些参数时,
都是同时考虑这个语料库中所有的资讯,因此可以避免前述的不一致问题及跷跷板问
题。同时每次加入新的语料,或是处理一个新的领域时,计算机只要重新学一次即可
。简言之,未来的机器翻译系统将会逐渐强调:(1) 参数化的模式;(2) 以语料为基
础,以统计为工具,建构在高层语言知识上的语言模式;(3) 一致性的歧义解决方式
与客观的评分机制;(4) 强化鉴别力及强健性的自动学习策略;(5) 双向式的系统设
计;(6) 依使用者需求调整系统行为的回馈控制功能。

虽然从全世界的机器翻译发展史看来,台湾的研究起步较晚,但在这一波新的研究风
潮中,台湾跟其他国家是站在同一起跑线上,具有很好的契机。目前国内投入机器翻
研究的人力已略见规模。同时经过传播媒体多次的报导之后,社会上对机器翻译感兴
趣的人也愈来愈多。整体说来,台湾已有了良好的基础。为了使机器翻译的研发工作
早日开花结果,我们希望能有更多对机译系统感兴趣的人,积极加入这个行列。

最后要感谢致远科技张景新先生、台大陈信希教授、电通所黎伟权先生、松下郭俊桔
先生、交大李锡坚教授、及清大张俊盛教授热心提供资料,本文才得以顺利完成。

四、参考文献:

[1] 谢清俊、黄居仁、陈克健、郑秋豫、李琳山,「计算语言专辑」,科学月刊,
21 卷第 4 期,280-305 页,科学月刊社,1990 年 4 月。

[2] Chang, J.-S., Y.-F. Luo and K.-Y. Su, "GPSM: A Generalized Probabilistic
Semantic Model for Ambiguity Resolution," Proceedings of ACL-92, pp. 177-184,
30th Annual Meeting of the Association for Computational Linguistics,
University of Delaware, Newark, DE, USA, 1992.

[3] Chang, J.-S. and K.-Y. Su, "A Corpus-Based Statistics-Oriented Transfer
and Generation Model for Machine Translation," Proceedings of TMI-93,
pp. 3-14, 5th Int. Conf. on Theoretical and Methodological Issues in
Machine Translation, Kyoto, Japan, 1993.

[4] Chen, S.-C., J.-S. Chang, J.-N. Wang and K.-Y. Su, "ArchTran: A Corpus-
Based Statistics-Oriented English-Chinese Machine Translation System,"
Proceedings of Machine Translation Summit III, pp. 33-40, Washington, D.C.,
USA, 1991.

[5] Chiang, T.-H., Y.-C. Lin and K.-Y. Su, "Syntactic Ambiguity Resolution
Using A Discrimination and Robustness Oriented Adaptive Learning Algorithm",
Proceedings of COLING-92, vol. I, pp. 352-358, 14th Int. Conference on
Computational Linguistics, Nantes, France, 1992.

[6] Lin, Yi-Chung, Tung-Hui Chiang and Keh-Yih Su, "Discrimination Oriented
Probabilistic Tagging," Proceedings of ROCLING-V, ROC Computational Linguistics
Conference V, pp. 87-96, 1992.

[7] Su, K.-Y. and J.-S. Chang, "Semantic and Syntactic Aspects of Score
Function," Proc. of COLING-88, vol. 2, pp. 642-644, 12th Int. Conf. on
Computational Linguistics, Budapest, Hungary, 1988.

[8] Su, K.-Y. and J.-S. Chang, "Some Key Issues in Designing MT Systems,"
Machine Translation, vol. 5, no. 4, pp. 265-300, 1990.

[9] Su, K.-Y., J.-N. Wang, M.-H. Su and J.-S. Chang, "GLR Parsing with
Scoring," In M. Tomita (ed.), Generalized LR Parsing, Chapter 7, pp. 93-112,
Kluwer Academic Publishers, 1991.

[10] Su, K.-Y and J.-S. Chang, "Why Corpus-Based Statistics-Oriented Machine
Translation," Proceedings of TMI-92, pp. 249-262, 4th Int. Conf. on
Theoretical and Methodological Issues in Machine Translation, Montreal,
Canada, 1992.

[11] Su, K.-Y., M.-W. Wu and J.-S. Chang, "A New Quantitative Quality Measure
for Machine Translation Systems," Proceedings of COLING-92, vol. II, pp. 
433-439, 14th Int. Conference on Computational Linguistics, Nantes, France,
1992.