机器翻译在台湾之研究与发展 苏克毅 1993/2/25 (Rev. 1997/3/07) 一、机器翻译系统在台湾的发展概况 相对于美国、苏联或中国大陆,台湾在机器翻译方面的研究,开始得相当晚。一直到 1985年 5 月,才有清华大学电机工程研究所与英群电脑公司合作,由苏克毅教授带领 两位助理开始研究英汉机器翻译系统。接著台湾大学资讯工程研究所 (林一鹏教授主 持)、工业技术研究院电子所 (电通所的前身,由张照煌先生主持)、台湾松下研究所 (郭俊桔先生主持)、台湾王安公司 (黄世道先生主持)、交通大学资讯工程研究所 (李 锡坚教授主持)、清华大学资讯科学研究所 (张俊盛教授主持)、资策会产品开发处 ( 刘龙龙博士主持) 等,也都陆续展开这方面的研究。此外,中央研究院资讯所、交通 部电信研究所等单位,虽然没有机器翻译的研究计划,但也有相关性的研究计划。由 于研究机器翻译的人愈来愈多,为了让大家有交换研究心得及沟通意见的机会,台湾 从 1988 年起,每年都举办一次计算语言学研讨会 (英文名称为 R.O.C. Computational Linguistics Conference,由中央研究院的陈克健教授及黄居仁教授筹办第一、二 届),并不定期举行各式小型讨论会。在各项活动日趋积极之后,大家觉得有必要成立 一个正式的组织,来推动这方面的研究。因此,计算语言学学会于 1990 年 3 月正式 成立 [1],负责统筹办理各项活动,并与国外相关研究单位联系。学会成立至今已历 三年,在第一任理事长谢清俊教授及第二任理事长陈克健教授带动下,成绩斐然。 除了计算语言学学会的活动之外,1991 年 6 月也在溪头专为机器翻译举办了一次「 机器翻译研讨会」,并邀请到三位国际知名的学者专家 (Makoto Nagao 教授、Winfield Scott Bennett 博士以及 Masaru Tomita 教授) 作专题演讲。1993 年 2 月,更 进一步在计算语言学学会之下,正式成立机器翻译研究小组 (Special Interest Group on Machine Translation,简称 SIGMT),并以 SIGMT 团体会员名义加入亚洲太平 洋区机器翻译协会(Asia-Pacific Association for Machine Translation) 及世界机 器翻译协会(International Assocication for Machine Translation)。因此台湾目 前的机器翻译研究发展已相当健全。 前面所提的是机器翻译在学术及研究单位进行的情形,接下来要介绍目前工业界商品 化的情形。前面提到的几个研究小组中,清华大学电机研究所与英群电脑公司合作的 计划,由于原来实验室空间不足,研究人员于 1988 年 2 月迁至新竹科学工业园区, 成立致远科技公司,继续从事机器翻译的研究开发。目前是以英汉系统为主,在工作 站上执行,并于1989 年 7 月开始提供翻译服务。主要是翻译技术手册。王安公司从 事英汉机译研究一段时期之后,因故中止。原先的研究人员自组欧泰公司,继续开发 英汉机译系统,现已有在个人电脑上执行的软体问世 (即「译经」)。此外,坊间也有 功学电脑公司,发行在个人电脑上执行的英汉及汉英系统 (广告上宣称还有其他数种 语言配对)。然而这些个人电脑上的软体,恐怕都还不是真正实用的产品 (意指能够大 量、快速、且可维持一定品质的翻译)。 除了上述的研发活动之外,台湾可能还有其他单位在研究开发机器翻译。限于手边资 料,难免有遗珠之憾。对于那些遗漏的单位,除在此致歉之外,也希望他们能提供资 料,以便日后有机会时,再作介绍。 以下我们将对曾经发表过论文,公开资料较多的系统,按照他们研发的先后时间,逐 一介绍。这些介绍主要是根据各单位提供的资料,然后再加以整理。有的单位在资料 中还提供了翻译的正确率及速度。但是因为机器翻译到目前为止还没有一个大家公认 且公开的测试环境及方法,各单位以不同的标准在不同的机器上测试,难免出入很大 。为了不误导读者,我们在以下的介绍中,将一律不列出正确率及速度,只介绍各个 系统的历史沿革及架构。有兴趣的读者,可向各单位索取更详细的资料。 二、各单位机器翻译系统简介: 1. 致远科技公司: 致远科技公司的机器翻译系统 (英文名称为 BehaviorTran),基本上是沿自清华大学 电机所与英群公司合作的研究计划。1988 年 2 月,该公司于新竹科学工业园区成立 ,继续从事机器翻译的研究开发,并于 1989 年 7 月正式设立对外的翻译服务中心, 接受客户委托,展开实际的翻译业务。此后透过翻译中心的回馈,致远公司不断改善 系统的效能及使用者介面。早期 BehaviorTran 主要的翻译对象,是与电脑有关的手 册、使用说明以及书籍等。随著专业辞汇的增加,翻译的工作也逐渐扩大到电机、机 械、航空、心理学等领域。目前的客户是以在台的国际电脑公司为主。 BehaviorTran 是属于转换式 (Transfer) 的机器翻译系统,以 C 语言设计系统程式 。虽然是传统的转换架构,但这个系统加入了新的作法,使其能更适合新一代机器翻 译的需求。语法形式为补强型的词组结构语法 (Augmented Phrase Structure Grammar), 在词组律中加入了「限制条件」(Condition) 的检查,并利用个别词汇的属性及 语意分析,强化分析的能力,提高剖析的正确性。系统所用的剖析器,是经过强化的 LR 剖析器,特色如下[8]∶ 1.「Top-down 过滤」加「Bottom-up 剖析」:BehaviorTran 基本上是采由下而上 (bottom-up) 的剖析方式,但同时也利用语法切分的方式,将剖析用的语法切分成数 个次类语法 (Subgrammars),使其具有由上而下 (top-down) 方向的预测功能,便 于语法现象的描述及检查,以及过滤一些不适当的分析。 2. 部份剖析 (Partial Parsing):根据系统的特殊要求,以一个句子中的部份词串 (而非完整的句子) 为单位,进行剖析。例如,在剖析标题和分离式成语的受词时,检 查其中是否含有名词组等等。 3. 根据评分函数,删除可能性较低的剖析路径:除了利用语言学知识来删除歧义之外 ,并以机率方式计算词类、语法和语意的分数,将未达设定标准的剖析路径删除,以 减少歧义数目及剖析时间。最后并以整合式的评分函数 [9] 选出最可能的剖析结果, 继续执行转换及生成的动作。 BehaviorTran 的词典依应用的层次分成∶(1) 一般词典,(2) 一般成语词典,(3) 分 离式成语词典,(4) 专业词典,(5) 客户词典,和 (6) 专案词典。在实际翻译文稿时 ,由于一个词在不同词典的用法及意义可能同时出现,因此必须将各部词典里的资料 加以联并(Unification),以便得到所要的中文。词典联并时,资料取用的优先顺序为 :专案词典最先,客户词典次之,专业词典再次之,一般词典最后。 在新的技术方面,BehaviorTran 采用以语料为基础,架构在高层语言知识上的统计方 式,发展出一系列的技术来协助抽取知识、解决歧义及控制系统的行为。这些技术包 括: 1. 利用整合式的评分函数,解决词汇、语法及语意各层次的歧义现象 [2、7、9]。 2. 使用以鉴别力、强健性为导向的自动学习策略,调整系统参数,以减少不必要的深 层分析,并提高系统的执行绩效 [5、6]。 3. 利用机率式转换及生成模式,透过双语语料库 (Bilingual Corpus) 自动找出转换 单位及转换规则。并利用目标语的语法逆向找出系统的生成规则,以产生符合目标语 语法的译文,避免一般转换式系统生硬的翻译 [3]。 4. 在系统中并入回馈功能,使系统的行为能依使用者的需求调整,减少所需的译后修 缮 [11]。 有了这些新的作法,BehaviorTran 将可逐步整合语言学和统计学的知识,建构一个具 有一致性的大型自然语言处理系统。并以自动化、系统化的方式求取语言模式的参数 ,改进传统的机器翻译系统,以迈向新一代机器翻译系统追求的目标。 近年来由于 Internet 的各种应用日新月异,由网路上快速抽取资讯的能力,不仅是 一般研究机构深感兴趣的话题,对一般商业机构提供更快速的资讯服务或藉此提高本 身的竞争力,也有莫大的助益。因此 BehaviorTran 研究小组也随时在注意『线上即 时机译』(Online Real Time MT) 及『线上即时资讯撷取』(Online Real Time Information Retrieval) 等应用的可能发展。藉由上述机译技术的开发,未来将可望 提供更多类型的资讯转译 (Information Translation) 服务,以便即时跨越语言障碍, 快速抽取所需的资讯。 2. 台湾大学资讯工程研究所: 台湾大学资讯工程研究所在 1986 年由林一鹏教授主持,开始进行英中机器翻译系统 (称为 NTUECMT) 的基础研究,目标是建立一套机器辅助翻译系统,并在此套系统上探 讨特殊语言现象的处理方式,以作为进一步应用的参考。到了 1989 年,陈信希教授 也开始参与此项研究计划,并改写了剖析器及执行环境。目前系统在 SPARCstation-1 工作站 SunOS4.1.1-HLE 1.1.1 的中文环境下运作。 NTUECMT 是以联并为本的机器翻译系统,从剖析到转换都采用相同的策略。整个系统 架构具有均质性,主要部门包括语法编译器、词典管理模组、语汇模组、剖析模组、 转换模组、生成模组和两个资料库 (语法资料库及词典)。语法编译器的功能是编译语 法资料库,以产生剖析模组和转换模组。语法是编译成 Prolog 程式码。NTUECMT 是 一套左隅、由下而上 (left-corner, bottom-up) 循序处理的系统。词典管理模组以 C 语言设计。语汇模组担任前处理的工作,将输入语句中的复合词、惯用词和缩写词 预先处理,并还原语形。剖析模组和转换模组是两个并列执行的单元,运用组合原理 将英文句子结构转换成中文属性结构。联并运算扮演语法和语意知识的角色,以帮助 系统选择词语、增删词语和调整结构。在属性结构中,属性的顺序对于联并运算并无 意义,但在句子的产生上,属性的顺序却很重要。因此生成模组依据设定顺序,将中 文属性结构线性化,以产生对应的中文句子。除了基本结构的设计之外,时间信息的 转换、介词片语的定位及翻译、省略句型的剖析及翻译、指涉分析及其在机器翻译的 应用等,也都是 NTUECMT 设计上的重要课题。 3. 工业技术研究院电脑及通讯工业研究所 (简称工研院电通所) 工研院电通所在机器翻译方面的发展相当早,共有两个系统,一个是英文译成中文的 系统(称为 TransMaster),另一个是日文译成中文的系统 (称为 ITRI/CCL JCMT)。英 中系统的发展时间是 1986 年到 1990 年,最先由张照煌先生负责,在张照煌先生赴 美进修后,由黎伟权先生负责。使用的人力平均为每年 6 个人,曾对工业界作技术转 移。日中系统的发展时间为 1989 年到 1992 年,由李炳煌先生负责。平均人力为每 年 9 个人。目前基本架构已经完成,正在作细部调整。 英中系统的架构是转换式,使用强化式语境自由语法 (Augmented Context Free Grammar) 及语意格语法 (Case Grammar) 分析句子,再根据依存结构 (DependencyStructure) 作转换,转换后使用格位样型 (Case Pattern) 进行合成。规则库的大小为:(1) 长句断句 (Long Sentance Segmentation):35 条,(2) 形态分析:45 条,(3) 英 文句法分析:600 条,(4) 语意分析:100 条,(5) 词汇转换:2000 条,(6) 语法转 换:50 条,(7) 中文合成:400 条。字词以框架 (Frame) 结构表示,包含语意分类 及分析所需的各类信息。一般词汇有 50,000 词,电脑专业词典有 15,000 词。整个 系统是以 Lisp 语言写成,可在个人电脑上执行。 日中系统也是采转换式,使用强化式语境限制语法 (Augmented Context Sensitive Grammar) 及语意格语法进行分析,而以格位样型进行合成。转换及生成的作法和英中系 统相同。规则库的大小为:(1) 形态分析:860 条,(2) 句法分析:800条,(3) 语意 分析:97 条,(4) 词汇转换:94 条,(5) 合成:306 条。词典结构和英中系统相同 ,共有基本词汇 79,180 词。系统以 C 语言写成,在 Sun SPARC 工作站上执行。 4. 台湾松下研究所 (Matsushita Electric Institute of Technology, Taipei) 台湾松下研究所从 1987 年 9 月开始发展日中翻译系统 (称为 MITTRAN),由郭俊桔 先生担任计划主持人。机译架构采转换式。目前是以研究计划的形式进行。这套系统 不管分析、转换还是生成,都是采用树形转换语法 (Tree TransformationGrammar)。 另外在语意分析及中文生成方面,还应用了语意格语法;而在结构转换方面,则应用 了依存结构。规则总数约有 1500 条,基本词典的词项有 60,000 个。整个系统以C 语言写成,在 Solbourne 系列的 UNIX 工作站上执行。目前并构建了一个语法发展环 境,提供描述树状结构转换 (Tree Transducing) 的语言。 5. 交通大学资讯工程研究所 交通大学资讯工程研究所的中英机器翻译计划 (简称 CEMAT),是由李锡坚教授主持, 从1988 年 8 月开始研究。目前人力有博士班 1 人,硕士班 4 人。这个中英翻译系 统采用转换式架构。中文断词及词类标记 (Word Segmentation and Tagging) 是使用 马可夫模式 (Bi/Trigram Markov Model)。语法是采用规则导向的概化结构语法 (Rul e-OrientedGeneralized Phrase Structure Grammar),及词汇导向的中心语驱动语法 (Lexicon-Oriented Head-driven Phrase Structure Grammar)。结构语法是用来描 述构成成份(Constituent) 之间的关系,词汇信息则用来描述构成成份的个别性质及 彼此之间的呼应关系 (Agreement Restriction)。这个系统的剖析器是强化的联并导 向 LR 剖析器(Generalized Unification-based LR Parser)。 这套系统对中文的时制及动貌 (Tense and Aspect) 作了特别的处理。他们分析了时 态成份 (Temporal Constituent),如「了」等,以抽离出时制及动貌信息。在解决词 汇歧义方面,系统使用的是特徵结构 (Feature Structure)。在结构转换方面,CEMAT 使用的是一种 Top-down Guided Bottom-up Structure Transfer 的作法。这种转换 方式是根据组合原理 (Compositionality Principle),将下层信息带到上层节点。系 统并特别处理了中文的「把」字句及名物化结构 (Nominalization)。而目标语的生成 是以规则来驱动(Rule-Driven)。生成语法的形式是 X 标杠理论 (X-bar Theory) 及 概化结构语法。 6. 清华大学资讯科学研究所 清华大学资讯科学所从 1990 年开始研究英中翻译系统,计划是由张俊盛教授主持。 目前人力有博士班学生 1 名,硕士班学生 3 名,以及专任助理 2 名。这个计划是以 中英文版的国际无线电联合会公约为对象,进行小规模的句法剖析、转换及合成研究 。其中句法剖析是以 PROLOG 语言制作程式。系统采用简单的句法规则及联并式的图 表剖析方式。转换部份是由主动式的双语词典驱动,进行有限的转换动作。中文翻译 部份是采用以系统语法为基础的句子合成器。 另外在 1991 年,资讯科学研究所还以印表机使用手册为语料,研究自动产生英文及 中文句子的方法。他们是以句子中名词组之间的格位关系作为输入格式,采用系统语 法来合成句法结构。 从 1992 年起,资讯科学研究所开始从事整合式英中翻译系统的研究。他们整合了机 率式、范例式、传统模组式的机器翻译作法,采用机读式朗文当代英汉双解词典及双 语技术手册语料库为工具,以一般性文章为语料进行研究。目前已经完成的工作包括 :词典资料的撷取、词性分析、词组分析、双语资料的辞汇对应。 另外,从 1992 年起,资讯科学研究所也开始研究可翻译及审查计算机名词的机器辅 助系统。这个系统是利用词典资料及适切的使用者介面,来降低翻译、修正、审查的 打字输入及认知过程的成本。目前的效果据估计已经能节省 50% 左右的人力。 三、结语 一般说来,机器翻译需要钜量而琐细的知识 (规则)。传统上,归纳规则的工作是由人 来完成。这需要非常大量的人力,而且也很难维持这些知识的一致性。往往在加入一 些规则以改进某些句子的翻译之后,其他一些原本可以处理的句子,又变得无法处理 。形成像跷跷板一样,在某处将错误压下去,在别的地方又会冒出新的错误。这种现 象使得系统在日趋庞大之后,变得愈来愈复杂、愈来愈难维护及改进。这个严重的问 题,是许多以传统方法设计的机器翻译系统,最后无法突破瓶颈的原因。 目前比较有希望的方法,可能是所谓的「以语料库为基础,以统计为导向的作法」 (Corpus-based Statistics-oriented Approach) [4、10]。这种方法是先建构一个大型 的语料库,然后由人设计一些语言模式 (Language Model) 及语言使用模式 (Language Using Model)。这些模式是由许多参数来规范。参数值的计算,则是由计算机从语料 库中自动学习。这种作法将获取知识 (Knowledge Acquisition) 的重担,从人转移到 计算机,由计算机去获取及管理这一大堆参数。因为计算机每次在学习这些参数时, 都是同时考虑这个语料库中所有的资讯,因此可以避免前述的不一致问题及跷跷板问 题。同时每次加入新的语料,或是处理一个新的领域时,计算机只要重新学一次即可 。简言之,未来的机器翻译系统将会逐渐强调:(1) 参数化的模式;(2) 以语料为基 础,以统计为工具,建构在高层语言知识上的语言模式;(3) 一致性的歧义解决方式 与客观的评分机制;(4) 强化鉴别力及强健性的自动学习策略;(5) 双向式的系统设 计;(6) 依使用者需求调整系统行为的回馈控制功能。 虽然从全世界的机器翻译发展史看来,台湾的研究起步较晚,但在这一波新的研究风 潮中,台湾跟其他国家是站在同一起跑线上,具有很好的契机。目前国内投入机器翻 研究的人力已略见规模。同时经过传播媒体多次的报导之后,社会上对机器翻译感兴 趣的人也愈来愈多。整体说来,台湾已有了良好的基础。为了使机器翻译的研发工作 早日开花结果,我们希望能有更多对机译系统感兴趣的人,积极加入这个行列。 最后要感谢致远科技张景新先生、台大陈信希教授、电通所黎伟权先生、松下郭俊桔 先生、交大李锡坚教授、及清大张俊盛教授热心提供资料,本文才得以顺利完成。 四、参考文献: [1] 谢清俊、黄居仁、陈克健、郑秋豫、李琳山,「计算语言专辑」,科学月刊, 21 卷第 4 期,280-305 页,科学月刊社,1990 年 4 月。 [2] Chang, J.-S., Y.-F. Luo and K.-Y. Su, "GPSM: A Generalized Probabilistic Semantic Model for Ambiguity Resolution," Proceedings of ACL-92, pp. 177-184, 30th Annual Meeting of the Association for Computational Linguistics, University of Delaware, Newark, DE, USA, 1992. [3] Chang, J.-S. and K.-Y. Su, "A Corpus-Based Statistics-Oriented Transfer and Generation Model for Machine Translation," Proceedings of TMI-93, pp. 3-14, 5th Int. Conf. on Theoretical and Methodological Issues in Machine Translation, Kyoto, Japan, 1993. [4] Chen, S.-C., J.-S. Chang, J.-N. Wang and K.-Y. Su, "ArchTran: A Corpus- Based Statistics-Oriented English-Chinese Machine Translation System," Proceedings of Machine Translation Summit III, pp. 33-40, Washington, D.C., USA, 1991. [5] Chiang, T.-H., Y.-C. Lin and K.-Y. Su, "Syntactic Ambiguity Resolution Using A Discrimination and Robustness Oriented Adaptive Learning Algorithm", Proceedings of COLING-92, vol. I, pp. 352-358, 14th Int. Conference on Computational Linguistics, Nantes, France, 1992. [6] Lin, Yi-Chung, Tung-Hui Chiang and Keh-Yih Su, "Discrimination Oriented Probabilistic Tagging," Proceedings of ROCLING-V, ROC Computational Linguistics Conference V, pp. 87-96, 1992. [7] Su, K.-Y. and J.-S. Chang, "Semantic and Syntactic Aspects of Score Function," Proc. of COLING-88, vol. 2, pp. 642-644, 12th Int. Conf. on Computational Linguistics, Budapest, Hungary, 1988. [8] Su, K.-Y. and J.-S. Chang, "Some Key Issues in Designing MT Systems," Machine Translation, vol. 5, no. 4, pp. 265-300, 1990. [9] Su, K.-Y., J.-N. Wang, M.-H. Su and J.-S. Chang, "GLR Parsing with Scoring," In M. Tomita (ed.), Generalized LR Parsing, Chapter 7, pp. 93-112, Kluwer Academic Publishers, 1991. [10] Su, K.-Y and J.-S. Chang, "Why Corpus-Based Statistics-Oriented Machine Translation," Proceedings of TMI-92, pp. 249-262, 4th Int. Conf. on Theoretical and Methodological Issues in Machine Translation, Montreal, Canada, 1992. [11] Su, K.-Y., M.-W. Wu and J.-S. Chang, "A New Quantitative Quality Measure for Machine Translation Systems," Proceedings of COLING-92, vol. II, pp. 433-439, 14th Int. Conference on Computational Linguistics, Nantes, France, 1992.