機器翻譯在台灣之研究與發展

蘇克毅 1993/2/25  (Rev. 1997/3/07)

一、機器翻譯系統在台灣的發展概況

相對於美國、蘇聯或中國大陸,台灣在機器翻譯方面的研究,開始得相當晚。一直到 
1985年 5 月,才有清華大學電機工程研究所與英群電腦公司合作,由蘇克毅教授帶領
兩位助理開始研究英漢機器翻譯系統。接著台灣大學資訊工程研究所 (林一鵬教授主
持)、工業技術研究院電子所 (電通所的前身,由張照煌先生主持)、台灣松下研究所 
(郭俊桔先生主持)、台灣王安公司 (黃世道先生主持)、交通大學資訊工程研究所 (李
錫堅教授主持)、清華大學資訊科學研究所 (張俊盛教授主持)、資策會產品開發處 (
劉龍龍博士主持) 等,也都陸續展開這方面的研究。此外,中央研究院資訊所、交通
部電信研究所等單位,雖然沒有機器翻譯的研究計劃,但也有相關性的研究計劃。由
於研究機器翻譯的人愈來愈多,為了讓大家有交換研究心得及溝通意見的機會,台灣
從 1988 年起,每年都舉辦一次計算語言學研討會 (英文名稱為 R.O.C. Computational
Linguistics Conference,由中央研究院的陳克健教授及黃居仁教授籌辦第一、二
屆),並不定期舉行各式小型討論會。在各項活動日趨積極之後,大家覺得有必要成立
一個正式的組織,來推動這方面的研究。因此,計算語言學學會於 1990 年 3 月正式
成立 [1],負責統籌辦理各項活動,並與國外相關研究單位聯繫。學會成立至今已歷
三年,在第一任理事長謝清俊教授及第二任理事長陳克健教授帶動下,成績斐然。

除了計算語言學學會的活動之外,1991 年 6 月也在溪頭專為機器翻譯舉辦了一次「
機器翻譯研討會」,並邀請到三位國際知名的學者專家 (Makoto Nagao 教授、Winfield
Scott Bennett 博士以及 Masaru Tomita 教授) 作專題演講。1993 年 2 月,更
進一步在計算語言學學會之下,正式成立機器翻譯研究小組 (Special Interest Group
on Machine Translation,簡稱 SIGMT),並以 SIGMT 團體會員名義加入亞洲太平
洋區機器翻譯協會(Asia-Pacific Association for Machine Translation) 及世界機
器翻譯協會(International Assocication for Machine Translation)。因此台灣目
前的機器翻譯研究發展已相當健全。

前面所提的是機器翻譯在學術及研究單位進行的情形,接下來要介紹目前工業界商品
化的情形。前面提到的幾個研究小組中,清華大學電機研究所與英群電腦公司合作的
計劃,由於原來實驗室空間不足,研究人員於 1988 年 2 月遷至新竹科學工業園區,
成立致遠科技公司,繼續從事機器翻譯的研究開發。目前是以英漢系統為主,在工作
站上執行,並於1989 年 7 月開始提供翻譯服務。主要是翻譯技術手冊。王安公司從
事英漢機譯研究一段時期之後,因故中止。原先的研究人員自組歐泰公司,繼續開發
英漢機譯系統,現已有在個人電腦上執行的軟體問世 (即「譯經」)。此外,坊間也有
功學電腦公司,發行在個人電腦上執行的英漢及漢英系統 (廣告上宣稱還有其他數種
語言配對)。然而這些個人電腦上的軟體,恐怕都還不是真正實用的產品 (意指能夠大
量、快速、且可維持一定品質的翻譯)。

除了上述的研發活動之外,台灣可能還有其他單位在研究開發機器翻譯。限於手邊資
料,難免有遺珠之憾。對於那些遺漏的單位,除在此致歉之外,也希望他們能提供資
料,以便日後有機會時,再作介紹。

以下我們將對曾經發表過論文,公開資料較多的系統,按照他們研發的先後時間,逐
一介紹。這些介紹主要是根據各單位提供的資料,然後再加以整理。有的單位在資料
中還提供了翻譯的正確率及速度。但是因為機器翻譯到目前為止還沒有一個大家公認
且公開的測試環境及方法,各單位以不同的標準在不同的機器上測試,難免出入很大
。為了不誤導讀者,我們在以下的介紹中,將一律不列出正確率及速度,只介紹各個
系統的歷史沿革及架構。有興趣的讀者,可向各單位索取更詳細的資料。

二、各單位機器翻譯系統簡介:

1. 致遠科技公司:

致遠科技公司的機器翻譯系統 (英文名稱為 BehaviorTran),基本上是沿自清華大學
電機所與英群公司合作的研究計劃。1988 年 2 月,該公司於新竹科學工業園區成立
,繼續從事機器翻譯的研究開發,並於 1989 年 7 月正式設立對外的翻譯服務中心,
接受客戶委託,展開實際的翻譯業務。此後透過翻譯中心的回饋,致遠公司不斷改善
系統的效能及使用者介面。早期 BehaviorTran 主要的翻譯對象,是與電腦有關的手
冊、使用說明以及書籍等。隨著專業辭彙的增加,翻譯的工作也逐漸擴大到電機、機
械、航空、心理學等領域。目前的客戶是以在台的國際電腦公司為主。

BehaviorTran 是屬於轉換式 (Transfer) 的機器翻譯系統,以 C 語言設計系統程式
。雖然是傳統的轉換架構,但這個系統加入了新的作法,使其能更適合新一代機器翻
譯的需求。語法形式為補強型的詞組結構語法 (Augmented Phrase Structure Grammar),
在詞組律中加入了「限制條件」(Condition) 的檢查,並利用個別詞彙的屬性及
語意分析,強化分析的能力,提高剖析的正確性。系統所用的剖析器,是經過強化的 
LR 剖析器,特色如下[8]︰

1.「Top-down 過濾」加「Bottom-up 剖析」:BehaviorTran 基本上是採由下而上  
(bottom-up) 的剖析方式,但同時也利用語法切分的方式,將剖析用的語法切分成數
  個次類語法 (Subgrammars),使其具有由上而下 (top-down) 方向的預測功能,便
於語法現象的描述及檢查,以及過濾一些不適當的分析。

2. 部份剖析 (Partial Parsing):根據系統的特殊要求,以一個句子中的部份詞串
(而非完整的句子) 為單位,進行剖析。例如,在剖析標題和分離式成語的受詞時,檢
查其中是否含有名詞組等等。

3. 根據評分函數,刪除可能性較低的剖析路徑:除了利用語言學知識來刪除歧義之外
,並以機率方式計算詞類、語法和語意的分數,將未達設定標準的剖析路徑刪除,以
減少歧義數目及剖析時間。最後並以整合式的評分函數 [9] 選出最可能的剖析結果,
繼續執行轉換及生成的動作。

BehaviorTran 的詞典依應用的層次分成︰(1) 一般詞典,(2) 一般成語詞典,(3) 分
離式成語詞典,(4) 專業詞典,(5) 客戶詞典,和 (6) 專案詞典。在實際翻譯文稿時
,由於一個詞在不同詞典的用法及意義可能同時出現,因此必須將各部詞典裡的資料
加以聯併(Unification),以便得到所要的中文。詞典聯併時,資料取用的優先順序為
:專案詞典最先,客戶詞典次之,專業詞典再次之,一般詞典最後。

在新的技術方面,BehaviorTran 採用以語料為基礎,架構在高層語言知識上的統計方
式,發展出一系列的技術來協助抽取知識、解決歧義及控制系統的行為。這些技術包
括:

1. 利用整合式的評分函數,解決詞彙、語法及語意各層次的歧義現象 [2、7、9]。

2. 使用以鑑別力、強健性為導向的自動學習策略,調整系統參數,以減少不必要的深
層分析,並提高系統的執行績效 [5、6]。

3. 利用機率式轉換及生成模式,透過雙語語料庫 (Bilingual Corpus) 自動找出轉換
單位及轉換規則。並利用目標語的語法逆向找出系統的生成規則,以產生符合目標語
語法的譯文,避免一般轉換式系統生硬的翻譯 [3]。

4. 在系統中併入回饋功能,使系統的行為能依使用者的需求調整,減少所需的譯後修
繕 [11]。

有了這些新的作法,BehaviorTran 將可逐步整合語言學和統計學的知識,建構一個具
有一致性的大型自然語言處理系統。並以自動化、系統化的方式求取語言模式的參數
,改進傳統的機器翻譯系統,以邁向新一代機器翻譯系統追求的目標。

近年來由於 Internet 的各種應用日新月異,由網路上快速抽取資訊的能力,不僅是
一般研究機構深感興趣的話題,對一般商業機構提供更快速的資訊服務或藉此提高本
身的競爭力,也有莫大的助益。因此 BehaviorTran 研究小組也隨時在注意『線上即
時機譯』(Online Real Time MT) 及『線上即時資訊擷取』(Online Real Time
Information Retrieval) 等應用的可能發展。藉由上述機譯技術的開發,未來將可望
提供更多類型的資訊轉譯 (Information Translation) 服務,以便即時跨越語言障礙,
快速抽取所需的資訊。

2. 台灣大學資訊工程研究所:

台灣大學資訊工程研究所在 1986 年由林一鵬教授主持,開始進行英中機器翻譯系統 
(稱為 NTUECMT) 的基礎研究,目標是建立一套機器輔助翻譯系統,並在此套系統上探
討特殊語言現象的處理方式,以作為進一步應用的參考。到了 1989 年,陳信希教授
也開始參與此項研究計劃,並改寫了剖析器及執行環境。目前系統在 SPARCstation-1
 工作站 SunOS4.1.1-HLE 1.1.1 的中文環境下運作。

NTUECMT 是以聯併為本的機器翻譯系統,從剖析到轉換都採用相同的策略。整個系統
架構具有均質性,主要部門包括語法編譯器、詞典管理模組、語彙模組、剖析模組、
轉換模組、生成模組和兩個資料庫 (語法資料庫及詞典)。語法編譯器的功能是編譯語
法資料庫,以產生剖析模組和轉換模組。語法是編譯成 Prolog 程式碼。NTUECMT 是
一套左隅、由下而上 (left-corner, bottom-up) 循序處理的系統。詞典管理模組以 
C 語言設計。語彙模組擔任前處理的工作,將輸入語句中的複合詞、慣用詞和縮寫詞
預先處理,並還原語形。剖析模組和轉換模組是兩個並列執行的單元,運用組合原理
將英文句子結構轉換成中文屬性結構。聯併運算扮演語法和語意知識的角色,以幫助
系統選擇詞語、增刪詞語和調整結構。在屬性結構中,屬性的順序對於聯併運算並無
意義,但在句子的產生上,屬性的順序卻很重要。因此生成模組依據設定順序,將中
文屬性結構線性化,以產生對應的中文句子。除了基本結構的設計之外,時間信息的
轉換、介詞片語的定位及翻譯、省略句型的剖析及翻譯、指涉分析及其在機器翻譯的
應用等,也都是 NTUECMT 設計上的重要課題。

3. 工業技術研究院電腦及通訊工業研究所 (簡稱工研院電通所)

工研院電通所在機器翻譯方面的發展相當早,共有兩個系統,一個是英文譯成中文的
系統(稱為 TransMaster),另一個是日文譯成中文的系統 (稱為 ITRI/CCL JCMT)。英
中系統的發展時間是 1986 年到 1990 年,最先由張照煌先生負責,在張照煌先生赴
美進修後,由黎偉權先生負責。使用的人力平均為每年 6 個人,曾對工業界作技術轉
移。日中系統的發展時間為 1989 年到 1992 年,由李炳煌先生負責。平均人力為每
年 9 個人。目前基本架構已經完成,正在作細部調整。

英中系統的架構是轉換式,使用強化式語境自由語法 (Augmented Context Free Grammar)
及語意格語法 (Case Grammar) 分析句子,再根據依存結構 (DependencyStructure)
作轉換,轉換後使用格位樣型 (Case Pattern) 進行合成。規則庫的大小為:(1)
長句斷句 (Long Sentance Segmentation):35 條,(2) 形態分析:45 條,(3) 英
文句法分析:600 條,(4) 語意分析:100 條,(5) 詞彙轉換:2000 條,(6) 語法轉
換:50 條,(7) 中文合成:400 條。字詞以框架 (Frame) 結構表示,包含語意分類
及分析所需的各類信息。一般詞彙有 50,000 詞,電腦專業詞典有 15,000 詞。整個
系統是以 Lisp 語言寫成,可在個人電腦上執行。

日中系統也是採轉換式,使用強化式語境限制語法 (Augmented Context Sensitive
Grammar) 及語意格語法進行分析,而以格位樣型進行合成。轉換及生成的作法和英中系
統相同。規則庫的大小為:(1) 形態分析:860 條,(2) 句法分析:800條,(3) 語意
分析:97 條,(4) 詞彙轉換:94 條,(5) 合成:306 條。詞典結構和英中系統相同
,共有基本詞彙 79,180 詞。系統以 C 語言寫成,在 Sun SPARC 工作站上執行。

4. 台灣松下研究所 (Matsushita Electric Institute of Technology, Taipei)

台灣松下研究所從 1987 年 9 月開始發展日中翻譯系統 (稱為 MITTRAN),由郭俊桔
先生擔任計劃主持人。機譯架構採轉換式。目前是以研究計劃的形式進行。這套系統
不管分析、轉換還是生成,都是採用樹形轉換語法 (Tree TransformationGrammar)。
另外在語意分析及中文生成方面,還應用了語意格語法;而在結構轉換方面,則應用
了依存結構。規則總數約有 1500 條,基本詞典的詞項有 60,000 個。整個系統以C 
語言寫成,在 Solbourne 系列的 UNIX 工作站上執行。目前並構建了一個語法發展環
境,提供描述樹狀結構轉換 (Tree Transducing) 的語言。

5. 交通大學資訊工程研究所

交通大學資訊工程研究所的中英機器翻譯計劃 (簡稱 CEMAT),是由李錫堅教授主持,
從1988 年 8 月開始研究。目前人力有博士班 1 人,碩士班 4 人。這個中英翻譯系
統採用轉換式架構。中文斷詞及詞類標記 (Word Segmentation and Tagging) 是使用
馬可夫模式 (Bi/Trigram Markov Model)。語法是採用規則導向的概化結構語法 (Rul
e-OrientedGeneralized Phrase Structure Grammar),及詞彙導向的中心語驅動語法
 (Lexicon-Oriented Head-driven Phrase Structure Grammar)。結構語法是用來描
述構成成份(Constituent) 之間的關係,詞彙信息則用來描述構成成份的個別性質及
彼此之間的呼應關係 (Agreement Restriction)。這個系統的剖析器是強化的聯併導
向 LR 剖析器(Generalized Unification-based LR Parser)。

這套系統對中文的時制及動貌 (Tense and Aspect) 作了特別的處理。他們分析了時
態成份 (Temporal Constituent),如「了」等,以抽離出時制及動貌信息。在解決詞
彙歧義方面,系統使用的是特徵結構 (Feature Structure)。在結構轉換方面,CEMAT
 使用的是一種 Top-down Guided Bottom-up Structure Transfer 的作法。這種轉換
方式是根據組合原理 (Compositionality Principle),將下層信息帶到上層節點。系
統並特別處理了中文的「把」字句及名物化結構 (Nominalization)。而目標語的生成
是以規則來驅動(Rule-Driven)。生成語法的形式是 X 標槓理論 (X-bar Theory) 及
概化結構語法。

6. 清華大學資訊科學研究所

清華大學資訊科學所從 1990 年開始研究英中翻譯系統,計劃是由張俊盛教授主持。
目前人力有博士班學生 1 名,碩士班學生 3 名,以及專任助理 2 名。這個計劃是以
中英文版的國際無線電聯合會公約為對象,進行小規模的句法剖析、轉換及合成研究
。其中句法剖析是以 PROLOG 語言製作程式。系統採用簡單的句法規則及聯併式的圖
表剖析方式。轉換部份是由主動式的雙語詞典驅動,進行有限的轉換動作。中文翻譯
部份是採用以系統語法為基礎的句子合成器。

另外在 1991 年,資訊科學研究所還以印表機使用手冊為語料,研究自動產生英文及
中文句子的方法。他們是以句子中名詞組之間的格位關係作為輸入格式,採用系統語
法來合成句法結構。

從 1992 年起,資訊科學研究所開始從事整合式英中翻譯系統的研究。他們整合了機
率式、範例式、傳統模組式的機器翻譯作法,採用機讀式朗文當代英漢雙解詞典及雙
語技術手冊語料庫為工具,以一般性文章為語料進行研究。目前已經完成的工作包括
:詞典資料的擷取、詞性分析、詞組分析、雙語資料的辭彙對應。

另外,從 1992 年起,資訊科學研究所也開始研究可翻譯及審查計算機名詞的機器輔
助系統。這個系統是利用詞典資料及適切的使用者介面,來降低翻譯、修正、審查的
打字輸入及認知過程的成本。目前的效果據估計已經能節省 50% 左右的人力。

三、結語

一般說來,機器翻譯需要鉅量而瑣細的知識 (規則)。傳統上,歸納規則的工作是由人
來完成。這需要非常大量的人力,而且也很難維持這些知識的一致性。往往在加入一
些規則以改進某些句子的翻譯之後,其他一些原本可以處理的句子,又變得無法處理
。形成像蹺蹺板一樣,在某處將錯誤壓下去,在別的地方又會冒出新的錯誤。這種現
象使得系統在日趨龐大之後,變得愈來愈複雜、愈來愈難維護及改進。這個嚴重的問
題,是許多以傳統方法設計的機器翻譯系統,最後無法突破瓶頸的原因。

目前比較有希望的方法,可能是所謂的「以語料庫為基礎,以統計為導向的作法」
(Corpus-based Statistics-oriented Approach) [4、10]。這種方法是先建構一個大型
的語料庫,然後由人設計一些語言模式 (Language Model) 及語言使用模式 (Language
Using Model)。這些模式是由許多參數來規範。參數值的計算,則是由計算機從語料
庫中自動學習。這種作法將獲取知識 (Knowledge Acquisition) 的重擔,從人轉移到
計算機,由計算機去獲取及管理這一大堆參數。因為計算機每次在學習這些參數時,
都是同時考慮這個語料庫中所有的資訊,因此可以避免前述的不一致問題及蹺蹺板問
題。同時每次加入新的語料,或是處理一個新的領域時,計算機只要重新學一次即可
。簡言之,未來的機器翻譯系統將會逐漸強調:(1) 參數化的模式;(2) 以語料為基
礎,以統計為工具,建構在高層語言知識上的語言模式;(3) 一致性的歧義解決方式
與客觀的評分機制;(4) 強化鑑別力及強健性的自動學習策略;(5) 雙向式的系統設
計;(6) 依使用者需求調整系統行為的回饋控制功能。

雖然從全世界的機器翻譯發展史看來,台灣的研究起步較晚,但在這一波新的研究風
潮中,台灣跟其他國家是站在同一起跑線上,具有很好的契機。目前國內投入機器翻
研究的人力已略見規模。同時經過傳播媒體多次的報導之後,社會上對機器翻譯感興
趣的人也愈來愈多。整體說來,台灣已有了良好的基礎。為了使機器翻譯的研發工作
早日開花結果,我們希望能有更多對機譯系統感興趣的人,積極加入這個行列。

最後要感謝致遠科技張景新先生、台大陳信希教授、電通所黎偉權先生、松下郭俊桔
先生、交大李錫堅教授、及清大張俊盛教授熱心提供資料,本文才得以順利完成。

四、參考文獻:

[1] 謝清俊、黃居仁、陳克健、鄭秋豫、李琳山,「計算語言專輯」,科學月刊,
21 卷第 4 期,280-305 頁,科學月刊社,1990 年 4 月。

[2] Chang, J.-S., Y.-F. Luo and K.-Y. Su, "GPSM: A Generalized Probabilistic
Semantic Model for Ambiguity Resolution," Proceedings of ACL-92, pp. 177-184,
30th Annual Meeting of the Association for Computational Linguistics,
University of Delaware, Newark, DE, USA, 1992.

[3] Chang, J.-S. and K.-Y. Su, "A Corpus-Based Statistics-Oriented Transfer
and Generation Model for Machine Translation," Proceedings of TMI-93,
pp. 3-14, 5th Int. Conf. on Theoretical and Methodological Issues in
Machine Translation, Kyoto, Japan, 1993.

[4] Chen, S.-C., J.-S. Chang, J.-N. Wang and K.-Y. Su, "ArchTran: A Corpus-
Based Statistics-Oriented English-Chinese Machine Translation System,"
Proceedings of Machine Translation Summit III, pp. 33-40, Washington, D.C.,
USA, 1991.

[5] Chiang, T.-H., Y.-C. Lin and K.-Y. Su, "Syntactic Ambiguity Resolution
Using A Discrimination and Robustness Oriented Adaptive Learning Algorithm",
Proceedings of COLING-92, vol. I, pp. 352-358, 14th Int. Conference on
Computational Linguistics, Nantes, France, 1992.

[6] Lin, Yi-Chung, Tung-Hui Chiang and Keh-Yih Su, "Discrimination Oriented
Probabilistic Tagging," Proceedings of ROCLING-V, ROC Computational Linguistics
Conference V, pp. 87-96, 1992.

[7] Su, K.-Y. and J.-S. Chang, "Semantic and Syntactic Aspects of Score
Function," Proc. of COLING-88, vol. 2, pp. 642-644, 12th Int. Conf. on
Computational Linguistics, Budapest, Hungary, 1988.

[8] Su, K.-Y. and J.-S. Chang, "Some Key Issues in Designing MT Systems,"
Machine Translation, vol. 5, no. 4, pp. 265-300, 1990.

[9] Su, K.-Y., J.-N. Wang, M.-H. Su and J.-S. Chang, "GLR Parsing with
Scoring," In M. Tomita (ed.), Generalized LR Parsing, Chapter 7, pp. 93-112,
Kluwer Academic Publishers, 1991.

[10] Su, K.-Y and J.-S. Chang, "Why Corpus-Based Statistics-Oriented Machine
Translation," Proceedings of TMI-92, pp. 249-262, 4th Int. Conf. on
Theoretical and Methodological Issues in Machine Translation, Montreal,
Canada, 1992.

[11] Su, K.-Y., M.-W. Wu and J.-S. Chang, "A New Quantitative Quality Measure
for Machine Translation Systems," Proceedings of COLING-92, vol. II, pp. 
433-439, 14th Int. Conference on Computational Linguistics, Nantes, France,
1992.