機器翻譯的最新發展趨勢


張景新 • 陳淑娟


引言


在國際交通日益發達的今日,地理上的隔閡已不再構成不同國家
或民族之間的鴻溝。取而代之的,則是人們彼此溝通所用的語言
。在資訊快速膨脹、國際貿易興盛的時代,能快速掌握大量外文
資訊,也就相對地增加一份力量。因此,利用機器翻譯系統來協
助人們快速獲取資訊,已成為必然的趨勢。然而,傳統的機器翻
譯系統,主要是依靠人們建入大量複雜而瑣碎的語言知識,來建
立系統的知識庫。這種需要大量人工介入的方法,對於開發實際
的大型機器翻譯系統而言,已面臨嚴重的考驗。本文將簡單地為
您介紹最新的機器翻譯系統發展趨勢及研究方向,並向您介紹由
國人自行開發的一套機器翻譯系統。


簡介


所謂『機器翻譯』 (Machine Translation, MT)是指利用機器 (
電腦) 的快速處理能力,來協助人們從事文件翻譯的工作。機器
翻譯系統能把人類語言翻譯的法則,轉變成電腦的運算法則,使
得電腦能根據運算法則,將輸入的原始語言(source language)
翻譯成所需的目標語言 (target language)。



由於語言的衍生能力非常強,因此,可能產生的句子千變萬化。
一個稱職的機器翻譯系統,必需具有一定的判斷能力,才能針對
各種輸入文句加以翻譯。坊間有許多稱為翻譯機的小型計算器,
基本上只能稱為電子詞典或常用會話庫,如果您把這些機器也稱
為機器翻譯系統的話,那只能怪這些商人廣告打得太厲害了。


在資訊快速膨脹的今天,國際間的溝通日趨頻繁。因此,快速處
理大量的外文資料,已是一種普遍的需求。在這種需求帶動之下
,用機器翻譯系統來協助人們快速翻譯、建檔,也就成為無法避
免的趨勢。而機器翻譯系統所衍生出來的語言處理技術,也可用
在一些先進的文字處理應用上。因此,這種技術對將來自然語言
人機介面,乃至於口語處理 (spoken language processing)的
發展,都有決定性的影響力。


機器翻譯的歷史



機器翻譯系統的研究,其實已有數十年的歷史[Huct 86]。在電
腦發明之初,就有人想到利用電腦來破解密碼,當然也有人想到
利用電腦來破解人與人之間溝通的密碼--語言。早期研究人員
開始研究機器翻譯系統時,人們對於機器翻譯系統普遍存在相當
高的期望,希望能藉著電腦的處理能力,達到全自動 (Fully
Automatic)、高品質 (High Quality)翻譯的境界;這種全自動
、高品質的機器翻譯境界,簡稱FAHQMT (Fully Automatic High
Quality Machine Translation),在當時成為研究人員一致的夢
想。然而,機器翻譯所涉及的知識範圍相當廣泛,除了各種電腦
演算法的發展之外,還牽涉到語言學、心理學等領域。

就系統整合而言,更牽涉到大型知識庫之知識的抽取,一致性的
維護等實際的工程問題。如何適當地選擇詞彙、用合適的表達方
式正確描述語言的控制機制等,都不是人們所想像的那樣容易。

例如,"go"這個字在詞典堣j約有六十幾種不同的翻法,在什麼
情況下應如何翻?為什麼會這麼翻?這樣的規則是否可以延伸到
其它字詞的翻譯?這樣的規則會不會跟其它的規則相衝突?恐怕
您問十個科班出身的專家,都可能得到十種不同的回答。


一般而言,語言本身並不像人們所想像的那麼規則,傳統語言學
所重視的語言現象也無法涵蓋許多細瑣的知識,導致用來處理實
際問題時,常常左支右絀;而這種細瑣的知識極難用有效的方式
抽離出來,使得語言知識的抽取(knowledge acquisition)成了
發展機器翻譯的一大瓶頸。因此,早期的研究成果並不符合人們
對機器翻譯的期望。這種期望的落差,使得當時機器翻譯發展的
大本營--美國--的一個調查委員會,發出一份極不利於機器
翻譯發展的報告,以致支援機器翻譯發展的經費幾乎完全被取消
。機器翻譯的發展遂進入歷史上的黑暗期。


近年來,由於電腦處理資料的能力大增,使得計算語言學家能逐
漸跳出以往只從語言學角度及人類學習語言模式的框框中跳出,
勇敢地嘗試一些新的作法;而相關領域的研究技術日趨成熟,也
促使機器翻譯系統的研究,重新在世界各地蓬勃展開。儘管語言
的規律仍是那麼複雜,大部份熟知機器翻譯以往失敗經驗的研究
人員,已能用比較成熟的觀點來看待機器翻譯,對它的期望也改
變為較切實際的機器輔助翻譯 (Machine-Aided Translation,
MAT)方式,而非FAHQMT。人們開始了解到,機器翻譯即使不能作
到FAHQ的境地,只要能應用得當,仍可扮演強而有力的輔助性角
色,協助人們在省時省力的情況下,獲得與人工翻譯相當的品質
,並不需要強求所謂的FAHQMT。至於機器翻譯與人工翻譯之間的
差距,可透過專業的譯後修繕人員 (post-editor),將其差距彌
補到與人工翻譯相同的品質。如此一來,在機器翻譯系統的輔助
之下,傳統的翻譯工作可減縮到只剩審校譯稿的工作,翻譯的速
度自然大幅提高,而翻譯的成本也可望降低。使客戶能以較短的
時間,獲得與人工翻譯品質相當的譯稿,在與時間競爭的資訊社
會中,贏得先機。


然而,在許多實際應用中,使用者或客戶仍舊要求高品質的翻譯
結果,研究人員的基本假設及使用者間的需求,仍有相當的差距
;如何對需求較高的使用者,在系統中提供回饋的管道,以減少
譯後修繕成本,都是研究發展單位所必需面對的問題。


國內有關機器翻譯的研究肇始於1985年由清大電機研究所蘇克毅
教授所領導的ArchTran研究小組(ArchTran現已改稱
BehaviorTran [Su 87, 90, Chen 91]),其後有工研院電通所
、台大、交大、松下等單位相繼投入機器翻譯的研究。並由於這
股研究風潮的帶動,在中研院、台大、交大、清大數位教授及蘇
教授的合力推動之下,於1989年開始,先後成立了中華民國計算
語言學會,及SIGMT等隸屬於計算語言學會下的特殊研究群
(Special Interest Groups, SIG's),全力推廣計算語言學研究
,並接受政府單位,如中央標準局委託,參與國外相關會議。目
前計算語言學會每年定期舉辦一次學術會議,會員參與國外相關
學術會議的情況也相當踴躍。以去年 (1992)該學會會員發表在
全世界最大的計算語言學會議COLING-92的論文篇數而論,目前
台灣相關之研究,在亞洲地區已成了僅次於日本的研究重鎮。這
些成就跟國內機器翻譯研究的發展有著相當密切的關係。


BehaviorTran的研發活動迄今已有8年的時間。並已於1989開始
在致遠科技的翻譯中心運轉,替許多在台的著名國際級軟硬體電
腦公司提供翻譯服務,同時透過實際的運作經驗,不斷增強系統
功能及創新系統架構。各位讀者也許已經讀過一些由機器翻譯系
統所翻譯的使用手冊而不自知呢!


由於BehaviorTran研究小組的學術背景及理念,除了機器翻譯系
統的實際運作之外,在學術研究及自然語言處理技術上的推動也
頗為用心,迄今已在國內外機器翻譯或自然語言處理的專業論文
集及期刊上,發表40多篇的論文,平均每年總有4、5篇相關論文
產生。因此,在國際的機器翻譯研發單位中,已具有相當的知名
度。本文所要介紹的,就是BehaviorTran的系統架構,及一些近
年才發展出來的先進設計概念。


機器翻譯與人工翻譯


機器翻譯相對於人工翻譯的優勢,由兩者流程的比較,即可略窺
一二。(請參閱圖一)。


<<圖一:機器翻譯與人工翻譯流程比較>>


傳統的翻譯方式,大體上是一種由翻譯人員在稿紙上不斷地重複
書寫、塗改、查閱詞典、謄稿等動作的流程;此種流程極為耗時
費力,即使是相當固定的句型,這種耗時費力的動作仍必需一再
地重複。審稿之後又需要有專門人員負責中文打字,經過數次校
對,最後才能進入印刷廠排版、印刷,完成一份出版品。



反觀機器翻譯系統,自文件掃描以迄電腦排版,都是在電腦的翻
譯及編輯環境中完成。有良好的文件掃描軟體、中英文文稿校正
程式、機器翻譯系統、電腦排版軟體等整合環境的支援。除少量
的人工介入外,其它部份都可以由電腦自動執行。即使人工修飾
部份仍需人力介入,也是在一個整合的編譯環境下作業,人力的
花費可說相當少。因此,在機器翻譯系統的輔助之下,整個翻譯
流程只剩下譯後修繕及審稿的工作,使得整體速度比人工翻譯快
,成本也較低。


機器翻譯的優點


與人工翻譯相比較,機器翻譯主要的優點可以歸結到以下幾點: 


● 翻譯速度快


機器翻譯不僅速度快,而且可以一天24小時不停地工作,保持一
定的效率與品質而毫無怨言。因此,可以在短時間內獲得大量初
稿,整體速度僅受限於譯後修繕速度。而翻譯的時程也較人工翻
譯容易預估,對於需要快速、大量翻譯的機構而言,可以提供最
佳的選擇。


● 成本低廉


由於人工成本愈來愈高,翻譯人才難求,具有特定專業知識的翻
譯人員更加稀少,因此,人工翻譯成本逐漸提高是必然的結果,
而其產能卻未必等量增加,對快速膨脹的資訊而言,必然難以應
付;反之,電腦價格日益下降,運算能力愈來愈強,所能儲存的
翻譯知識越來越多。因此對大量翻譯而言,機器翻譯可以大量減
少重覆性的機械動作,使翻譯人員專注於品質方面的提昇。故就
相同翻譯品質的兩份文件而言,其成本必然比人工翻譯來得低。
而且,機器翻譯系統可以直接與電腦排版系統連成一個完整的「
翻譯-出版系統」,並與其它辦公室自動化設施及文書處理系統
直接連結,在人工打字、排版、校稿等價格日趨高昂的今天,其
經濟效益更加明顯。


● 專業術語前後一致


在機器翻譯系統中,由於系統本身內建的專業詞典有一定的翻譯
方式,因此,可以依據客戶的要求來翻譯,不會有前後不一致的
情況。反之,在人工翻譯過程中,即使是同一個翻譯人員,對同
一術語,在同一天之內,也可能出現前後不一致的情況。若一份
文件由許多人合譯,更容易產生問題。情況嚴重時,可能因用語
不一致而導致譯稿不堪使用,必需全面改寫,造成時間與金錢上
的雙重損失。因此,對於專業術語要求較嚴格的文件,如技術命
令、使用手冊等,機器翻譯系統可以提供較好的解答。

試想:一架飛機的維修訓練手冊可能數以噸計,如果包給不同專
業背景及知識水平的翻譯人員,以傳統的人工方式來翻譯,如何
能確保每一個零件名稱及每一個特定技術命令的一致性。其影響
自然不言而喻。同時,當客戶需要更動某一用語的翻譯名稱時,
機譯稿只需利用簡單的編輯指令即可全數代換成新的翻法;而人
工翻譯因為翻譯不一致,則可能必需利用人工全數檢視過才能確
定,所耗的人力財力可能數倍於機器翻譯的成本。這種對於一致
性的需求,其實是很多注重出版品質的公司,將技術手冊轉由機
器翻譯的一大原因,也是大家對機器翻譯共同認定的優點。


● 資料保密性佳


不論是政府機關、軍事單位或者公民營單位,一般總希望資料能
夠保密,愈少人知道愈好。由於人工翻譯經手的人較多,故資料
到處傳遞所造成的洩密風險也大為提高。利用機器翻譯系統,則
可以降低機密外洩的可能性,確保資料安全。


● 一貫的作業流程


機器翻譯除提供翻譯服務之外,間接產生的中文及英文檔案,也
可以直接利用來作電腦排版,省去了人工打字、排版等手續,也
節省了校對、修改的時間。此外,所獲得的中、英文檔案等副屬
產品,對於檔案建立、再版處理或重新翻譯成其它的語言,都極
為方便。這種以一貫作業的方式,完成翻譯及出版的動作,提供
了客戶完整的解決方案,對於需要翻譯出版大量譯稿的客戶而言
,可節省許多不必要的時間及金錢上的浪費。


機器翻譯的限制


當然,機器翻譯也有一些先天上的限制,只有充份了解其限制,
才能對機器翻譯作最適當的應用:



● 翻譯初稿品質未臻完美


機器譯文的品質視系統的翻譯法則、專用術語的多寡、文稿的文
法結構而定。因此,機器翻譯所產生的初稿未必完全符合目標語
言的用法。然而,機器無法處理得很好的細節,可以藉著修繕人
員的修飾,得到與人工翻譯相同的品質。因此,接受翻譯服務的
客戶並不會感受到這種限制。


● 翻譯範圍受限於專業詞彙


與人工翻譯類似,機器翻譯系統對特定專業領域的翻譯能力,受
限於系統中專業詞典術語的多寡,以及修繕人員的專業知識。若
無使用者所需的專業詞彙,就必需透過字典管理系統建立專業詞
典。


● 較適合有固定體裁的文稿


由於機器翻譯是依據一定的法則來進行翻譯工作,因此比較適合
翻譯描述具體事物且文體較為簡單固定的的文稿,如科技文章、
技術手冊以及使用指南等等。一般小說、散文和詩歌等文學作品
,經常使用俚語、引喻、暗喻及特殊文法結構,因此,翻譯時必
需加入情感,而且翻譯者要有一定的文學造詣,對於文學典故有
所了解。這些條件即使是一般翻譯人員也難以同時兼俱,更何況
是依照一定規則執行的機器!因此這類文章並不適合用機器翻譯
系統處理。此外,由於一般機器翻譯系統都假設輸入句子是合法
的句子 (well-formed sentences),因此,往往只針對合法句子
作處理;對於不符合系統語法的句子 (ill-formed sentences)
的處理能力較差。所以,有些文件,如error messages, system
prompts,及menu items 等,除非系統有特殊的對策來處理,基
本上是不適合直接用一般的機器翻譯系統去處理的。


基於前述各項機器翻譯的特性和優缺點,一般而言,在下列情況
下,較適合利用機器翻譯系統所提供的翻譯服務:


.文稿數量龐大,必需靠大量的人手才能完成。


.文稿時效性強,必需在短時間內完成,或需正確預估翻譯時程。


.文稿用語之一致性要求嚴格。


.文稿機密性高,經手人員越少越好。


機器翻譯的運作方式


以今日的機器翻譯技術而言,正確使用機器翻譯的確可以達到前
面所說的預期經濟效益。然而,由於FAHQMT的目標難以達成,因
此,使用者如何正確看待機器翻譯是非常重要的。不當的認知往
往抵消機器翻譯對一個翻譯專案所帶來的好處。因此,使用者首
先必需評估自己或企業本身的翻譯規模、文稿性質、有無專門的
翻譯部門等因素,來決定如何有效地發揮機器翻譯的經濟效益。


一般而言,翻譯的過程中,人力的介入越少,經手人員間所需的
溝通時間越少,對整體翻譯成本的降低及效益的提昇越顯著。因
此,機器翻譯最有效的利用方式,應該是所謂的in-house
translation,即將機器翻譯的工作,交給由一群專業的機器翻譯
系統維護人員、專業知識諮詢人員及專業修繕人員所組成的翻譯
中心來執行。目前世界上較成功的商業運轉,如著名的SYSTRAN
系統, 大抵上都是以這種方式作業。除了系統維護外,一個完善
的翻譯中心可以提供使用者所需的專業知識,而這種翻譯中心為
不同客戶翻譯所建構或累積的知識庫,也可以為各使用者共用,
節省使用者自行建構或採購的成本。如果使用者有特殊保密需求
,或自己有龐大的翻譯部門,則可考慮租用機器翻譯系統,並由
機器翻譯系統的開發者提供訓練及技術支援,建立自己的翻譯中
心。


一般使用者通常僅能作一些簡單的字典更新動作,對於維護系統
龐大的知識庫則無能為力。因此,一般以PC甚至於工作站所建構
的所謂個人翻譯工作站 (personal MT), 到目前為止,還是不切
實際的解決方案。所以,儘管國內外已有一大堆配售在PC或工作
站的所謂機器翻譯系統,而且動輒宣稱有數十萬詞彙,可以對譯
數種語言,然而,真正對機器翻譯有瞭解的人都知道,這些系統
多數只是過份吹噓的toy systems而已。試想,當一些較簡單的
拼字檢查器 (spelling checkers)、拼字校正器(spelling
correctors)及文法檢查器 (grammar checkers)都還不是作得很
成熟的時候,如何相信更加複雜的機器翻譯,能以這種簡單的型
態,滿足一般企業所需的翻譯需求?


以目前出產最多機器翻譯系統的日本來說,以這種型式賣給使用
者的機器翻譯系統,多數在用過一兩次之後,即被束諸高閣,對
於使用者真正的翻譯需求,並無法提供適當的解決方案[JEIDA
89]。其主要原因,在於一般販賣翻譯軟體的軟體廠商,往往不
會刻意提醒使用者有關機器翻譯的先天性限制,有意無意間誤導
了使用者對機器翻譯的認知;另一方面,也因為本身並沒有實際
運作機器翻譯系統及翻譯的經驗,事實上並沒有能力告訴使用者
如何才能達成預期的經濟效益。結果,使用者沒有能力維護機器
翻譯所需的龐大知識庫及機器翻譯所專用的詞典,只好將翻譯軟
體束諸高閣。因此,使用者面對商業化的宣傳時,如何作出正確
判斷是一個重要的課題;而負責任的機器翻譯推廣者不但要能掌
握機器翻譯的優缺點,也應給使用者適當的建議與教育,才能協
助使用者完成一個個成功的翻譯專案。


機器翻譯基本原理


目前的機器翻譯系統有三種基本的翻譯策略,分別為直接式
(direct)、轉換式(transfer)及中介式 (interlingual)翻譯。
直接式翻譯主要是針對一組特定的原始語言及目標語言來撰寫翻
譯規則;中介式翻譯法則企圖將原始語言轉換成一種各語言均通
用的中間表示式 (intermediate form),再由該表示式產生目標
語。轉換式翻譯則介於兩者之間,先將原始語言分析成一種原始
語的中間表示式,再透過一個轉換的過程將該表示式轉換成目標
語的中間表示式,而後利用目標語的中間表示式,合成或產生目
標語所特有的語法結構及句子。


中介式的機器翻譯系統,理論上只要為每一種語言撰寫一個分析
模組及一個合成模組,即可與系統中的其它語言互相對譯,故適
合用來作多國語言間的對譯。然而,要找到一個適用於所有語言
的中間表示式並不容易,因此,只適用於同一語系所衍生出之各
語言間的對譯。實際運作上,則尚未看到比較成功的例子。直接
式翻譯系統可針對一組語言,完成很細微的翻譯動作,但要加入
新的語言時,相當困難。所以,目前以轉換式的機器翻譯系統最
為普遍。


由上述說明可知,轉換式的翻譯系統,大致可以分成分析
(analysis)、轉換 (transfer)、及合成 (synthesis)或生成
(generation)等三個步驟。以下以一個簡單的英文句子,來說明
翻譯成中文時每個步驟的處理過程:


英文原文:Miss Smith put two books on this dining table.


中文譯文:史密斯 小姐  把  兩  本  書  放  在  這  張  餐桌  上面。


<<圖二:例句之句法結構>>


【 分析 】


1.構詞及詞彙分析:從系統詞典中查出英文句子裡每一個詞項的
資料,並依英文構詞原則,執行構詞分析,找出詞的詞根、詞首
及詞尾等詞素;依據詞類的共存現象,決定該詞的詞類。詞典中
記載著每一個詞的詞類、人稱、單複數及中文翻譯等訊息,可作
為分析的基本資料。例如,例句中的「Miss」為名詞、單數、中
文翻譯為「小姐」。


2.句法分析:根據英文句法,進行句子結構的分析。例如本例句
可分析出名詞片語(Noun Phrases, NP: Miss Smith、two books
、this dining table)、動詞 (Verb, V: put)及介系詞片語
(Prepositional Phrase, PP: on this dining table)等。詳細
結構如圖二所示:


3.語意分析:決定各詞或詞組的語意角色。例如,Miss Smith在
這裡是put這個述語 (predicate)的主事者,this dining table
則是事件發生的地方。


【 轉換 】


1.詞彙轉換:將英文句子裡每一詞項轉換為相對的中文,如Miss
轉換為「小姐」、table轉換為「桌子」 (而不是「表格」)。


2. 結構轉換:將英文的結構及詞序轉換成中文的結構及詞序。以本例句而言,

英文詞序為:「小姐  史密斯  放  兩  書  在...上面  這  餐桌」,

轉換後的中文詞序為:「史密斯  小姐  兩  書  放  在  這  餐桌  上面」。


【 合成 】


係針對中文特有的語法結構作必要的處理,以產生適當的中文句
子。例如,在句中加上「把」字及量詞「本」、「張」等。以本
例句而言,經過合成的步驟後,中文變成了「史密斯小姐把兩本
書放在這張餐桌上面」。


上面各個步驟間的界線未必都很清楚,各系統各有其不同的作法
。例如,結構轉換也可視為結構生成。


現有翻譯系統的技術瓶頸及發展趨勢


從商業觀點來看,目前的機器翻譯確已可以達成一些經濟效益,
協助需要大量翻譯的機構,迅速獲得外文資料。但從研究者的角
度來看,許多機器翻譯的研究議題仍未有適當的解決之道。加以
大部份的機器翻譯研究人員,並沒有實際運轉機器翻譯系統的經
驗,因此,所研究的議題或方向難免偏向學院式的作法。而傳統
的機器翻譯發展策略,大抵上是傳統語言學、形式語言學及少數
人工智慧技術的綜合體。利用這些技術所發展的機器翻譯,在歷
經數十年的研究後,還是未能大量使用,顯示以往的作法有其先
天上的限制。以我們多年發展及運轉機器翻譯系統的經驗來看,
傳統的機器翻譯架構、發展模式及方法,主要的缺陷可以歸結為
幾點:


1. 缺乏一致性的歧義解決方案



由前面的架構及原理,大家可以發現機器翻譯系統所要處理的細
節相當繁瑣。就技術層面來看,機器翻譯最大的問題,即在於每
一個處理步驟都充滿了不確定性 (uncertainty)及歧義性
(ambiguity)。例如,"bank"可能當動詞或名詞使用,這是詞類
的歧義;當它做為名詞時,可能是"銀行",也可能是"河岸",這
是字義 (word sense)上的歧義;"I saw a girl with a
telescope."可能是"看到一個帶著望遠鏡的女孩"或者"用望遠鏡
看到一個女孩",這是修飾語修飾不同詞組所造成的語法歧義;
"The police were ordered to stop drinking by midnight."
句中的"police"可能是要阻止別人喝酒 (或其它飲料) 的人,也
可能是被阻止繼續喝酒的對象,這是語意角色不同所造成的歧義
;"She was elected the president of the United States by
the public."可以翻成被動式的"她被大眾推選為美國總統"或主
動式的"大眾推選她為美國總統",這是轉換及生成過程產生不同
句法結構所造成的歧義。



這些歧義現象涵蓋的層次,包括分析(詞彙分析、句法分析、語
意分析)、轉換(詞彙轉換、結構轉換)、合成(結構合成、詞
素合成)等各個階層。每一種歧義現象都需要其它的訊息來幫忙
解決。傳統的機器翻譯系統,主要是依靠語言學家或電腦專家依
現有的語言知識,構建一條條的規則,來決定在何種情況下該採
取什麼行動。這就是所謂的規則式機器翻譯 (rule-based MT)。
遇有某一個層次不能解決的問題,就利用更多細瑣的知識,作更
深一層的分析。無可否認的,這種作法可以直接利用一些現有的
語言學理論及人工智慧的理論,來構建基本的機器翻譯系統。但
是,當系統由實驗室的雛形系統轉化到大型的實際系統,面對各
式各樣的文章時,問題就來了。



首先遇到的問題是,不管加入多少知識,只要是沒有辦法把所需
知識加全,不確定性及歧義現象就會存在。由於系統的整體績效
直接與系統誤判的機率成正比,因此,降低系統誤判的機率,就
成了首要的工作。在此情況下,系統必需利用一個評分的標準,
來作最少風險的判斷。目前各系統主要是以規則式系統為主,故
鮮少對不確定之情況予以評分;許多系統在實驗室發展時,一遇
到問題就希望透過更深層的分析,或加入一些經驗法則進去,來
解決眼前所遇到的問題,使得這樣的規則式系統混亂異常。事實
上,要想利用一些一般性的規則,來解決複雜的語言問題並不容
易。而且,每加深一層分析時,又會引入另一個層次的歧義現象
。因此,並無法真正解決歧義及不確定性的問題。



雖然有些規則式系統也採用評分的方式來處理不確定的情況,但
所用的評分標準多數是缺乏學理根據的經驗法則。這種經驗式也
許在實驗室裡能針對少數例子予以調整至最佳狀況,但整體而言
,並不能推廣到其它文章及領域,達到最佳化的結果,也無法用
一種有系統、可控制的方式持續地改進系統績效;當系統修正某
些法則或參數來處理某些問題時,表面上解決了這些問題,實際
上對其它問題及整個系統的影響卻無法評估,甚至於造成不良影
響。因此,系統會一直在反覆修正這些經驗法則的過程中打滾,
很難擴充到大型系統。



要突破這種技術瓶頸,唯有發展出一套客觀的評分函數,利用有
鑑別力的詞彙、語法及語意特徵作判斷,才能用最少的知識,作
最不具風險的判斷,同時隨時保持系統整體的績效。目前
BehaviorTran所使用的評分方法,是結合詞彙、語法及語意模式
與貝式決策法 (Baysian Decision Rule)所發展出來的一套評分
函數[Su 88, 91, Liu 90, Chan 92a, Lin 92]。由於是利用最
佳化的決策法則在語言模式之上,因此,理論上可以達到最少決
策成本的最佳化結果。



2. 知識抽取不易



另一個問題是,如何抽取這些繁瑣的知識 (knowledge
acquisition)而達到相當的涵蓋面,且在不斷更新的過程中,仍
能維持這些知識的一致性。一般的機器翻譯系統最起碼要有一、
二十萬個詞彙、一兩千條分析文法,及一兩千組轉換規則才足敷
使用。如何用人工把這些詞典資料一一填齊,而使得這裡面的規
則保持一致,不會互相衝突,是個相當耗時費力、高成本、高難
度的工程問題。不要說這種工作需要透過一群人來作,就算一個
人包辦整個工作,也很難保持資料及規則的一致性。事實上,即
便是將同一個詞給予適當的語意分類,早上跟下午的想法都可能
不一樣。更何況一套機器翻譯系統通常要歷經數年的時間,由一
群不同知識背景的人經手呢。這種人工抽取知識的方式,對一個
實驗式的系統也許已經足夠,但對於實際運作的大型系統而言,
其涵蓋面和一致性就值得懷疑。而要維護一個這樣的系統也極為
困難。



目前的趨勢是利用大量的語料,透過一些自動或半自動的統計方
式來抽取必要的知識。例如,利用相鄰詞類間共存的頻率或機率
,可以很準確地由數百以至於數千種可能的詞類組合中,決定各
個字的正確詞類。而以往使用規則來限制這種詞類共生現象時,
並無法作很完善的處理。



然而,純粹使用統計方式而不顧及語言本身的規律,也容易造成
參數數目過大,而必需用極為龐大的語料,才能學習到語言學上
已熟知的現象。例如,最近有些學者企圖利用極為簡單的語言模
式來表達翻譯的內在行為,利用數百萬句的雙語語料(加拿大國
會會議記錄),來求取這種翻譯模式的參數。其結果雖然顯示部
份的可行性,但由於所需的語料庫極為龐大,故受到學界相當多
的質疑與批評。



因此,比較好的方式應該是將一些已知的高層次語言學現象加以
模式化,再利用統計的方式由語料中求得適當的模式參數。如此
,既可發揮語言學家歸納一般性語言規則及建立語言學模式的長
才,又可將繁瑣的知識抽取工作交給擅長處理大量資料的電腦來
處理,獲取一致性的模式參數,避免人工抽取的問題,同時減輕
人工成本,可謂一舉數得。這種以語料為基礎,架構在高層語言
知識上的統計方式,簡稱CBSO (Corpus-Based
Statistics-Oriented)方式[Su 92a],在最近一次召開的機器翻
譯理論與技術會議(TMI-92, 1992)中,已被評為綜合傳統語言學
與統計技術的一種最可能的未來趨勢。



3. 單向式的系統設計



機器翻譯的另一個重要問題,在於傳統的機器翻譯系統是一種單
向式的設計。由於傳統的轉換式機器翻譯是遵循著『分析』、『
轉換』及『生成』三個步驟一路作下來,使得『轉換』及『生成
』帶有濃厚的原始語言色彩。因此,英中翻譯系統的輸出通常成
了『英文式的中文』,日中翻譯系統通常產生的是『日文式的中
文』,而非道地的『中文式中文』。換言之,用來產生中文的生
成文法與一般用的中文 (分析) 文法並不相同,而是由英文或日
文文法套過來的文法。這種輸出,自然需要相當的修繕動作,才
能達到使用者的期望。為了避免使用這種具有原始語言傾向的目
標語生成文法,釜底抽薪的方式,乃是利用原始語言及目標語言
兩套文法,來擔任分析及生成語法,並利用原始語言及目標語言
所構成的雙語語料庫(bilingual corpus)自動學習轉換動作及生
成動作[Chan 92b]。



4. 忽略語言特徵的鑑別力及強健性



由於許多機器翻譯研究人員具有計算機科學的學識背景,而人工
智慧又強調知識表達方式 (knowledge representation)的重要
,因此,不少機器翻譯的研究人員都相信,良好的知識表達方式
有助於機器翻譯品質的提昇。同樣地,許多語言學家也不斷尋求
較適當的文法型式 (grammar formalism),企圖用比較適當的語
法理論來表達或解釋同一種語言現象。這種作法並非沒有好處。
但是,嚴格地說,知識表達方式只跟系統的表達能力
(expressive power)有關,而與最重要的歧義解決能力無關。一
個看似簡單的表達方式,就學理來看,可能與一個複雜的語法理
論具有相同的表達能力 (例如,兩者可能都可以處理
context-free型態的語言);其主要差別通常只在於表達的適切
性及剖析的效率 (linguistic felicity, expressiveness,
computational effectiveness),而非歧義解決能力。



一般而言,歧義解決能力主要視系統所採用的語言特徵
(feature set)、這組語言特徵在實際語料中的行為或機率分佈
(probabilistic distribution),及系統所採用的決策模式
(decision rules)而定。因此,改善系統績效可以由幾方面來進
行。就語言特徵之選取而言,可以利用較有鑑別力的鑑別性特徵
(discriminative features),來作決策依據,而不一定是用很
容易觀察到的特性式特徵(characteristic features)。採用良
好的語言特徵及語言模式,有助於讓每一種不同的語言行為,在
觀察空間中,都有個比較突出的機率分佈。如此,較容易判定某
類行為應該採取何種特定行動。而良好的決策模式則可降低誤判
所造成的風險。通常鑑別性的特徵可以由各種特性式特徵加權之
後獲得,因此,使用具有增強鑑別力及強健性的學習策略,可在
使用相同資料的情況下,改善系統的績效。



然而,一般的機器翻譯系統多數採用階層式的分析方法,詞彙分
析無法解決的問題即推給語法分析,語法分析無法解決的即推給
語意分析,再無法解決的,便寄望於所謂的一般性知識 (real
world knowledge, common sense knowledge),較少強調在使用
同樣的資訊下,如何強化系統的鑑別力 (discrimination
power)及強健性 (robustness)。



實際上,一般系統雖然可依詞彙、語法、語意等步驟逐一分析。
然而,系統分析的深度並非一成不便;有些資料未必有用,有些
資料則與其它資料帶有相同的訊息,而形成冗贅的資料。這種加
深分析層次的作法大致相當於增加系統所用的語言特徵的維度
(dimensionality)。依據語音處理及樣型識別等類似技術的經驗
,一味加深及加細系統分析深度,或增加系統據以制定決策的特
徵,容易導致系統的知識庫過份偏向某些特定知識,使系統對測
試用的例句顯得相當有效,但卻降低了系統對一般輸入的整體績
效。



因此,目前新的作法是強調使用有鑑別力的語言特徵及語言模式
,利用強健性的自動學習策略來調整系統參數;能在低層次分析
中解決的問題,儘量利用提高系統鑑別力及強健性的方式,在低
層次分析中加以解決,而不再一味地加深分析的層次。這種作法
,不僅使得系統能對可用的語言特徵作最有效的運用,也因不過
份使用深層的語言特徵,而減輕了知識抽取的負擔[Chia 92,
Lin 92]。



5. 設計者與使用者的期望不同,系統改善的方向無法隨客戶需求變動



前面已經說過,目前研究人員已經比較能認清機器翻譯難以達成
FAHQMT的事實,故在設計系統時,是以資訊抽取 (information
retrieval)等不需太高翻譯品質的應用為目標,系統改善則主要
是以增加輸出的可讀性為主,以期減少譯後修繕的工作。不幸的
是:(1)要求高品質翻譯的使用者還是佔絕大多數,這些使用者
的基本要求是翻譯結果要能以出版品的型態出現 (publishable)
,而不只是可以讀得通 (readable, understandable);(2)改善
輸出的可讀性,一般是可以減少譯後修繕工作。但是,實際的實
驗顯示,兩者並非直接相關;有時甚至於還會稍微增加修繕的成
本。因為,修繕成本正比於修繕到客戶所能接受的成品所需的編
輯指令 (editing stroke)個數,而不是無法具體衡量的『可讀
性』。



要解決這樣的問題,首先要有客觀的方法,來衡量客戶可接受的
標準與系統輸出的差距,並直接利用這樣的差距當作回饋,來調
整系統的參數,以達到特定客戶所指定的詞彙及風格。所謂客戶
可接受的標準,具體地說,就是客戶所提供的翻譯範例,或者以
前為該特定客戶所翻譯的完稿稿件。根據這些客戶已接受的稿件
,以及系統對這些稿件所產生的原始初稿,我們可以很客觀地計
算出,兩者之間的差距到底要用多少個編輯指令才能修正過來,
以及需修正部份到底是因何原因而導致錯誤。如此,即可將『客
戶的期望』與『系統輸出』的差距,用具體的『修繕成本』表示
出來,並以此修正系統的行為。



要能實現這種架構,系統本身必需具有調適性 (adaptable)及可
控制性 (controllable),而且可以將使用者的需求利用一條回
饋的路徑併入系統,隨使用者的需求調整系統的執行行為,以達
到整體的最佳化。因此,機器翻譯系統本身必需是一個可參數化
的回饋系統 (parameterized feedback control system);系統
核心重要的決策模組,如辭彙分析、句法分析、語意分析、轉換
模組及生成模組,都要能夠參數化,才有可能將客戶的回饋納入
系統,直接降低可能的修繕成本。



圖三代表一個這種具有參數化及回饋控制功能的機器翻譯系統架
構。系統中作為評分之用的評分參數,可以透過完稿與初稿間的
差異,作誤差修正,以調整其參數值。由此所獲得的修正參數值
,將可反應特定使用者或客戶在翻譯過程中,對某些詞彙及語法
結構的偏好,從而降低譯後修繕的成本。


<<圖三:利用參數化系統的回饋控制功能修正系統參數>>



這種參數化的系統,其特性是容易利用系統的參數,以可預期的
方式控制系統的執行績效。而一般規則式系統,基本上很難掌握
不同規則之間的互動關係及相互影響,無法預測增刪規則對整體
績效可能造成的影響。因此,BehaviorTran 大約在開始研究後
的第三年,即開始轉向這方面的研究。去 (1992)年,在全世界
最大的計算語言學會議COLING-92上,提出參數化的回饋系統架
構時,也引起不少學者的興趣與討論[Su 92b]。這種融合使用者
期望的系統架構,勢將在未來的機器翻譯發展中,扮演一個重要
的角色。



新一代的機器翻譯系統
綜合上述觀察,一個具有回饋機能的參數化系統,最能反應新一代機器翻譯
的需求與特色。透過參數化的系統模式,可以很容易掌握系統變動所造成的
影響,並且很清楚地定義出系統的最佳化目標,而用一套有系統的方式,逐
步達成改善系統績效的目標。如此,將可有效避免規則式系統增刪規則時,
難以預知對整體績效之影響的窘境。另一方面,機器翻譯發展者可利用參數
化的系統架構,有系統地控制及預測機器翻譯系統的行為;系統可利用客觀
的評分函數作最低成本的決策判斷;所需的知識庫可利用語料自動或半自動
地抽取,避免人工抽取所遭遇的高成本、低涵蓋面、不一致及不易維護更新
等問題。而使用者的需求則可透過系統的回饋功能直接融入系統,真正降低
譯後修繕的成本。

BehaviorTran 簡介

BehaviorTran  (先前稱為 ArchTran) 是致遠科技所發展的一套英漢機器翻
譯系統,也是國內第一套自行研發的機器翻譯系統。

BehaviorTran 早期的研究是在清大電機研究所進行的。 1985 年 5 月由蘇
克毅教授所指導的英漢機器翻譯小組,在只有兩名成員的情況下開始這個計
劃。目前這個計劃在英群企業的支持下,已轉移到科學園區的致遠科技公司
繼續研究,參與研究與運作的人員也擴充到了一、二十人。並且自 1989 年
起,正式成立翻譯服務中心,接受客戶委託,從事實際的翻譯業務。

同時, 透過翻譯中心的回饋, 不斷改善系統的績效及使用者介面。  早期
BehaviorTran 翻譯的主要對象, 是與電腦有關的手冊、使用說明以及書籍
等。隨著專業辭彙的增加,翻譯的工作也逐漸擴充到電機、機械、航空、心
理學等領域。

BehaviorTran 的系統模組

BehaviorTran 翻譯系統的基本架構,屬於轉換式的機器翻譯系統。 但在傳
統的轉換式架構中,加入了許多先進的技術,使該系統更能適應新一代機器
翻譯的需求。系統的分析、轉換、合成等部份,大致由以下的軟體模組來完
成:

●詞彙分析器 (Lexical Analyzer)

詞彙分析器的功能,主要在於界定輸入之原始語言的單詞及句子範圍,查出
句子裡每個詞項的基本資料,以供剖析 (parse) 句法結構之用。 主要處理
的項目有:

1. 格式處理:針對不同輸入格式,區分出排版指令及本文部份。

2. 切句處理:界定每一句英文原文的範圍, 找出剖析單位 (即系統定義的
句子 ),以為剖析之用。

3. 詞典查閱:從詞典中取出句子裡每一個詞項的資料,以供剖析之用。 若
句子裡的詞無法直接由詞典中找到,則透過構詞分析,試圖分析出該詞的詞
根、詞首、詞尾等,再依據詞根,抽取詞項資料。如果構詞分析失敗,則給
予這個詞內定詞類。

4. 特殊詞形還原:如縮寫詞 I'm 還原成未縮寫的形式 I am 等。

●前處理器 (Preprocessor)

「前處理」的作用主要在於剖析句子前,將一些詞類或句法上的訊息儘可能
提供給剖析器 (parser) 以簡化剖析的過程。前處理的工作相當瑣碎,以下
試列舉一二說明:

1. 區分符號與詞項:英文字母經常被用來作為符號, 例如「a」、「i」等
等。 由於「a」本身又是一個重要的英文冠詞,所以在進入剖析之前,必需
先判斷在該文稿中,「a」究竟是符號還是冠詞。

2. 公式辨識及處理:檢測文章中的公式、圖表等,而後加以標記, 不加入
剖析。

3. 刪除詞類歧義:檢查文句中各詞的詞類, 根據統計模式、系統的詞類並
存限制規則及單詞詞類並存限制,對各詞類組合予以評分,刪除較不可能的
詞類組合,以減少剖析時的歧義。

4. 處理成對式連接詞:檢測句子中所含的成對式連接詞,如「both... and
」、「neither... nor」等,將之視為對等連接詞處理。

5. 處理分離式成語:根據詞典記載,檢查是否有分離式成語 (如「turn...
on」,「look... at」等動詞和介詞中間可以插入名詞或副詞的複合動詞 )
,如果有這些分離式成語,則視為一個詞項,並將該詞項的資料取出。此類
成語中間所插入的成份可能使動詞跟介詞離得很遠(如「turn  the  radio
on」),且中間可能用到相同的介詞。因此,必需作某些處理才能確定成語
的範圍。

經過上述及其他前處理步驟之後,句子將被分解成一個個獨立的詞項,這時
才正式進入剖析階段。

●剖析器 (Parser)

剖析器的功能是分析句子的結構,根據每個字的詞類,找出句中各成份的階
層關係,  建構成剖析樹   (parse   tree) ,  並檢查其語意是否適當。
BehaviorTran 的剖析器有下列幾項特色 [Su 90]︰

1.強化的 LR 剖析器:以 LR 剖析器發展出來,並根據系統的需要修改。

2.「Top-down 過濾」加「Bottom-up 剖析」: BehaviorTran 基本上是採
bottom-up(由下而上)的剖析方式, 但同時也利用文法切分的方式,將剖
析用的文法切分成數個次文法 (subgrammars),使其具有 top-down 方向(
由上而下)的預測功能,便於語法現象的描述,及過濾一些不適當的分析。

3.強化的詞組律:在詞組律中加入「限制條件」(condition) 的檢查, 利
用語意分析,強化分析的功能,提高剖析的正確性。

4.動態詞組表:儲存剖析過的詞組資料,作為回溯 (backtrack) 時的參考
訊息,避免重複剖析。

5.部份剖析:根據系統的特殊要求, 以一個句子中的部份詞串 (而非完整
句子 ) 為剖析單位,進行剖析。 例如,剖析標題和分離式成語的受詞時,
檢查其中是否含有名詞組等等。

6.錯誤修護 (fail-soft) 功能:句子依據系統文法無法剖析出完整的結構
時,由已剖析的部份結果,嘗試找出可能的結構,以使系統能繼續處理,減
少譯後修繕的負擔。

7.根據評分函數, 刪除可能性較低的剖析路徑:除了利用語言學知識來刪
除歧義之外,並以機率方式,計算詞類、語法和語意的分數,將未達設定標
準的剖析路徑刪除,以減少歧義的數目與剖析的時間。最後並選出最可能的
剖析結果,繼續執行轉換及生成的動作。

●轉換器 (Transfer Module)

剖析後,依據產生的英文剖析樹,英中雙語詞典及系統的轉換律,執行英文
結構到中文結構的轉換。透過英中詞彙轉換,選擇適當的中文詞彙,並透過
詞組轉換,使其符合目標語 (中文 ) 的結構及詞序。

●合成器 (Synthesis Module)

合成器負責合成中文特有的結構,加入必要的中文修飾詞,以產生流暢的中
文輸出。例如:產生中文特有的「把」、「被」等特殊句型,加入「的」、
「了」等中文特有詞彙。

●詞典(Lexicons)

詞典裡儲存中英文詞彙資料,作為翻譯時英中轉換之用。 BehaviorTran 的
詞典依應用的層次分成幾部詞典︰

1.一般詞典:存一般英漢詞典裡查得到的單詞,如:language。

2.一般成語詞典: 存一般英漢詞典裡查得到的成語和複合詞, 例如  "in
order to"。

3.分離式成語詞典:    存分離式成語。     分離式成語為動詞和介副詞
(particle) 組成的動詞組, 其賓語出現在動詞和介副詞中間,也可能出現
在介副詞後面,例如「turn on」; 動詞和介詞中間,也可插入副詞,如「
look (carefully) at」。

4.專業詞典:存特定領域的專業詞彙,例如:"disk drive" (電腦類 )。

5.客戶詞典:存使用者特有或指定中譯的單詞。

6.專案詞典:存客戶專案特有或指定中譯的單詞。

由於翻譯的文稿中,一個詞在不同詞典的用法及意義可能同時出現,因此必
須將各部詞典裡的資料加以聯併 (unification),以得到所要的中文。詞典
聯併時,資料取用的優先順序為:專案詞典最先、客戶詞典其次、專業詞典
再其次,一般詞典最後。

●使用者介面

1.BehaviorTran 使用者工作環境: BehaviorTran 系統為使用者提供交談
式的使用環境,協助使用者以簡便而有系統的方式控制 BehaviorTran 所執
行的翻譯工作。例如作拼字檢查,以檢查輸入的英文是否有拼字錯誤;檢查
文稿中是否有詞典未建的詞,以便將生字補入詞典;編輯檔案,以符合翻譯
系統的輸入格式;以及進行翻譯工作等。

2. 譯後修繕工具:  BehaviorTran 譯後修繕工具是根據機器翻譯系統的特
色而設計,作為修繕人員的輔助工具,以提高修繕的速度。這個編輯軟體以
中文詞組為單位,提供使用者多種功能,如:詞組的調換、常用詞的選擇以
及列出詞典中英文詞彙的其他中文翻譯等;        同時還可以進一步配合
BehaviorTran 回饋資料給研究人員,作為改進的參考。

●先進的技術

在先進的技術方面, BehaviorTran 採用以語料為基礎,架構在高層語言知
識上的統計方式,發展出一系列的技術來協助知識抽取、解決歧義及控制系
統的行為。這些技術包括:

1.  利用整合式的評分函數, 解決詞彙、 語法及語意等各層次之歧義現象
[Su 88,91, Liu 90, Chan 92a, Lin 92]。

2. 使用以鑑別力、強健性為導向的自動學習策略,調整系統參數, 以減少
不必要的深層分析,並提高系統的執行績效 [Chia 92, Lin 92]。

3. 利用機率式轉換及生成模式, 自動找出轉換單位 (transfer units) 及
轉換規則。並利用目標語的文法,逆向找出系統的生成規則,以產生符合目
標語語法的翻譯, 避免一般轉換式翻譯系統所產生的生硬翻譯 [Chan 92b]
。

4. 在系統中併入回饋功能, 使系統的行為能依使用者的需求調整,減少所
需的譯後修繕 [Su 92b]。

在這些先進技術的支援下, BehaviorTran 將可逐步整合語言學和統計學的
知識,建構一個具有一致性的大型自然語言處理系統。並以自動化、系統化
的方式,求取語言模式參數。改進傳統的機器翻譯系統,邁向新一代機器翻
譯系統所追求的目標。

結語

由於機器翻譯的需求越來越迫切,機器翻譯及相關的自然語言處理技術,已
列入美、日許多著名研究機構的重點科技之內。因此,國人有必要在現有的
基礎上,繼續開發更先進的翻譯技術。

傳統的規則式機器翻譯系統架構,已逐漸顯露出其先天上的限制。因此,本
文中所提到的一些重要議題,可為有心加入研發行列的人,提供一個明確的
方向。簡言之,未來的機器翻譯系統將會逐漸強調:

(1) 參數化的模式;

(2) 以語料為基礎,以統計為工具,建構在高層語言知識上的語言模式;

(3) 一致性的歧義解決方式與客觀的評分機制;

(4) 強化鑑別力及強健性的自動學習策略;

(5) 雙向式的系統設計;

(6) 依使用者需求調整系統行為的回饋控制功能。

而這些方向也是 BehaviorTran 逐步完成及追求的目標。

參考書目:

[Chan 92a] Chang, J.-S., Y.-F. Luo and K.-Y. Su, "GPSM: A Generalized 
Probabilistic Semantic Model for Ambiguity Resolution," Proceedings of 
ACL-92, pp. 177--184, 30th Annual Meeting of the Association for 
Computational Linguistics, University of Delaware, Newark, DE, USA, 1992.

[Chan 92b] Chang, J.-S. and K.-Y. Su, "A Corpus-Based 
Statistics-Oriented Transfer and Generation Model for Machine 
Translation," manuscript, 1992.

[Chen 91] Chen, S.-C., J.-S. Chang, J.-N. Wang and K.-Y. Su, "ArchTran: 
A Corpus-Based Statistics-Oriented English-Chinese Machine Translation 
System," Proceedings of Machine Translation Summit III, pp. 33--40, 
Washington, D.C., USA, 1991.

[Chia 92] Chiang, T.-H., Y.-C. Lin and  K.-Y. Su, "Syntactic Ambiguity 
Resolution Using A Discrimination and Robustness Oriented Adaptive 
Learning Algorithm", Proceedings of COLING-92, vol. I, pp. 352--358, 
14th Int. Conference on Computational Linguistics, Nantes, France, 
1992.

[Hutc 86] W.J. Hutchins, Machine Translation: Past, Present, Future, Ellis 
Horwood Limited, West Sussex, England, 1986.

[JEIDA 89] JEIDA, A Japanese View Of Machine Translation In Light Of The 
Considerations And Recommendations Reported By ALPAC, U.S.A., 
M. Nagao (chairman), Machine Translation System Research Committee, 
Japan Electronic Industry Development Association, 1989.

[Lin 92] Lin, Yi-Chung, Tung-Hui Chiang and Keh-Yih Su, "Discrimination 
Oriented Probabilistic Tagging," Proceedings of ROCLING-V, ROC 
Computational Linguistics Conference V, pp. 87--96, 1992.

[Liu 90] Liu, C.-L., J.-S. Chang and K.-Y. Su, "The Semantic Score 
Approach to the Disambiguation of PP Attachment Problem," Proceedings of 
ROCLING-III, pp. 253-270, 1990.

[Su 87] Su, K.-Y., J.-S. Chang and H.-H. Hsu, "A Powerful Language 
Processing System for English-Chinese Machine Translation System," 
Proceedings of 1987 Int. Conf. on Chinese and Oriental Language 
Computing, 260--264, Chinese Language Computer Society, Chicago, 
Illinois, USA, 1987.

[Su 88] Su, K.-Y. and J.-S. Chang, "Semantic and Syntactic Aspects of 
Score Function," Proc. of COLING-88, vol. 2, pp. 642--644, 12th Int. 
Conf. on Computational Linguistics, Budapest, Hungary, 
1988.

[Su 90] Su, K.-Y. and J.-S. Chang, "Some Key Issues in Designing MT 
Systems," Machine Translation, vol. 5, no. 4, pp. 265-300, 1990.

[Su 91] Su, K.-Y., J.-N. Wang, M.-H. Su and J.-S. Chang, "GLR Parsing 
with Scoring," In M. Tomita (ed.), Generalized LR Parsing, Chapter 7, 
pp. 93-112, Kluwer Academic Publishers, 1991.

[Su 92a] Su, K.-Y and J.-S. Chang, "Why Corpus-Based Statistics-Oriented 
Machine Translation," Proceedings of TMI-92, pp. 249--262, 4th Int. 
Conf. on Theoretical and Methodological Issues in Machine Translation, 
Montreal, Canada, 1992.

[Su 92b] Su, K.-Y., M.-W. Wu and J.-S. Chang, "A New Quantitative 
Quality Measure for Machine Translation Systems," Proceedings of 
COLING-92, vol. II, pp. 433--439, 14th Int. Conference on Computational 
Linguistics, Nantes, France, 1992.