第一章導論 1.1 在自然語言處理中, 詞是最小而且有意義單位。然而, 在一 句中文的句子裡詞與詞之間並沒一個符號來區隔(在英文中是以 空白做為詞與詞之間的區隔。)因此當我們要處理中文的句子時, 斷詞是最基本的一個動作。 所謂的斷詞就是將輸入句子的安串順序、轉換成詞語順序的 過程就叫做斷詞, 它主要的目的是要簡化自然語言處理系統的運 算步驟避免考慮太多不可能的斷詞情形。 1.2 本系統所用的斷詞標準是中央研究院詞庫小組的中文自然語 言處理用分詞原則 其分詞原則如下 1. 有獨立意義的語法類可依類一分詞單位。 動 詞 (知道 答應) 名 詞 (音樂 天空) 介 詞 (把 被 ) 連接詞 (或者 和 ) 副 詞 (突然 互相) 語助詞 (了 呀 ) 感歎詞 (嘿 嗨 ) 非謂形容詞 (天大 多餘) 方位詞 (長城 以北) 量 詞 (本 個 ) 例: 大家 都 保持 紳士 和 淑女 的 風度 工作 人員 心理 作用 品質 管制 空氣 污染 紅 花 買 束 花 泡 壺 茶 盤庚 開天闢地 !!名詞中的專有名稱大部份都沒有列入詞典, 而且也無規去預測 , 但目前的處理方式為王管人名或地名的專有名稱皆一律為分詞 單位。 (a) 人名 •歷史人物或現代名人的姓名合為一分詞單位予以切分。 例: 蘇東坡 孫運璿 吳順利。 !!但若姓氏帶職稱, 則一律切分。 例: 張 老師 李 教授 張 老師 居正 李 教授 英俊 (b) 地名 •專有地名若不能獨立存在而保持原來的意義者, 不予切分。 例: 太湖 玉山 太平洋 學府路 •行政區域 "省、市、縣、鄉" 前的地名雖可獨立見稱, 但經決 議仍不予以切分。 例: 台北市 南港區 江蘇省 •國家全名為一分詞單位。 例: 愛爾蘭共和國 2. 慣有的語言成分依人的使用習慣切分。 (1) 結合緊密, 成了慣用語或辭彙化的詞語, 其意義比字面意義 特別或廣泛或多或少有點不同, 則合為一分詞單位, 方便處理。 打字 敲竹槓 出血 招手 (2) 成語: 漁翁得利 咬緊牙根 真心誠意 (3) 外來詞譯音(包括外國人名)為一分詞單位。 幽默 巴士 披薩 (4) 縮寫 例: 企銀 竹中 共合中心 例: 內外銷 奧委會 (5) 有些自由語素結合非常緊密, 即使語意、語法沒有改變, 仍 合為一分詞單位。 必會、已具、深受、實應、貴在 3. 語意失去組合性(composition), 或語法起變化, 得合為一 分詞單位。 (1) 自由詞素結合後語意或語法有所變化, 影響進一步處理, 則 視為一分詞單位。 酒鬼 不得不 亦或 越來越 瞎鬧 算了 成了 大小 長短 穿著 (2) 重疊式因語意已有變動, 語法上修飾成分的共存限制亦有不 同, 故視為一分詞單位。例: 粒粒 一個個 大大 想想 研究研究 嚐嚐看 快快樂樂 綠油油 圓滾滾 寶里寶氣 (3) 動補式複合因語意語法亦有所改變, 合為一分詞單位。 拉長 想清楚 找出 抬出去 4. 能由構詞律衍生的詞視為一分詞單位。 (1) 派生詞(derivative words)為一分詞單位。 例: 可笑 準博士 物理學 合理化 可信度 靈活性 建築師 支持者 研究員 (2) 由規律組合的數詞 例: 十分之一 三千四百八十 百分之九點七 三十好幾 第一 數千 (3) 重疊式 例: 輕輕 快快樂樂 討論討論 棵棵 一枝枝 哈哈哈哈哈 !!數詞與量詞或定詞的組合雖可由規律衍生, 但其各自獨立為一 分詞單位。 例: 三 朵 三四 歲 十來 家 五十餘 件 第一 本 三 倍 三公斤 多 這 本 此 項 !!至於時間詞雖也可比照定量式複合詞由規律產生, 但因其組合 成份為一語意單位, 所以因其組成單位來切分。 例: 八十年三月八日二點卅分 而像星期一、初一、一月……今天、前天等時間詞因具有特定意 義, 且衍生性不高, 故列為一詞, 不由構詞律處理。 5. 有明顯的分隔標記時得切分之。 除了上述原則外, 各詞語若遇下列分隔標記時得予以切分。 (1) 標點符為分詞單位的分隔標記, 包括: 逗號、句號、頓號、 冒號、分號、問號、驚歎號、括號、引號、破折號、刪節號等。 其中頓號且語法特性, 相當於連接詞「和、與、或」。 (2) 時態標誌: 包括了、著、過、起來、下去 •動賓結構原為一分詞單位, 但當中插時態標記或修飾成分時, 予以切分。 註 過 冊 鞠 了 好 大 的 躬 •「起來、下去」做時態標記, 可切分開 討論 下去 唱 起來 (3) 得、不、一、語助詞 •動補式複合詞雖為一分詞單位, 但當其中插「得、不」時, 予 以切分。 做得好點不著 !!但像「養得起、養不起」、「處得來、處不來」因無相對應之 「養起」、「處來」, 所以列入詞典, 不予切分。 •當重疊詞遇'一'、語助詞時予以切分。 說一說 瞧一瞧 跑呀跑 •A-not-A應予切分。 同不同意 高興不高興 6. 同形異構的成份依實際語境切分 把 手 張開 門 的 把手 她 的 穿著 很 輕 便 她 穿 著 洋裝 1.3 至目前為止, 在處理中文斷詞上, 主要有2種不同的做法, 一種是規則式斷詞法, 一種是統計式的斷詞法, 現分別說明這兩 種做法和優點於下 1.3.1 規則式斷詞法 它的做法, 主要是查字典, 並利用規則來判斷斷詞的結果, 優點是規則裡包含了語言現象, 若使用在小領域的語料庫, 會有 較好的表現, 而其缺點是規則必須耗費很多時間、人力來建立, 同時因為這些規則是人建立的, 當規則不斷的增加時, 不容易保 持他的一致性, 而且維護也較困難。 1.3.2 統計式斷詞法 它的做法, 是由大量的語料庫, 估出不同的參數, 以模式來 決定斷詞的結果, 他的優點是不須要建構則, 用統計的方法來解 語言的現象, 而且統計式斷詞法應用到不同領域的語料庫時, 只 須重新對新語料庫重新估計數學模式裡的參數及可, 統計式做法 的缺點是因為它忽略了構詞規則(語言學方面)的知識, 所以統計 式斷詞法在正確率方面會有一定的瓶二頸。 1.4 中文斷詞系統主要的問題 前敘的兩種做法, 規則式斷詞法及統計式斷詞法並無法完全 正確的斷詞, 主要的原因是因為中文裡有些詞素(morphemes) , 與詞之間的組合具有強大的衍生性無法窮舉, 而這些組合成的複 合詞(compounds)或合成詞(complex words)也無法一一建入詞典 中, 因而提高丁中文斷詞的複雜性。 另一個主要的問題, 則是未知詞的問題, 因為語言是天天在 使用的東西, 語言的現象也天天在變化, 每天都有可能產生一些 新詞, 對中文斷詞系統而言, 這些都是未知詞, 目前的斷詞系統 , 都是基於一個基本的假設, 也就是假設所有處理的詞都存在於 系統的詞典裡因此如何處理未知詞就成了中文斷詞系統中, 一個 極大的挑戰。 1.5 本系統的作法 在這篇論文中, 為了簡化斷詞系統的複雜度, 我將系統分為 3個階段, 第一階段是初步斷詞, 也就是查字典的動作, 將一個 輸入句子的所有可能斷詞的方法全部產生出來, 第二階段是中文 構詞律的部分, 這一部分也就是要處理, 一部分可經由構詞律產 生的未知詞, 第三階段利用第二階段中文構詞律的結果來處理無 法由構詞律合成的未知詞。 至於在挑選最可能的斷詞結果時, 是利用四種不同的數學模 式來判斷的, 這四種不同的數學模式將在第三章系統的建立中詳 細介紹。 1.6 論文概要 第二章將介紹整個系統的架構, 包含系統的流程圖、系統所 使用的詞典及系統所使用的中文構詞律第三章至第五章, 將介紹 斷詞系統中, 3個子系統的建立, 與模擬的結果與分析, 第六章 將對整個系統做個結論, 並提出將來的發展方向。