理想中文字符集必須具備多種條件
台灣志遠科技公司高級研究員張景新博士專攻自然語言處理研究,尤其是機器翻譯的研究,對于解決中文不同內碼轉換的答案,他認為,作為一個好的內碼,它必須能夠解決以下幾個問題。
首先,這個理想的內碼字符集必須有足夠的漢字,包括常用字以及古漢語,甚至專用名詞,這對圖書館以及進行全國性計劃非常重要。
第二,它必須方便進行基本中文處理。換句話說,內碼字符集排列必須方便使用中文軟體。例如︰用筆劃分類以及根據內碼排列找出作用相似的標點符號。
其它的標準包括︰方便進行編碼與解碼、具有處理多語言的良好功能、方便中文輸入與輸出、能處理更複雜資訊,如資訊檢索、機器翻譯等。
他強調,對網際網路應用軟體來說,用戶非常關心它是否具有處理多語言的功能。“最理想的是用一種語言輸入,以不同形式的用多語言呈現(例如︰中文中有簡體、繁體及英文),轉換時不出現亂碼。”
“對于軟體開發商來說,開發一個多語言軟體要比開發單獨一個語言軟體要經濟得多。”
不同內碼除了造成資訊交換困難之外,他指出的另外一個問題,是大多數繁體中文在轉換成簡體時沒有問題,但反過來,就會出現問題。“經過一次或多次轉換后,有些漢字會混淆,繁體中文必須靠內容解決轉碼出現的問題。”