關於部落格
  • 78172

    累積人氣

  • 11

    今日人氣

    0

    追蹤人氣

電腦語言學的研究發展概論:過去、現在與未來

作者:國立雲林科技大學《應用外語學系》---楊孝慈 一、源起 電腦語言學的研究源自於1950 年代,當時一些美國語言學者試著想把俄文的學術 論文由機器自動翻譯成英文,以方便能快速蒐集並閱讀資料。為此,語言學家必 須了解這兩種語言的文法,包括句構學、語型學、語意學、以及語用學等語言結 構。語言學家把文法知識交由電腦語言學家來設計語言轉換的程式,希望能使電 腦了解俄文和英文的文法,然後把俄文翻譯成英文。剛開始由機器翻譯出來的文 章,只能讓美國學者從俄文寫的論文裡,得到很粗淺的概念,它並不是一個精緻 的翻譯。 到了1960 年代,電腦語言學家意識到機器翻譯比想像的還要困難,因為人類 語言的文法層次非常複雜,所以機器翻譯的研究發展就遇到了困境,無法突破。 之後,電腦語言學家開始從其他方面發展,例如運用電腦來做語言資料的整理, 或是開發一些軟體來辨識語言的意義 [Cole et al. 1998]。 二、定義 什麼是電腦語言學呢?從字義上來說,電腦語言學就是語言學家和電腦程式設計 者共同研究語言的文法,以電腦來進行分析語料。目前,電腦語言學家常研究的 問題就是人工智慧,如何使得電腦能夠了解人類的語言,然後進行一些跟語言相 關的工作,包括它能夠翻譯、能夠處理一些語言的資訊,甚至於能夠了解人類的 話,跟人類互動。 有些學者給電腦語言學的定義比較嚴謹,他們認為,如果只是純粹地讓電腦 進行對文本的統計分析,那這並不是電腦語言學主要的研究方向。電腦語言學主 要的研究是如何讓電腦能夠了解人類的語言。因此,他們設計了程式,灌輸電腦 有關人類語言的文法。但是,另外有一些學者認為,應該從更廣的層面來看電腦 語言學的研究發展,電腦語言學並不是只有讓電腦能夠辨識人類的語言;他們認 為,電腦語言學應該包括能讓電腦來分析語言的資料、測試語言學的理論,或者 是了解人類和電腦的相同和相異性。 整體來說,電腦語言學的應用範圍很廣,包括了機器翻譯、人工智慧、資料 檢索、文法檢測、人機問答、電腦協助的語言教學,或是自動寫作評分等等,都 是電腦語言學的研究發展,當然還包括其他的應用 [Bosch et al. 1999]。接下來我 將進一步地談論電腦語言學的過去、現在和未來發展。 三、過去發展 電腦語言學從1950 年代開始就進行機器翻譯,但到目前為止,機器翻譯技術並沒 有突破多少。以前只是希望能把俄文或是其他外國語言翻譯成英文,讓美國學者 或是科學家能大略地了解國外的學術和科學研究發展,做為情報上的分析或交 流。但是,機器翻譯的技術遇到瓶頸,原因是人類的語言文法非常複雜,並不能 簡化成只有一些公式或程式而已,這些複雜的文法觀念必須考慮語音、音調等等。 所幸,機器翻譯已發展出二種重要的技術,一種是借由人工先行把想要翻譯 的文本簡化句型,讓機器能夠便於分析語料,然後翻譯,這種技術是由先行的人 工編輯,簡化文本,使得機器的翻譯能夠順暢,也就是把一些文法句型複雜的句 子簡化成為簡單的句子,讓翻譯機器能夠辨讀,進行翻譯。 另外一種技術就是由機器來協助翻譯,也就是先建立一個已經翻譯好的語料 庫,讓翻譯者來運用,當要翻譯一個句子的時候,語料庫就會檢測它內部的翻譯 文本,搜尋比較接近的句子,然後提供譯文出來給翻譯者參考。翻譯者可以完全 採納資料庫所提供的譯文,或者是將資料庫的譯文進行修改,成為更適當的翻譯。 這種技術是借由資料庫搜尋的方式,讓翻譯者參考相似的譯文,再進行編輯,以 使翻譯的工作變得簡單。因此,對於內容相似性很高的文本,在做翻譯的時候, 使用機器來協助翻譯,會比較有效。例如,資料庫裡如果已經有從英文翻成中文 的A 牌冷氣機操作的翻譯文本,那麼,當B 牌的英文操作文本要翻成中文時,就 可以用A 牌的翻譯文本資料庫來進行輔助,因為冷氣機的操作方式有很多都很類 似,所以當遇到相似的操作說明和句子時,資料庫就會搜尋A 牌冷氣機操作資料 庫的譯文,提供出來給翻譯者做參考,進行編輯,這樣就能使得翻譯的工作輕鬆 簡單 [Shih 2006]。 大體來說,機器翻譯的技術已經從過去的機器翻譯文本,變成整合人工編輯 的方式,進行機器翻譯。翻譯者可以先行將文本簡化,讓機器翻譯順暢無礙。或 是先建立譯文資料庫,然後藉由搜尋相似句型的譯文,讓翻譯者參考和編輯。這 兩種技術各有缺點,如果是由翻譯者先行簡化句型,那麼,機器翻譯出來的句子, 就會比較粗糙而沒有文采,若欲要求高品質的翻譯,就需先建立譯文資料庫,讓 翻譯者參考,進行人工編輯;但是,要如何能夠收集精確而良好的譯文做為資料 庫,將是日後發展機器翻譯技術的其中一項重要課題 [Daelemans 2005]。 四、現在發展 最近這幾年,電腦語言學者都集中研究語音辨識系統,他們的目標是希望電腦能 夠辨識人類說話的內容。但是,這樣的目標在現階段是不太容易達成,因為有很 多的因素都必須考慮。目前,許多的語音辨識系統的研究和開發,都是在無噪音 或安靜的環境下測試;同時希望使用者能夠使用麥克風,正確發音;另外,所測 試的字彙範圍也非常有限,大約二千字。所以,當各種不同的使用者,在各種不 同的環境下使用語音辨識系統時,電腦的辨識能力就大幅下降 [Rayner 2007]。 那要如何提升電腦語音辨識系統的能力呢?首先,我們可以先建立一個良好 的字彙資料庫,可從兩個方向來進行;第一,先建立一個日常用語的字彙資料庫。 第二,根據使用者的工作需要來建立資料庫,例如,如果我們要為一個專為從事 國際貿易的商人設計一套語音辨識系統,我們除了建立一個日常用語的資料庫 外,也要建立一個國際貿易常用字的資料庫,整合這兩種資料庫,做為電腦語音 辨識系統的訓練,那麼就可提升電腦辨識的能力。 接下來的問題是,這個字彙資料庫應該要多大呢?大部份的實驗都是建立一 個二千字左右的字彙資料庫,來進行測試語音辨識系統,但在實際的使用層面上, 二千字是否適當、足夠,就因人而異,最好的方式是根據特別一群的使用者或者 個別的使用者來設計他們的字彙資料庫;例如,如果我們想要專門為從事國際貿 易的人來設計語音辨識系統,那麼就要考慮到他們工作場合常用單字的字彙大小 來決定字彙資料庫裡面的容量。根據有些學者的研究,一般中文的常用字使用, 大約在五千到六千單字左右 [Cheng 1996];但是,如果我們想要專門為某一特定 的使用者或族群來設計語音辨識系統,這樣的字彙資料庫建製,將是非常的耗時 又昂貴。 儘管如此,字彙資料庫未必包括所有使用者的用字遣詞。當說話者的用字並 不包括在字彙資料庫內,那麼語音辨識系統就會呈現錯誤的訊息,在這種情況, 要如何解決呢?或許我們可以設計語音辨識系統在遇到無法辨識說話者的用字 時,出現空白的欄位,讓說話者輸入單字,使電腦能夠學習,並納入這個單字到 資料庫內。或者能進一步地設計,讓說話者能進行錄音,使語音辨識系統在碰到 類似的發音時,能針對該使用者的發音,辨識出所使用的單字。 除此之外,我們也可以設計如何讓電腦在遇到無法辨識用字時,能針對上下 文來進行修復,使得文意通順。另外,未來語音辨識系統的研究,也可以考慮納 入自然情境之下的說話方式,而不止是在安靜的實驗室裡,用麥克風說話。同時, 也可以考慮如何將說話的語調和韻律納入辨識系統的訓練 [Bates 2006]。 在多元文化的現代社會裡,也有必要開發多語言的語音辨識系統。例如,在 機場時,如果工作人員聽不懂一位乘客的語言,那麼就可以使用這個多語言的語 音辨識系統來進行偵測,辨識這個說話者的母語是什麼;當能夠正確地辨識這個 說話者的母語,那麼機場的工作人員就能即時派遣會說這名乘客母語的服務人員 來溝通並予以協助。這種能辨識多語言的語音系統,是由兩種資料庫來進行設計 和開發。第一,彙整各種語言的主要語音資料,包括獨特的子音或母音。第二, 根據每一種語言獨特的語音結構和音節的設限來進行比對,電腦將會根據說話者 的語音和音節結構來進行分析,然後篩選出最有可能是這名說話者的母語 [Lyu 2006; Reiter 2006]。 其實,台灣人說中文的語音特徵和大陸中文腔調有很多不同處,那要建立中 文語音辨識系統的語音資料庫時,該如何取捨呢?針對這個問題,我們可以先將 比較頻繁的台灣中文語音特徵納入在語音辨識系統的資料庫內,例如,在台灣有 很多的人,尤其是四十歲以下的台灣人,無法區分ㄣ和ㄥ這兩種鼻音,當母音是 ㄧ或ㄜ的時候,大多數的台灣人都把ㄥ唸成ㄣ,如:把「平」唸成「頻」,把「耕」 唸成「跟」,這種台灣人的中文語音特徵非常頻繁,所以可以納入在特別為台灣人 設計的中文語音辨識系統內,以提升辨識的效果 [Yang 2007]。 綜觀而言,語音辨識系統的未來發展要考慮許多層面,包括如何辨識不清楚 的語音訊息,例如接收電話線的訊息;還有如何在有噪音的自然環境裡辨識語音 訊息;以及如何將音調和韻律的語言訊息加入辨識模式的訓練,以提升辨識效果。 另外,也要考慮多元文化社會下,交換各種語言的溝通方式;也要考慮說同一種 語言有不同腔調的現象,並考慮外國人的腔調等等。這些因素,就現階段來說, 有的比較難達成,有的比較上手,可立即獲得改善。比較難克服的問題,包括如 何將音調和韻律的文法訊息加入辨識模組的訓練;還有如何有效地辨識在噪音環 境下的自然說話訊息;例如,如何提升辨識從電話線發送的訊息,是非常困難的 突破技術,因為就目前為止,語音辨識系統還是必須依賴說話者在安靜的環境下 使用麥克風,清楚地發音。 儘管如此,比較容易改善的現象,包括開發辨識多語言的語音辨識系統,因 為這種偵測多語言的辨識系統只需考慮各別語言之間的特別音素,或是獨特的音 節結構,這樣電腦就可以整合所有的語音訊息,判斷說話者的最可能母語。 另外一個比較容易改善的現象,就是開發一種可以包容各種說話者腔調的語 音軟體,因為,只要將不同腔調的獨特語音特徵加入在語音訓練模組內,就可以 有效地提升語音辨識效果。 五、未來發展 除了改善語音辨識系統的現況之外,電腦語言學的研究發展也可以從其他許多層 面來進行。從本人研究實驗語音學和語言習得的層面來說,至少有三個層面可以 在未來努力研發。第一,電腦語言學者可以開發軟體,藉由機器的輔助來整理並 分析語言資料,像這類的語言分析軟體對語言學的研究非常有幫助,可以有效地 節省分析語料的時間,借由電腦程式的補助,自動運算語言資料,分析結果,將 可大幅改善費時又費工的語言分析工作。例如,語音社會學者常要分析語音變異 的資料,從量化的資料當中去找出語音變異的現象,並檢視這種語音變化與社會 族群之間的關係。這種語料的分析,非常繁瑣,因此電腦語言學者可以開發一個 語音分析軟體,協助語音社會學者在龐大的語料庫當中,分析檢索語音變化的測 驗單字以及出現率。進一步,這種語音分析軟體也可以統計語料,輔助語言學者 比較兩個說話族群之間的語音差異程度是否明顯重要。 未來的研究也可以運用電腦來運算並檢視兩種語言的差異是如何影響到彼此 的互相溝通度。這種語言分析軟體的開發,將有助於我們分辨兩種語言的差異, 以及這差異是否會影響到溝通度,藉由運算這兩種語言溝通度的結果來分類這兩 種語言之間的關係,探討他們是否為同一種語言的變體,還是已經演化成為兩種 不同的語言體系 [Asher 2005]。 坦白來說,為語言學者而設計的語料分析軟體,似乎沒有實際的商業市場, 但是,對學術的研究,卻有相當大的貢獻。本人懇切期望台灣的電腦語言學者或 從事資工的研究者能針對語言學家的需要,來開發分析語料的軟體,如果這種語 料分析的軟體可以提供在網路上,讓其他國家的語言學者下載使用,如此台灣在 國際上對語言學研究的學術貢獻,將功不可沒。 最後,本人認為電腦語言學的未來研究發展也可以開發一些口語學習訓練的 軟體;雖然目前有許多的網路資源提供英語學習,也可以見到許多英語學習的電 腦軟體,但是針對英語口語學習的軟體,寥寥可數,而且有些問題有待改進。本 人認為一個針對英語口語訓練的電腦軟體必須可以診斷出英語學習者的口語問 題,進而提供專業的建議,並提供聽講練習,以有效幫助英語學習者增強口語的 能力。要達到這個目的就要先了解台灣人在英語學習時常會碰到的發音困難,因 此,建立一個台灣英文的語音資料庫,可以提供語言學者分析台灣人說英語的常 見語音特徵,將這些語音特徵整合在語音辨識軟體內,將可以預測台灣人說英語 的發音困難,進而提供改善發音的方法,以及配合聽講的練習,期許英語學習者 能有效改善口語的能力。 最後,本人也認為,一個英語聽講練習的電腦軟體,有必要建置一個世界英 語腔調的資料庫,提供給英語學習者做聽力練習,甚至是口語的訓練。世界英語 的概念在英語廣泛做為國際語言的趨勢下,十分重要。過去二十多年來,世界英 語的研究已經受到愈來愈多英語語言學者和從事英語教學工作者的重視,這股研 究世界英語的趨勢,以及熱烈的論壇,已經得到許多國際英語協會或測驗組織的 肯定。例如,多益考試已經在聽力測驗上融入四種英語腔調,包括英式英語,美 式英語,加拿大英語以及澳洲英語。新的托福考試在聽力測驗上,也包含有美式 英語和英式英語,因此考生必須熟悉不同的英語腔調,以增強聽力能力。所以, 一個英語聽講練習的電腦軟體,有必要提供不同英語腔調的語音檔,並解釋說明 語音腔調的異同性,讓英語學習者瞭解及熟悉不同的英語腔調,如此不僅可以增 強英語的聽力,同時也能有效地使用英語與不同國籍的人進行國際溝通。 總而言之,未來的電腦語言學研究可以從許多層面來發展,就如本文所提到 的,電腦語言學者可以開發更方便使用的電腦程式或軟體,包括機器翻譯機、語 音辨識軟體、多國語言偵測器、語料分析工具、語言統計分析比較軟體,以及世 界英語聽講練習的軟體等等,以上這些研究發展,本文已略述其過去、現在和未 來的研究發展情況,希望對電腦語言學有興趣的人,有所助益。
相簿設定
標籤設定
相簿狀態