語料庫和計算語言學研究群

Principal Investigators
李佳穎 Chia-Ying LEE 林英津 Ying-chin LIN 曾淑娟 Shu-Chuan TSENG
鄭秋豫 Chiu-yu TSENG 蕭素英 Su-ying HSIAO 魏培泉 Pei-chuan WE
 
〔相關網站〕
 
〔研究群介紹〕
國內外語言學研究在軟體、硬體、資訊發達的現在,已經朝著系統化語料庫建置與研究方向邁進。不論是語言田野調查、社會語言調查、認知神經語言科學研究、語言科技的發展都與語料的收集有密不可分的關係。而語料庫的建置過程,發音人或文字語料的選取,文體或情境的設計都會影響語料庫的性質,進而影響研究的結果。語料資源的共享也是目前語言學研究日益注重的焦點。
 
目前計算語言學由資訊科學不同的領域裡(Machine Learning, Information Retrieval, Digital Signal Processing, Machine Translation, Patten Recognition等)取得很多資料的處理方法(Hidden Markov Model, Maximum Entropy Model, Random Field Model, Decision Tree等)。但是應用時,還是需要收集與標注方式都合宜的語料庫為資料。因此,語言學對於語料的認識便扮演重要的角色。反之,有些語言學研究如果能有計算語言學模擬與運算的協助提供驗證與尋找規則的工具,在議題的開發會有相當的助益。
 
對於以上的研究方向,本群組包括以下研究領域
1.漢語歷史語法、歷代語料庫建置
2.實驗語音學、語音合成&語音辨識、語音資料庫建置
3.歷史語言學、語言生態&結構分析
4.認知神經科學、神經語言學
5.蒙古語族語言比較研究、台灣閩南語語法

2015 © 中央研究院 語言學研究所 版權所有