ชื่อเรื่อง | : | An EM-based approach for miningWord senses from corpora |
นักวิจัย | : | Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich |
คำค้น | : | Corpus-based lexicography , Word sense discrimination , Clustering , EM algorithm , Principal component analysis |
หน่วยงาน | : | สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ |
ผู้ร่วมงาน | : | - |
ปีพิมพ์ | : | 2550 |
อ้างอิง | : | IEICE transactions on information and systems. E90–D, 4 (2007) pp. 775-782 , 0916-8532 , http://dspace.library.tu.ac.th/handle/3517/299 |
ที่มา | : | - |
ความเชี่ยวชาญ | : | - |
ความสัมพันธ์ | : | - |
ขอบเขตของเนื้อหา | : | - |
บทคัดย่อ/คำอธิบาย | : | Manually collecting contexts of a target word and grouping them based on their meanings yields a set of word senses but the task is quite tedious. Towards automated lexicography, this paper proposes a word-sense discrimination method based on two modern techniques; EM algorithm and principal component analysis (PCA). The spherical Gaussian EM algorithm enhanced with PCA for robust initialization is proposed to cluster word senses of a target word automatically. Three variants of the algorithm, namely PCA, sGEM, and PCA-sGEM, are investigated using a gold standard dataset of two polysemous words. The clustering result is evaluated using the measures of purity and entropy as well as a more recent measure called normalized mutual information (NMI). The experimental result indicates that the proposed algorithms gain promising performance with regard to discriminate word senses and the PCA-sGEM outperforms the other two methods to some extent. |
บรรณานุกรม | : |
Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . (2550). An EM-based approach for miningWord senses from corpora.
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ . Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . 2550. "An EM-based approach for miningWord senses from corpora".
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ . Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . "An EM-based approach for miningWord senses from corpora."
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2550. Print. Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . An EM-based approach for miningWord senses from corpora. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2550.
|