ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

An EM-based approach for miningWord senses from corpora

หน่วยงาน สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์

รายละเอียด

ชื่อเรื่อง : An EM-based approach for miningWord senses from corpora
นักวิจัย : Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich
คำค้น : Corpus-based lexicography , Word sense discrimination , Clustering , EM algorithm , Principal component analysis
หน่วยงาน : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์
ผู้ร่วมงาน : -
ปีพิมพ์ : 2550
อ้างอิง : IEICE transactions on information and systems. E90–D, 4 (2007) pp. 775-782 , 0916-8532 , http://dspace.library.tu.ac.th/handle/3517/299
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

Manually collecting contexts of a target word and grouping them based on their meanings yields a set of word senses but the task is quite tedious. Towards automated lexicography, this paper proposes a word-sense discrimination method based on two modern techniques; EM algorithm and principal component analysis (PCA). The spherical Gaussian EM algorithm enhanced with PCA for robust initialization is proposed to cluster word senses of a target word automatically. Three variants of the algorithm, namely PCA, sGEM, and PCA-sGEM, are investigated using a gold standard dataset of two polysemous words. The clustering result is evaluated using the measures of purity and entropy as well as a more recent measure called normalized mutual information (NMI). The experimental result indicates that the proposed algorithms gain promising performance with regard to discriminate word senses and the PCA-sGEM outperforms the other two methods to some extent.

บรรณานุกรม :
Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . (2550). An EM-based approach for miningWord senses from corpora.
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . 2550. "An EM-based approach for miningWord senses from corpora".
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . "An EM-based approach for miningWord senses from corpora."
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2550. Print.
Thatsanee Charoenporn , Canasai Kruengkrai , Thanaruk Theeramunkong , Virach Sornlertlamvanich . An EM-based approach for miningWord senses from corpora. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2550.