ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

A corpus-based approach for automatic Thai unknownword recognition using boosting techniques

หน่วยงาน สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์

รายละเอียด

ชื่อเรื่อง : A corpus-based approach for automatic Thai unknownword recognition using boosting techniques
นักวิจัย : Jakkrit TeCho , Cholwich Nattee , Thanaruk Theeramunkong
คำค้น : Data mining; , Ensemble learning , Machine learning; , Unknown word recognition , Word boundary detection , Thai words
หน่วยงาน : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์
ผู้ร่วมงาน : -
ปีพิมพ์ : 2552
อ้างอิง : IEICE transactions on information and systems. E92-D,12 (2009) pp. 2321-2333 , 0916-8532 , http://dspace.library.tu.ac.th/handle/3517/4882
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

While classification techniques can be applied for automatic unknown word recognition in a language without word boundary, it faces with the problem of unbalanced datasets where the number of positive unknown word candidates is dominantly smaller than that of negative candidates. To solve this problem, this paper presents a corpus-based approach that introduces a so-called group-based ranking evaluation technique into ensemble learning in order to generate a sequence of classification models that later collaborate to select the most probable unknown word from multiple candidates. Given a classification model, the group-based ranking evaluation (GRE) is applied to construct a training dataset for learning the succeeding model, by weighing each of its candidates according to their ranks and correctness when the candidates of an unknown word are considered as one group. A number of experiments have been conducted on a large Thai medical text to evaluate performance of the proposed group-based ranking evaluation approach, namely V-GRE, compared to the conventional naïve Bayes classifier and our vanilla version without ensemble learning. As the result, the proposed method achieves an accuracy of 90.93±0.50% when the first rank is selected while it gains 97.26±0.26% when the top-ten candidates are considered, that is 8.45% and 6.79% improvement over the conventional record-based naïve Bayes classifier and the vanilla version. Another result on applying only best features show 93.93±0.22% and up to 98.85 ±0.15% accuracy for top-1 and top-10, respectively. They are 3.97% and 9.78% improvement over naive Bayes and the vanilla version. Finally, an error analysis is given. Copyright © 2009 The Institute of Electronics.

บรรณานุกรม :
Jakkrit TeCho , Cholwich Nattee , Thanaruk Theeramunkong . (2552). A corpus-based approach for automatic Thai unknownword recognition using boosting techniques.
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Jakkrit TeCho , Cholwich Nattee , Thanaruk Theeramunkong . 2552. "A corpus-based approach for automatic Thai unknownword recognition using boosting techniques".
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Jakkrit TeCho , Cholwich Nattee , Thanaruk Theeramunkong . "A corpus-based approach for automatic Thai unknownword recognition using boosting techniques."
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2552. Print.
Jakkrit TeCho , Cholwich Nattee , Thanaruk Theeramunkong . A corpus-based approach for automatic Thai unknownword recognition using boosting techniques. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2552.