ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

ระบบการถอดอักษรระหว่างภาษาไทยและภาษาอังกฤษ : แนวทางและการพัฒนา

หน่วยงาน สำนักงานกองทุนสนับสนุนการวิจัย

รายละเอียด

ชื่อเรื่อง : ระบบการถอดอักษรระหว่างภาษาไทยและภาษาอังกฤษ : แนวทางและการพัฒนา
นักวิจัย : วิโรจน์ อรุณมานะกุล
คำค้น : English-Thai Transliteration , Thai Romanization , การถอดอักษรไทยเป็นโรมัน , การทับศัพท์ภาษาอังกฤษ
หน่วยงาน : สำนักงานกองทุนสนับสนุนการวิจัย
ผู้ร่วมงาน : -
ปีพิมพ์ : 2548
อ้างอิง : http://elibrary.trf.or.th/project_content.asp?PJID=MRG4680160 , http://research.trf.or.th/node/399
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

งานวิจัยนี้ศึกษาการสร้างระบบถอดอักษรจากภาษาไทยเป็นภาษาอังกฤษและจากภาษาอังกฤษเป็นไทยโดยอัตโนมัติ โดยยึดตามเกณฑ์การถอดอักษรไทยเป็นโรมันแบบถ่ายเสียงของราชบัณฑิตยสถานปี พ.ศ. 2542 และหลักเกณฑ์การทับศัพท์ภาษาอังกฤษปี พ.ศ. 2532 งานวิจัยนี้ชี้ให้เห็นว่า การถอดอักษรไทยเป็นโรมันโดยอัตโนมัติเป็นเรื่องยาก เพราะความกำกวมในการอ่าน นอกจากจะเกิดจากความกำกวมของการแยกพยางค์แล้วยังเกิดจากความกำกวมในการแยกคำด้วย ระบบการถอดอักษรไทยเป็นโรมันที่พัฒนาขึ้นจึงอาศัยความเข้าใจนี้เป็นพื้นฐานการพัฒนา ปัญหาการถอดอักษรไทยเป็นโรมันและการแยกคำภาษาไทยจึงถูกแก้ไขไปพร้อมกัน โดยอาศัยคลังข้อความที่แยกพยางค์แล้วและคลังคำพร้อมคำอ่านเป็นข้อมูลฝึกสอนให้กับระบบ ระบบที่พัฒนานี้สามารถถอดอักษรไทยเป็นโรมันได้ถูกต้อง 94.44% สำหรับการถอดชื่อ และถอดข้อความทั่วไปได้ถูกต้อง 99.58% ในทำนองเดียวกัน คลังคำทับศัพท์ที่รวบรวมจากเอกสารของราชบัณฑิตยสถานก็ถูกใช้เป็นข้อมูลสำหรับฝึกสอนและทดสอบระบบการถอดอักษรอังกฤษเป็นไทย งานวิจัยนี้ได้นำเสนอแบบจำลองเอ็นแกรมแบบกลุ่มเพื่อใช้ในการถอดอักษรอังกฤษเป็นไทย โดยเปรียบเทียบกับแบบจำลองอื่นอีกสามระบบ ได้แก่ แบบจำลองตารางกฎ แบบจำลองดีซิชันทรี และแบบจำลองสถิติ ผลปรากฏว่าแบบจำลองเอ็นแกรมแบบกลุ่มสามารถถอดคำภาษาอังกฤษเป็นไทยได้ถูกต้อง 68% ซึ่งสูงกว่าผลจากแบบจำลองอื่นๆ และเมื่อเพิ่มโมดูลอ่านออกเสียงภาษาอังกฤษให้กับทุกระบบ ผลก็ปรากฏว่าทุกระบบทำงานได้ถูกต้องมากขึ้น อย่างไรก็ตาม ค่าความถูกต้องที่ได้ 68-84% ก็ยังไม่สูงเพียงพอที่จะให้สาธารณะใช้เป็นเครื่องมือในการทับศัพท์ภาษาอังกฤษโดยอัตโนมัติ เมื่อวิเคราะห์ปัญหาที่เกิดขึ้น เชื่อว่าปัญหาใหญ่เกิดจากโมดูลอ่านออกเสียงภาษาอังกฤษที่ยังไม่มีประสิทธิภาพพอ และปัญหาความไม่สม่ำเสมอของข้อมูลที่ใช้ในการฝึกสอน This study is concerned with creating an automatic system of Thai to English and English to Thai transliteration following the Royal Institute’s guidelines of Thai romanization (1999) and English-Thai transliteration (1989) respectively. We argue that automatic Thai romanization is difficult because the ambiguities of pronunciation are caused not only by the ambiguities of syllable segmentation, but also by the ambiguities of word segmentation. A model of automatic romanization then is designed and implemented on this ground. The problem of romanization and word segmentation are handled simultaneously. A syllable-segmented corpus and a corpus of word-pronunciation are used for training the system. The accuracy of the system is 94.44% for unseen names and 99.58% for general texts. Likewise, a Royal Institute’s transliterated word corpus is used for training and testing the English-Thai transliteration system. In this study, a model of chunk-based n-gram is proposed. The model is compared with three models: table lookup model, decision tree model, statistical model. The chunk-based n-gram model achieves 68% word accuracy, which is better than the accuracy of other models. Performances of all models are increased when an English grapheme to phoneme is included in the system. However, with 68-84% word accuracy, the system is not yet suitable to be used by the public. An investigation of the problems and some suggestions are provided. We believe that the low accuracy of the system is caused by the poor performance of the English grapheme to phoneme module and the inconsistency of pronunciation in the training data.

บรรณานุกรม :
วิโรจน์ อรุณมานะกุล . (2548). ระบบการถอดอักษรระหว่างภาษาไทยและภาษาอังกฤษ : แนวทางและการพัฒนา.
    กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย.
วิโรจน์ อรุณมานะกุล . 2548. "ระบบการถอดอักษรระหว่างภาษาไทยและภาษาอังกฤษ : แนวทางและการพัฒนา".
    กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย.
วิโรจน์ อรุณมานะกุล . "ระบบการถอดอักษรระหว่างภาษาไทยและภาษาอังกฤษ : แนวทางและการพัฒนา."
    กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย, 2548. Print.
วิโรจน์ อรุณมานะกุล . ระบบการถอดอักษรระหว่างภาษาไทยและภาษาอังกฤษ : แนวทางและการพัฒนา. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย; 2548.