ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

Towards Better Language Modeling for Thai LVCSR

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง : Towards Better Language Modeling for Thai LVCSR
นักวิจัย : Markpong Jongtaveesataporn , Issara Thienlikit , Chai Wutiwiwatchai , Sadaoki Furui , มรรคพงษ์ จงทวีสถาพร , อิศรา เธียรลิขิต , ชัย วุฒิวิวัฒน์ชัย
คำค้น : Artificial Intelligence and signal and image processing , Automatic speech recognition , Information, computing and communication sciences , Pseudo-morpheme , Speech / pattern recognition , Thai language , Thai LVCSR , Word Segmentation , การแบ่งคำ , ภาษาไทย , ระบบรู้จำเสียงพูดอัตโนมัติ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์
หน่วยงาน : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน : -
ปีพิมพ์ : 2550
อ้างอิง : http://www.nstda.or.th/thairesearch/node/6439
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

One of the difficulties of Thai language modeling is the process of text corpus preparation. Because there is no explicit word boundary marker in written Thai text, word segmentation must be performed prior to training a language model. This paper presents two approaches to language model construction for Thai LVCSR based on pseudo-morpheme merging. The first approach merges pseudo-morphemes using forward and reverse bi-grams. The second approach utilizes the C4.5 decision tree to merge pseudo-morphemes based on multiple features. The performance of ASR systems with language models built using these methods are better than systems which use only pseudo-morpheme or lexicon-based word segmentation. These approaches produce results which are are also comparable to the system which utilizes manual segmentation.

ปัญหาสำคัญสำหรับการจำลองภาษาไทย คือ ขั้นตอนการเตรียมคลังข้อความ เนื่องจากภาษาไทยไม่มีเครื่องหมายสำหรับแบ่งคำ จึงต้องใช้เครื่องมือแบ่งคำสำหรับการสร้างคลังข้อความที่ใช้ในการฝึกฝนแบบจำลองภาษา บทความนี้นำเสนอวิธีการ 2 วิธี ในการสร้างแบบจำลองภาษาใช้ในการรู้จำเสียงพูดต่อเนื่องภาษาไทยหลากคำศัพท์ โดยอาศัยการรวมกลุ่มของซูโดมอร์ฟีม วิธีการแรกคือ การรวมกลุ่มโดยอาศัยค่าความน่าจะเป็นของคู่มอร์ฟีมแบบไปข้างหน้าและแบบกลับหลัง วิธีการที่สองให้เครื่องมือตัดสินใจแบบ C4.5 ร่วมกับค่าลักษณะสำคัญต่างๆ ในการรวมกลุ่มมอร์ฟีมประสิทธิภาพของระบบรู้จำเสียงพูดที่ใช้ร่วมกับแบบจำลองภาษาที่สร้างขึ้นให้ผลรู้จำดีกว่าการใช้ซูโดมอร์ฟีมตรงๆ และการใช้หน่วยคำ อีกทั้งวิธีการที่นำเสนอนี้ให้ผลรู้จำใกล้เคียงกับระบบที่สร้างโดยการตัดคำด้วยมือ

บรรณานุกรม :
Markpong Jongtaveesataporn , Issara Thienlikit , Chai Wutiwiwatchai , Sadaoki Furui , มรรคพงษ์ จงทวีสถาพร , อิศรา เธียรลิขิต , ชัย วุฒิวิวัฒน์ชัย . (2550). Towards Better Language Modeling for Thai LVCSR.
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
Markpong Jongtaveesataporn , Issara Thienlikit , Chai Wutiwiwatchai , Sadaoki Furui , มรรคพงษ์ จงทวีสถาพร , อิศรา เธียรลิขิต , ชัย วุฒิวิวัฒน์ชัย . 2550. "Towards Better Language Modeling for Thai LVCSR".
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
Markpong Jongtaveesataporn , Issara Thienlikit , Chai Wutiwiwatchai , Sadaoki Furui , มรรคพงษ์ จงทวีสถาพร , อิศรา เธียรลิขิต , ชัย วุฒิวิวัฒน์ชัย . "Towards Better Language Modeling for Thai LVCSR."
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2550. Print.
Markpong Jongtaveesataporn , Issara Thienlikit , Chai Wutiwiwatchai , Sadaoki Furui , มรรคพงษ์ จงทวีสถาพร , อิศรา เธียรลิขิต , ชัย วุฒิวิวัฒน์ชัย . Towards Better Language Modeling for Thai LVCSR. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2550.