ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การวิเคราะห์เปรียบเทียบเครื่องมือแบ่งคำภาษาไทยและปัจจัยคุณลักษณะเฉพาะของอักขระ

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง : การวิเคราะห์เปรียบเทียบเครื่องมือแบ่งคำภาษาไทยและปัจจัยคุณลักษณะเฉพาะของอักขระ
นักวิจัย : ธิปภร ธนกุลวรภาส , ศราวุธ คงยัง , กฤษณ์ โกสวัสดิ์ , Tipraporn Thanakulwarapas , Sarawoot Kongyoung , Krit Kosawat
คำค้น : Artificial Intelligence and signal and image processing , Information, computing and communication sciences , Natural language processing (Computer science) , Text processing , Text processing (Computer science) , Thai language , Word Segmentation , การประมวลผลข้อความ , การประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์) , การแบ่งคำ , คำไทย , คูวส์ , ดีเอชเอ็ม , ทีเล็กซ์ , ภาษาไทย , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์ , เบส 2009
หน่วยงาน : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน : -
ปีพิมพ์ : 2553
อ้างอิง : http://www.nstda.or.th/thairesearch/node/19642
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

งานวิจัยด้านการประมวลผลภาษาไทย จะประสบความสำเร็จและมีความก้าวหน้าได้นั้น จำเป็นต้องพัฒนางานวิจัยขั้นพื้นฐานให้มีประสิทธิภาพ โดยงานวิจัยขั้นพื้นฐานที่สำคัญลำดับต้นๆ คือ การแบ่งคำภาษาไทย ในบทความนี้ ได้นำเสนอการวิเคราะห์ระบบการทำงาน ผลการแบ่งคำ และข้อผิดพลาด ของเครื่องมือแบ่งคำไทยที่มีผู้พัฒนาไว้ทั้งหมด 4 ระบบด้วยกัน คือ ระบบดีเอชเอ็ม ระบบคูวส์ ระบบคำไทย และระบบทีเล็กซ์ โดยที่ 3 ระบบแรกพัฒนาขึ้นภายใต้การแข่งขันสุดยอดซอฟต์แวร์แบ่งคำภาษาไทยในปี 2552 ส่วนระบบสุดท้ายพัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) จากการวิเคราะห์พบข้อสังเกตว่า ระบบที่จัดการกับ คำที่ไม่พบในคลังข้อความ หรือคำที่ไม่รู้จัก ได้ดีนั้น ได้นำคุณลักษณะเฉพาะของอักขระ มาเป็นส่วนหนึ่งของกระบวนการแบ่งคำทั้งสิ้น ผู้วิจัยจึงได้ทำการทดลองเพิ่มเติม โดยเพิ่มจำนวนของคุณลักษณะเฉพาะในระบบทีเล็กซ์จาก 10 คุณลักษณะ เป็น 256 คุณลักษณะ เพื่อดูว่าจะสามารถจัดการกับคำที่ไม่รู้จักได้ดีขึ้นหรือไม่ พบว่าดีขึ้นถึง 17.73% และยังพบว่า คำที่รู้จักนั้นจัดการได้ดีขึ้น 0.43% ด้วย ส่งผลให้ค่าความเหวี่ยง (F-measure) โดยรวมของระบบเพิ่มขึ้นจาก 95.72% เป็น 97.28% ใกล้เคียงกับระบบที่ได้อันดับหนึ่ง อย่างไรก็ตาม เครื่องมือแบ่งคำภาษาไทยที่ได้กล่าวมาทั้งหมดนี้ ต่างมีข้อเด่นและข้อด้อยที่แตกต่างกันไป สำหรับผู้ที่ต้องการนำไปประยุกต์ใช้งาน ควรเลือกให้เหมาะสมกับความต้องการและทรัพยากรที่มีอยู่

The progress and achievement of research in Thai language processing depend highly on strong basic NLP research, especially in Thai word segmentation. In this paper, we present an analysis of system architectures, segmentation results and errors from 4 Thai-word-segmentation tools: DHM, CUWS, KAM Thai and TLexs. The first 3 system have been developed under BEST 2009: Thai Word Segmentation Software Contest, while the last one by National Electronics and Computer Technology Center (NECTEC). We have noticed that the systems integrated with character features can better deal with unknown words than the one without them. SO we did a small experiment by increasing the number of feature in TLexs from 10 to 256 to see whether the unknown words would be segmented more correctly. The result confirms our hypothesis because the segmentation of unknown words is improved by 17.73%, Moreover, the segmentation of known words gain also a little profit by improving 0.43% too. Consequently, the overall F-measure increase from 95.72% to 97.28%, closed to the winner of the competition. However, every system has some advantages over the others, users have been to select an appropriate one based on their own requirements and their system resources.

บรรณานุกรม :
ธิปภร ธนกุลวรภาส , ศราวุธ คงยัง , กฤษณ์ โกสวัสดิ์ , Tipraporn Thanakulwarapas , Sarawoot Kongyoung , Krit Kosawat . (2553). การวิเคราะห์เปรียบเทียบเครื่องมือแบ่งคำภาษาไทยและปัจจัยคุณลักษณะเฉพาะของอักขระ.
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
ธิปภร ธนกุลวรภาส , ศราวุธ คงยัง , กฤษณ์ โกสวัสดิ์ , Tipraporn Thanakulwarapas , Sarawoot Kongyoung , Krit Kosawat . 2553. "การวิเคราะห์เปรียบเทียบเครื่องมือแบ่งคำภาษาไทยและปัจจัยคุณลักษณะเฉพาะของอักขระ".
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
ธิปภร ธนกุลวรภาส , ศราวุธ คงยัง , กฤษณ์ โกสวัสดิ์ , Tipraporn Thanakulwarapas , Sarawoot Kongyoung , Krit Kosawat . "การวิเคราะห์เปรียบเทียบเครื่องมือแบ่งคำภาษาไทยและปัจจัยคุณลักษณะเฉพาะของอักขระ."
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2553. Print.
ธิปภร ธนกุลวรภาส , ศราวุธ คงยัง , กฤษณ์ โกสวัสดิ์ , Tipraporn Thanakulwarapas , Sarawoot Kongyoung , Krit Kosawat . การวิเคราะห์เปรียบเทียบเครื่องมือแบ่งคำภาษาไทยและปัจจัยคุณลักษณะเฉพาะของอักขระ. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2553.