ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง : Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach
นักวิจัย : Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ
คำค้น : Artificial Intelligence and signal and image processing , Automatic inconsustenct detection , Corpus annotation , Information, computing and communication sciences , n-gram , Speech / pattern recognition , คลังข้อความที่กำหนดด้วยชนิดของคำ , ระบบตรวจสอบความไม่สอดคล้องอัตโนมัติ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์ , เอ็นแกรม
หน่วยงาน : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน : -
ปีพิมพ์ : 2551
อ้างอิง : http://www.nstda.or.th/thairesearch/node/23959
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

This paper presents a method to detech potential annotation inconsistency in monolingual corpora. It aims at assistance for linguists to verify corpus annotation and to incorporate corpora with different versions of part-of-speech tag sets, by automatically providing list of potential inconsistency. An n-gram probabilistic model was utilized to identify words that are surrounded with similar parts of speech but are annotated with different parts of sppech. By trigram0based detectionm Orchid-I, a Thai part-of-speech-tagged corpus, was examined for auto-inconsistency and for cross-inconsistency with referential Orchid-2. In total, 14040 places were marked auto-inconsistey, while 20,144 places were marked cross-inconsistent regarding to Orchid-2. The preliminary results show that it is feasible to integrate Orchid-1 and Orchid-2.

บทความชิ้นนี้เสนอวิธีการค้นหาชนิดของคำ (part of speech, POS) ที่ถูกกำหนดให้คำในคลังข้อความภาษาเดี่ยวที่ไม่สอดคล้องกัน ระบบที่ถูกนำเสนอนี้สามารถตรวจสอบความไม่สอดคล้องของชนิดของคำได้ 2 รูปแบบได้โดยอัตโนมัติ คือ 1. ชนิดของคำที่แตกต่างกันจากการเปรียบเทียบคลังข้อความภาษาเดี่ยวที่ถูกกำหนดด้วยชุดของชนิดของคำที่มีจำนวนชนิดของคำที่แตกต่างกันและ 2. ตรวจสอบข้อผิดพลาดของการกำหนดชนิดของคำ ซึ่งผลลัพธ์ของระบบนี้จะช่วยให้นักภาษาศาสตร์สามารถตรวจสอบและแก้ไขชนิดของคำให้สอดคล้องกันได้โดยสะดวก ระบบนี้ถูกออกแบบโดยใช้การคำนวณทางสถิติด้วยหลักการเอ็นแกรม (n-gram) เพื่อที่จะตรวจสอบคำเป้าหมายที่ถูกกำหนดชนิดของคำที่แตกต่างกันโดยคำนวณค่าความน่าจะเป็นของชนิดของคำรอบข้างที่มีรูปแบบการปรากฏเหมือนกัน จากการตรวจสอบด้วยไตรแกรม (tri-gram) พบว่า คลังข้อความออร์คิด (Orchid, คลังข้อความที่กำหนดด้วยชนิดของคำ) รุ่นที่ 1 ซึ่งถูกเปรียบเทียบด้วย คลังข้อความออร์คิดรุ่นที่ 2 มีคำจำนวน 14,040 คำที่ไม่สอดคล้องกันโดยมีชนิดของคำรอบข้างเช่นเดียวกัน และมีคำจำนวน 20,144 คำที่มีการเปลี่ยนแปลงเป็นชนิดของคำแบบใหม่ที่มีในคลังข้อความออร์คิดรุ่นที่ 2 เท่านั้น

บรรณานุกรม :
Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . (2551). Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach.
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . 2551. "Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach".
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . "Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach."
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2551. Print.
Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2551.