ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง : วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram
นักวิจัย : กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ
คำค้น : ความสอดคล้องในการกำกับชนิดของคำ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , แบบจำลองทางสถิติแบบ n-gram
หน่วยงาน : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน : -
ปีพิมพ์ : 2550
อ้างอิง : http://www.nstda.or.th/thairesearch/node/11155
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

บทความวิจัยฉบับนี้นำเสนอวิธีการตรวจจับความไม่สอดคล้องที่เป็นไปได้ในการกำกับชนิดของคำในคลังข้อมูลทางภาษาแบบภาษาเดี่ยว งานวิจัยนี้มีจุดประสงค์เพื่อตรวจสอบการกำกับชนิดของคำในคลังข้อมูลทางภาษา และเพื่อบูรณาการคลังข้อมูลทางภาษาที่มีเกณฑ์การกำกับชนิดของคำแตกต่างกันเข้าด้วยกัน โดยการแสดงรายการความไม่สอดคล้องกันโดยอัตโนมัติ แบบจำลองทางสถิติแบบ n-gram ถูกนำมาใช้เพื่อระบุตำแหน่งคำที่แวดล้อมด้วยรูปแบบชนิดของคำแบบเดียวกัน แต่กลับกำกับด้วยชนิดของคำที่แตกต่างกัน ในงานวิจัยนี้คลังข้อมูล Orchid 1 ถูกตรวจสอบด้วยแบบจำลอง trigram โดยเทียบกับเกณฑ์ของตัวเองและเกณฑ์ของ Orchid 2 จากการทดลองพบว่า มี 14,040 ตำแหน่งที่ไม่สอดคล้องกับเกณฑ์ของตัวเอง และมี 20,144 ตำแหน่งที่ไม่สอดคล้องกับเกณฑ์ของ Orchid 2 ผลการทดลองเบื้องต้นแสดงให้เห็นว่า มีความเป็นไปได้ที่จะรวม Orchid 1 เข้ากับ Orchid 2 ได้ This paper presents a method to detect potential annotation inconsistency in monolingual corpora. It aims at assistance for linguists to verify corpus annotation and to incorporate corpora with different versions of part-of-speech tag sets, by automatically providing list of potential inconsistency. An n-gram probabilistic model was utilized to identify words that are surrounded with similar parts of speech but are annotated with different parts of speech. By trigram-based detection, Orchid-1, a Thai part-of-speech-tagged corpus, was examined for auto-inconsistency and for cross-inconsistency with referential Orchid-2. In total, 14,040 places were marked auto-inconsistent, while 20,144 places were marked cross-inconsistent regarding to Orchid-2. The preliminary results show that it is feasible to integrate Orchid-1 and Orchid-2.

บรรณานุกรม :
กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . (2550). วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram.
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . 2550. "วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram".
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . "วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram."
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2550. Print.
กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2550.