ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การพัฒนาระบบกำกับนิพจน์ระบุนามอัตโนมัติในคลังข้อความข่าวภาษาไทย

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง : การพัฒนาระบบกำกับนิพจน์ระบุนามอัตโนมัติในคลังข้อความข่าวภาษาไทย
นักวิจัย : ธนารักษ์ ธีระมั่นคง , มณฑิกา บริบูรณ์ , ศราวุธ คงยัง , ชูชาติ หฤไชยะศักดิ์ , กฤษณ์ โกสวัสดิ์ , จุฑามณี อ่อนสุวรรณ , เอกวิชญ์ นันทจีวรวัฒน์ , ชลวิช นัทธี , ภคินี เอมมณี , ณิชนันทน์ กิตติพัฒนบวร , ณัฐพงศ์ ทองเทพ
คำค้น : Artificial Intelligence and signal and image processing , Corpora (Linguistics) , Information, computing and communication sciences , Linguistic analysis (Linguistics) , Natural language processing (Computer science) , Text processing (Computer science) , การประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์) , การวิเคราะห์ทางภาษา , คลังข้อความ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์
หน่วยงาน : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน : -
ปีพิมพ์ : 2553
อ้างอิง : http://www.nstda.or.th/thairesearch/node/763
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

ปัจจุบันคลังข้อความภาษาไทยสำหรับการนำไปใช้ในงานด้านการประมวลผลภาษาธรรมชาติยังมีน้อยมา คลังข้อความภาษาไทยที่ได้รับการใช้งานและเป็นที่รู้จักมากคือ คลังข้อความภาษาไทยชื่อ Orchid Corpus [1, 2] โดยคลังข้อความภาษาไทยนี้ถูกสร้างใน 1997 มีขนาด 4 แสนกว่าคำ และมีการกำกับชนิดของคำหรือ POS (part of speech) ไว้ทุกคำ (กำกับเฉพาะคำภาษาไทย ไม่กำกับคำภาษาอังกฤษ) รวมทั้งการกำกับย่อหน้าและขอบเขตของประโยคในแต่ละเอกสาร นอกจากนี้คลังข้อความที่รู้จักกัน คือ คลังข้อความของทางมหาวิทยาลัยเกษตรศาสตร์ชื่อ NaiST Corpus [3] โดยคลังข้อความนี้มี 675341 คำ (39925 ประโยค) และมีการกำกับคำ กำกับชนิดของคำ และกำกับประโยค สำหรับคลังข้อความข่าวนั้นที่มีการรวบรวมและมีการเปิดให้ใช้งานผ่านทางเว็บ คือ คลังข้อความข่าวของภาควิชาอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย [4] โดยคลังข้อความนี้เน้นการนำมาใช้ในการหาบริบทที่อยู่บริเวณรอบของคำที่ต้อง การค้นหา โดยไม่มีการกำกับหน้าที่ของคำ นอกจากนี้ยังมีคลังข้อความคู่ภาษาหรือThai Bitext Corpus [5] ได้ถูกสร้างขึ้นจากการรวบรวมตัวอย่างของคู่ประโยคภาษาไทยและภาษาอังกฤษ ปัจจุบันมีโครงการคลังข้อมูลภาษาไทยแห่งชาติ (TNC) [6] ซึ่งประกาศของความร่วมมือผ่านทางเว็บเพื่อรวบรวมข้อความจากบุคคลทั่วไปที่ อาจมีลิขสิทธิ์ติดอยู่ โดยขั้นแรกมีเป้าหมายที่เอกสารภาษาเขียนทั่วไปจำนวนประมาณ 80 ล้านคำ นอกจากนี้คลังข้อความทั้งห้านี้แล้ว ยังมีคลังประโยคอื่นๆที่อาจกระจัดกระจายตามมหาวิทยาลัยต่างๆ โดยไม่ได้เปิดเผย อย่างไรก็ตาม คลังประโยคต่างๆ เหล่านี้จะมีรูปแบบการจัดเก็บ การกำหนดโครงสร้างที่แตกต่าง ขึ้นอยู่กับลักษณะของการนำไปใช้ แม้ปัจจุบันคลังข้อความจะมีการพัฒนาขึ้นมาใช้บ้างแล้ว แต่เรายังจำเป็นต้องการคลังข้อความเพิ่มขึ้นอีกมาก เนื่องจากคลังข้อความต่างๆยังมีขนาดและปริมาณที่ยังไม่เพียงพอ ด้วยเหตุนี้ทางคณะผู้วิจัยจึงได้คิดนำเสนอการสร้างคลังข้อความข่าวภาษาไทย โดยรวบรวมข่าวแต่ละประเภทจากสำนักพิมพ์ต่างๆ ที่มีการเผยแพร่บนอินเทอร์เน็ต ในรูปแบบอิเล็กทรอนิกส์โดยมีการกำหนดมาตรฐานในการกำกับข้อมูล เพื่อให้ครอบคลุมการใช้งานพื้นฐานสำหรับงานประมวลผลภาษาธรรมชาติ ซึ่งคลังข้อความข่าวภาษาไทยที่สร้างขึ้นนี้เป็นคลังข้อความข่าวภาษาไทยที่ มีขนาด 10000 ข่าว และเปิดสู่สาธารณะเพื่อการนำไปใช้ประโยชน์ในงานวิจัยได้อย่างเสรี อนึ่ง การกำกับข้อมูลในคลังข้อความข่าวนี้จะเน้นในส่วนของนิพจน์ระบุนาม เช่น ชื่อบุคคล ชื่อสถานที่ ชื่อสิ่งของ ชื่อองค์กร วันเวลา จำนวนและปริมาณ และส่วนแสดงการกระทำ เช่น คำกริยา เป็นต้น คลังข้อความข่าว นอกจากนี้ ทางคณะผู้วิจัยจะนำเสนองานวิจัยนี้ในรูปแบบของบทความวิชาการใน ระดับนานาชาติด้วย

บรรณานุกรม :
ธนารักษ์ ธีระมั่นคง , มณฑิกา บริบูรณ์ , ศราวุธ คงยัง , ชูชาติ หฤไชยะศักดิ์ , กฤษณ์ โกสวัสดิ์ , จุฑามณี อ่อนสุวรรณ , เอกวิชญ์ นันทจีวรวัฒน์ , ชลวิช นัทธี , ภคินี เอมมณี , ณิชนันทน์ กิตติพัฒนบวร , ณัฐพงศ์ ทองเทพ . (2553). การพัฒนาระบบกำกับนิพจน์ระบุนามอัตโนมัติในคลังข้อความข่าวภาษาไทย.
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
ธนารักษ์ ธีระมั่นคง , มณฑิกา บริบูรณ์ , ศราวุธ คงยัง , ชูชาติ หฤไชยะศักดิ์ , กฤษณ์ โกสวัสดิ์ , จุฑามณี อ่อนสุวรรณ , เอกวิชญ์ นันทจีวรวัฒน์ , ชลวิช นัทธี , ภคินี เอมมณี , ณิชนันทน์ กิตติพัฒนบวร , ณัฐพงศ์ ทองเทพ . 2553. "การพัฒนาระบบกำกับนิพจน์ระบุนามอัตโนมัติในคลังข้อความข่าวภาษาไทย".
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
ธนารักษ์ ธีระมั่นคง , มณฑิกา บริบูรณ์ , ศราวุธ คงยัง , ชูชาติ หฤไชยะศักดิ์ , กฤษณ์ โกสวัสดิ์ , จุฑามณี อ่อนสุวรรณ , เอกวิชญ์ นันทจีวรวัฒน์ , ชลวิช นัทธี , ภคินี เอมมณี , ณิชนันทน์ กิตติพัฒนบวร , ณัฐพงศ์ ทองเทพ . "การพัฒนาระบบกำกับนิพจน์ระบุนามอัตโนมัติในคลังข้อความข่าวภาษาไทย."
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2553. Print.
ธนารักษ์ ธีระมั่นคง , มณฑิกา บริบูรณ์ , ศราวุธ คงยัง , ชูชาติ หฤไชยะศักดิ์ , กฤษณ์ โกสวัสดิ์ , จุฑามณี อ่อนสุวรรณ , เอกวิชญ์ นันทจีวรวัฒน์ , ชลวิช นัทธี , ภคินี เอมมณี , ณิชนันทน์ กิตติพัฒนบวร , ณัฐพงศ์ ทองเทพ . การพัฒนาระบบกำกับนิพจน์ระบุนามอัตโนมัติในคลังข้อความข่าวภาษาไทย. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2553.