ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

ระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทย

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง : ระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทย
นักวิจัย : ชูชาติ หฤไชยะศักดิ์ , พรพิมล ผลินกูล , ศราวุธ คงยัง , นิรันดร์ อังควัฒนวิทย์ , อลิสา คงทน , ชัชวาล สังคีตตระการ , สันติพงษ์ ไทยประยูร , Choochart Haruechaiyasak , Pornpimon Palingoon , Sarawoot Kongyoung , Alisa Kongthon , Chatchawal Sangkeettrakarn , Santipong Thaiprayoon
คำค้น : Data mining , Information storage, retrieval and management , Information system , Information, computing and communication sciences , Web archives , Web search engines , การค้นข้อสนเทศ , ดาต้าไมนิง , ระบบการจัดเก็บและค้นข้อสนเทศ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์ , เว็บอาร์ไคฟ์ , เว็บไซต์ , เสิร์ชเอ็นจิน , เหมืองข้อมูล
หน่วยงาน : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน : -
ปีพิมพ์ : 2553
อ้างอิง : http://www.nstda.or.th/thairesearch/node/4882
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

ในปัจจุบันความก้าวหน้าทางเทคโนโลยีสารสนเทศ (Information Technology - IT) ทำให้ปริมาณข้อมูลดิจิทัล โดยเฉพาะอย่างยิ่งที่อยู่ในรูปแบบข้อความและเอกสาร (texts and documents) มีการขยายตัวขึ้นอย่างรวดเร็วหลายเท่าตัว โดยช่องทางของสื่อ (media channel) ที่คนทั่วไปนิยมใช้ในการแลกเปลี่ยนข้อมูลและข่าวสารกันมากที่สุดคือ เครือข่ายอินเตอร์เน็ต โดยใช้เว็บเป็นเครื่องมือในการเชื่อมโยง ตัวอย่างการใช้งานได้แก่ จดหมายอิเล็กทรอนิกส์ (emails) หน้าเว็บ (Web pages) เป็นต้น เมื่อไม่กี่ปีมานี้ได้มีการกล่าวถึงเว็บ 2.0 (Web 2.0) ซึ่งเป็นคำที่อธิบายถึงการใช้เทคโนโลยีเว็บ (Web Technology) ผนวกกับการออกแบบเว็บ (Web design) เพื่อวัตถุประสงค์ในการสนันสนุนการสร้างสรรค์ แบ่งปันและแลกเปลี่ยนข้อมูล โดยเฉพาะอย่างยิ่งการร่วมมือกันของผู้ใช้ข้อมูล (Collaboration) ตัวอย่างเทคโนโลยี 2.0 ที่มีการใช้งานกันอย่างกว้างขวางได้แก่ เว็บเครือข่ายสังคมต่างๆ เว็บที่ใช้วิกิ (Wiki) เช่นวิกิพีเดีย (Wikipedia) เว็บบล็อก (Blog) และการช่วยกำกับข้อมูลเว็บ (Folksomomies หรือ Social tagging) ในยุคของเว็บ 2.0 ผู้บริโภคข้อมูลและข่าวสารจะมีบทบาทในการสร้างสรรค์ข้อมูลเป็นอย่างมาก ทำให้เสมือนว่าผู้ใช้ทุกคนมีส่วนร่วมและเป็นส่วนหนึ่งของเว็บ ที่ผ่านมานั้นการวิจัยและพัฒนาหลักส่วนหนึ่งจะมุ่งเน้นการแก้ไขปัญหาปริมาณ ของข้อมูลและข่าวสารที่มีจำนวนมากและเติบโตอย่างไม่สิ้นสุด (Scalability) ซึ่งก่อให้เกิดปัญหาการท่วมล้นของสารสนเทศ (Information Overload) ซึ่งเทคโนโลยีที่ถูกนำมาใช้และได้ผลเป็นที่ยอมรับกันอย่างกว้างขวางคือ ระบบสืบค้นข้อมูลหรือเสิร์ชเอ็นจิ้น (Search engine) เสิร์ชเอ็นจิ้นช่วยให้ผู้ใช้สามารถค้นหาข้อมูลบนเว็บได้อย่างสะดวกโดยการ ป้อนคำค้นคืน (Query) ให้กับระบบ อย่างไรก็ตามปัญหาอีกอย่างที่ยังไม่ได้รับความสนใจมากเท่าไรคือการเปลี่ยน แปลงของข้อมูล (Volatility) โดยทั่วไปข้อมูลบนเว็บจะมีการเปลี่ยนแปลงอยู่ตลอดเวลาซึ่งเกิดได้จากหลาย กรณี ตั้งแต่การสร้างหน้าเว็บหรือบล็อกใหม่ การแก้ไขข้อมูลบางส่วนในหน้าเว็บหรือบล็อก หรือการขาดการเชื่อมโยงของหน้าเว็บ (Broken links) ซึ่งในกรณีของการสูญหายของหน้าเว็บนี้ เสิร์ชเอ็นจิ้นบางระบบเช่น Google ได้เก็บสำเนาของข้อมูลหน้าเว็บไว้ในระบบ (Cached) ทำให้ผู้ใช้สามารถเรียกดูหน้าเว็บนั้นๆได้ แต่ก็ไม่สามารถย้อนกลับไปดูตามช่วงเวลาในอดีตที่ผ่านมาได้ทั้งหมด ในต่างประเทศมีองค์กร 2 แห่งที่ได้ทำการวิจัยและพัฒนาการเก็บข้อมูลแบบคลังคือ (1) อินเตอร์เน็ตอาร์ไคฟ์ (http://www.archive.org) ในสหรัฐอเมริกา ซึ่งทำการเก็บรวบรวมหน้าเว็บจากเว็บไซต์ต่างๆทั่วโลกตามระยะเวลา และ (2) ยูโรเปี้ยนอาร์ไคฟ์ (http://www.europarchive.org) เป็นการร่วมมือกันระหว่างประเทศต่างๆ ในยุโรปในการเก็บข้อมูลทั้งจากเว็บและ มัลติมีเดียอื่นๆเช่น ภาพยนตร์และเพลง ทั้งสององค์กรมุ่งเน้นในการเก็บคลังเว็บทั่วไปโดยไม่เน้นเว็บไซต์ภาษาไทย ดังนั้นเป้าหมายหลักของโครงการนี้คือ การวิจัยและพัฒนาระบบสืบค้นข้อมูลบนเว็บแบบย้อนตามแกนเวลาได้ ในลักษณะของคลังข้อมูลหรือเว็บอาร์ไคฟ์ (Web archive) โดยเน้นสำหรับข้อมูลภาษาไทยหรือที่เกี่ยวข้องกับประเทศไทยแต่อยู่ในภาษาอังกฤษ ในระบบจะมีการวิจัยและออกแบบโมดูลที่ใช้เก็บหน้าเว็บหรือเว็บครอลเลอร์ (Web crawler) ที่มีความสามารถในการตรวจสอบข้อมูลที่ซ้ำซ้อนและตรวจสอบระยะเวลาที่เหมาะ สมในการเก็บข้อมูลจากแต่ละเว็บไซต์ ข้อมูลที่จะถูกเน้นในปีแรกของโครงการคือข่าวและข้อความแสดงความคิดเห็นตาม เว็บไซต์ต่างๆ ระบบที่จะพัฒนาขึ้นมาคือ ระบบสืบค้นข่าวย้อนหลังที่ผู้ใช้สามารถสืบค้นข่าวที่สนใจในอดีตที่ผ่านมาได้ นอกจากนั้นยังสามารถสรุปสถิติของคำและเหตุการณ์ที่เกิดขึ้นในช่วงเวลาที่กำหนดได้ นอกจากการสืบค้นข้อมูลแล้ว ในโครงการจะมีแนวทางเพื่อเพิ่มมูลค่าให้กับสารสนเทศที่เก็บในคลังโดยการทำเหมืองข้อความ (Text Mining) ซึ่งเป็นการวิเคราะห์เพื่อสกัดหาสิ่งที่โดดเด่นและมีคุณค่าจากสารสนเทศที่ซ่อนเร้นอยู่ในคลังข้อมูล โดยการประยุกต์ใช้เทคนิคดังกล่าวในโครงการนี้จะเป็นการวิจัยและพัฒนาระบบสืบค้นผู้เชี่ยวชาญ (Expert Finder) ในลักษณะที่สามารถให้ใช้บริการเป็นสาธารณะได้ สำหรับระบบสืบค้นผู้เชี่ยวชาญจะเป็นการต่อยอดจากระบบที่ได้ทำเป็นต้นแบบในห้องปฏิบัติการจากโครงการระบบสืบค้นบูรณาการข้อมูลงานวิจัยไทย (ThaiReSearch) ระบบสืบค้นผู้เชี่ยวชาญจะสามารถทำการประมวลผลและวิเคราะห์ความเชี่ยวชาญตาม สาขาต่างๆ โดยแบ่งตามนักวิจัยหรือหน่วยงานได้ และเพื่ิิอให้การใช้งานเป็นไปอย่างง่ายและสะดวก จะมีการใช้เทคนิคเครือข่ายเชิงสังคม (Social Network) ผนวกกับเทคนิคจินตทัศน์ (Information Visualization) ในลักษณะของกราฟได้โดยที่โหนดจะเป็นนักวิจัยหรือหน่วยงานและมีลิงค์เชื่อมโยงไปยังนักวิจัยหรือหน่วยงาน ที่มีความเชี่ยวชาญที่เหมือนหรือใกล้เคียงกัน เช่น หน่วยงาน A อาจจะมีเชื่อมโยงไปยัง หน่วยงาน B เนื่องจากทั้งสองหน่วยงานนี้มีนักวิจัยที่มีความเชี่ยวชาญทางด้านใกล้กันมาก โดยสรุปแล้วระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทยจะทำให้ข้อมูลและ สารสนเทศของประเทศไทยซึ่งนำเสนอผ่านเครือข่ายอินเตอร์เน็ตและเว็บไม่สูญหายไปกับกาลเวลา ผู้ใช้สามารถมองประเทศไทยในอดีตที่ผ่านมาจากข้อมูลที่เกิดจากคนรุ่นหลายรุ่นสร้างสรรค์ขึ้นมา ไม่ว่าจะเป็นข่าวและเหตุการณ์สำคัญของประเทศ รวมถึงกระแสที่ประชาชนในประเทศให้ความสนใจในช่วงเวลาที่ผ่านมา นอกจากนั้นในเชิงของภาษาศาสตร์ จะทำให้เห็นรูปแบบของคำที่เกิดขึ้นใหม่และตายไปรวมทั้งการใช้ภาษาและไวยากรณ์ที่เปลี่ยนแปลงไปตามกาลเวลา นอกจากนั้นยังเป็นการใช้ประโยชน์และเพิ่มมูลค่าให้กับสารสนเทศที่เก็บไว้เป็นจำนวนมากโดยอาศัยเทคนิคการทำเหมืองข้อความซึ่งเป็นเทคนิคที่ใหม่และถูกนำไปประยุกต์ใช้กันอย่างมากในต่างประเทศอีกด้วย

บรรณานุกรม :
ชูชาติ หฤไชยะศักดิ์ , พรพิมล ผลินกูล , ศราวุธ คงยัง , นิรันดร์ อังควัฒนวิทย์ , อลิสา คงทน , ชัชวาล สังคีตตระการ , สันติพงษ์ ไทยประยูร , Choochart Haruechaiyasak , Pornpimon Palingoon , Sarawoot Kongyoung , Alisa Kongthon , Chatchawal Sangkeettrakarn , Santipong Thaiprayoon . (2553). ระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทย.
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
ชูชาติ หฤไชยะศักดิ์ , พรพิมล ผลินกูล , ศราวุธ คงยัง , นิรันดร์ อังควัฒนวิทย์ , อลิสา คงทน , ชัชวาล สังคีตตระการ , สันติพงษ์ ไทยประยูร , Choochart Haruechaiyasak , Pornpimon Palingoon , Sarawoot Kongyoung , Alisa Kongthon , Chatchawal Sangkeettrakarn , Santipong Thaiprayoon . 2553. "ระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทย".
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ.
ชูชาติ หฤไชยะศักดิ์ , พรพิมล ผลินกูล , ศราวุธ คงยัง , นิรันดร์ อังควัฒนวิทย์ , อลิสา คงทน , ชัชวาล สังคีตตระการ , สันติพงษ์ ไทยประยูร , Choochart Haruechaiyasak , Pornpimon Palingoon , Sarawoot Kongyoung , Alisa Kongthon , Chatchawal Sangkeettrakarn , Santipong Thaiprayoon . "ระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทย."
    ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2553. Print.
ชูชาติ หฤไชยะศักดิ์ , พรพิมล ผลินกูล , ศราวุธ คงยัง , นิรันดร์ อังควัฒนวิทย์ , อลิสา คงทน , ชัชวาล สังคีตตระการ , สันติพงษ์ ไทยประยูร , Choochart Haruechaiyasak , Pornpimon Palingoon , Sarawoot Kongyoung , Alisa Kongthon , Chatchawal Sangkeettrakarn , Santipong Thaiprayoon . ระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทย. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2553.