ชื่อเรื่อง | : | การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย |
นักวิจัย | : | ปิติฉัตร สุทธาโรจน์, 2520- |
คำค้น | : | การบีบอัดข้อมูล , ภาษาไทย |
หน่วยงาน | : | จุฬาลงกรณ์มหาวิทยาลัย |
ผู้ร่วมงาน | : | สุวิทย์ นาคพีระยุทธ , จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
ปีพิมพ์ | : | 2545 |
อ้างอิง | : | 9741725892 , http://cuir.car.chula.ac.th/handle/123456789/1296 |
ที่มา | : | - |
ความเชี่ยวชาญ | : | - |
ความสัมพันธ์ | : | - |
ขอบเขตของเนื้อหา | : | - |
บทคัดย่อ/คำอธิบาย | : | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2545 วิทยานิพนธ์ฉบับนี้ ได้ศึกษาวิธีปรับปรุงความสามารถในการบีบอัดแฟ้มข้อมูลภาษาไทยสำหรับวิธีบีบอัดแบบไม่มีการสูญเสียทั้ง 3 ตระกูลที่นิยมใช้ ได้แก่ ตระกูลบีบอัดข้อมูลโดยอาศัยพจนานุกรม (LZ77 , LZW) , ตระกูลบีบอัดข้อมูลโดยอาศัยค่าทางสถิติ (PPM) และ ตระกูลบีบอัดข้อมูลโดยผ่านการแปลงเบอร์โรว์ - วีลเลอร์ (BWT) โดยเพิ่มความรู้จำเพาะทางภาษาไทยเข้าไปในการบีบอัดวิธีต่างๆ ด้วยการนำข้อมูลมาผ่านตัวตัดคำภาษาไทย แล้วจึงนำสิ่งที่ได้จากการตัดคำมาใช้ในการเข้ารหัส การนำข้อมูลจากการตัดคำมาใช้แบบแรก คือ การนำข้อมูลมาผ่านการแปลง LIPT (Length Index Preserving Transform) ซึ่งเป็นการแปลงคำที่พบให้มีความสัมพันธ์กันตามความยาวของคำ ข้อมูลที่ผ่านการแปลง LIPT จะอยู่ในรูปแบบที่ง่ายต่อการบีบอัดมากยิ่งขึ้น ทำให้วิธีบีบอัดแต่ละวิธีจะสามารถบีบอัดได้ดีกว่าข้อมูลเดิม ส่วนแบบที่สอง คือ การเข้ารหัสโดยประยุกต์วิธีบีบอัดแบบดั้งเดิมมาเข้ารหัสในหน่วยคำ ได้แก่ วิธี word-based LZW, word-based PPM และ word-based BWT ซึ่งจะเป็นการเข้ารหัสในหน่วยที่ใหญ่ขึ้น วิทยานิพนธ์ฉบับนี้ได้เปรียบเทียบผลการบีบอัดที่ปรับปรุงขึ้นกับโปรแกรมบีบอัดที่นิยมใช้ในแต่ละวิธี ได้แก่ GZIP, UNIX Compress, PPMD และ BZIP2 รวมไปถึงแสดงผลความซับซ้อนในการประมวลผลที่เพิ่มขึ้นเมื่อเพิ่มความรู้จำเพาะทางภาษาไทยลงไปทั้งในการเข้ารหัสและถอดรหัส และแสดงแนวโน้มของผลการบีบอัดในแต่ละวิธีเทียบกับขนาดข้อมูล พบว่าการปรับปรุงความสามารถสำหรับตระกูลบีบอัดข้อมูลโดยอาศัยพจนานุกรมจะได้ผลที่ดีกว่าโปรแกรม UNIX Compress และโปรแกรม GZIP ประมาณ 12% และ 4.5% ตามลำดับในทุกๆ ขนาดข้อมูล สำหรับตระกูล BWT จะสามารถปรับปรุงผลจากโปรแกรม BZIP2 ได้โดยเฉลี่ยประมาณ 2.5% สำหรับตระกูลบีบอัดข้อมูลโดยอาศัยค่าทางสถิติจะปรับปรุงได้ดีกว่าโปรแกรม PPMD ซึ่งเป็นโปรแกรมที่ให้ผลการบีบอัดดีที่สุดในปัจจุบันอีก 2.5% โดยเฉลี่ย |
บรรณานุกรม | : |
ปิติฉัตร สุทธาโรจน์, 2520- . (2545). การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย.
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย. ปิติฉัตร สุทธาโรจน์, 2520- . 2545. "การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย".
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย. ปิติฉัตร สุทธาโรจน์, 2520- . "การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย."
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย, 2545. Print. ปิติฉัตร สุทธาโรจน์, 2520- . การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย. กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย; 2545.
|