ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

Pattern-based features vs. statistical-based features in decision trees for word segmentation

หน่วยงาน สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์

รายละเอียด

ชื่อเรื่อง : Pattern-based features vs. statistical-based features in decision trees for word segmentation
นักวิจัย : Thanaruk Theeramunkong , Thanasan Tanhermhong
คำค้น : Decision tree induction , Statistics , Thai character cluster , Word segmentation
หน่วยงาน : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์
ผู้ร่วมงาน : -
ปีพิมพ์ : 2547
อ้างอิง : IEICE TRANSACTIONS on Information and Systems. E87-D,5 (2004) pp.1254-1260 , http://dspace.library.tu.ac.th/handle/3517/451
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

This paper proposes two alternative approaches that do not make use of a dictionary but instead utilizes different types of learned features to segment words in a language that has no explicit word boundary. Both methods utilize decision trees as knowledge representation acquired from a training corpus in the segmentation process. The first method, a language-dependent technique, applies a set of constructed features patterns based on character types to generate a set of heuristic segmentation rules. It separates a running text into a sequence of small chunks based on the given patterns, and constructs a decision tree for word segmentation. The second method extracts statistics of character sequences from a training corpus and uses them as features for the process of constructing a set of rules by decision tree induction, The latter needs no linguistic knowledge. By experiments on Thai language, both methods achieve relatively high accuracy but the latter performs much better.

บรรณานุกรม :
Thanaruk Theeramunkong , Thanasan Tanhermhong . (2547). Pattern-based features vs. statistical-based features in decision trees for word segmentation.
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Thanaruk Theeramunkong , Thanasan Tanhermhong . 2547. "Pattern-based features vs. statistical-based features in decision trees for word segmentation".
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Thanaruk Theeramunkong , Thanasan Tanhermhong . "Pattern-based features vs. statistical-based features in decision trees for word segmentation."
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2547. Print.
Thanaruk Theeramunkong , Thanasan Tanhermhong . Pattern-based features vs. statistical-based features in decision trees for word segmentation. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2547.