ชื่อเรื่อง | : | Pattern-based features vs. statistical-based features in decision trees for word segmentation |
นักวิจัย | : | Thanaruk Theeramunkong , Thanasan Tanhermhong |
คำค้น | : | Decision tree induction , Statistics , Thai character cluster , Word segmentation |
หน่วยงาน | : | สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ |
ผู้ร่วมงาน | : | - |
ปีพิมพ์ | : | 2547 |
อ้างอิง | : | IEICE TRANSACTIONS on Information and Systems. E87-D,5 (2004) pp.1254-1260 , http://dspace.library.tu.ac.th/handle/3517/451 |
ที่มา | : | - |
ความเชี่ยวชาญ | : | - |
ความสัมพันธ์ | : | - |
ขอบเขตของเนื้อหา | : | - |
บทคัดย่อ/คำอธิบาย | : | This paper proposes two alternative approaches that do not make use of a dictionary but instead utilizes different types of learned features to segment words in a language that has no explicit word boundary. Both methods utilize decision trees as knowledge representation acquired from a training corpus in the segmentation process. The first method, a language-dependent technique, applies a set of constructed features patterns based on character types to generate a set of heuristic segmentation rules. It separates a running text into a sequence of small chunks based on the given patterns, and constructs a decision tree for word segmentation. The second method extracts statistics of character sequences from a training corpus and uses them as features for the process of constructing a set of rules by decision tree induction, The latter needs no linguistic knowledge. By experiments on Thai language, both methods achieve relatively high accuracy but the latter performs much better. |
บรรณานุกรม | : |
Thanaruk Theeramunkong , Thanasan Tanhermhong . (2547). Pattern-based features vs. statistical-based features in decision trees for word segmentation.
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ . Thanaruk Theeramunkong , Thanasan Tanhermhong . 2547. "Pattern-based features vs. statistical-based features in decision trees for word segmentation".
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ . Thanaruk Theeramunkong , Thanasan Tanhermhong . "Pattern-based features vs. statistical-based features in decision trees for word segmentation."
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2547. Print. Thanaruk Theeramunkong , Thanasan Tanhermhong . Pattern-based features vs. statistical-based features in decision trees for word segmentation. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2547.
|