ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

Automatic audio indexing alignment for Thai broadcast news

หน่วยงาน สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์

รายละเอียด

ชื่อเรื่อง : Automatic audio indexing alignment for Thai broadcast news
นักวิจัย : Charturong Tantibundhit , Thanakit Jarasboonpaisan , A. Natenee , Nattanun Thatphithakkul , Kwanchiva Saykhum
คำค้น : Audio indexing alignment , Broadcast news , Interpolated LVCSR , LVCSR , N-gram , Word landmark , Alignment , Audio systems , Computational linguistics , Continuous speech recognition , Language model , Recognition rates , Recognition systems , Time alignment
หน่วยงาน : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์
ผู้ร่วมงาน : -
ปีพิมพ์ : 2553
อ้างอิง : ECTI-CON 2010 - The 2010 ECTI International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology. Article number 5491645, ; pp. 1094-1098 , 9789746724913 , http://dspace.library.tu.ac.th/handle/3517/4527
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

We compare the recognition rate of three language models (LM)-large vocabulary continuous speech recognition (LVCSR), interpolated LVCSR, and N-gram, respectively-for automatic audio indexing alignment for Thai broadcast news. Fifty news clips across ten news categories were collected from MCOT. The audio clips are retrieved and used as the input to those three recognition systems. The recognized words are compared with the available original transcription. The experimental results show that the N-gram gives highest percentage of word correction (without regard to time alignment), followed by the interpolated LVCSR , and the LVCSR, i.e., 68.55%, 43.94%, and 31.24%, respectively. When considering time alignment of words correctly recognized at 0.10 sec error alignment, the N-gram gives highest percent word correction with 60.56%, followed by the interpolated LVCSR with 38.59%, and LVCSR with 27.29%, respectively. Word landmark technique is manipulated to align words incorrectly recognized and can improve the alignment to 89.60% for the N-gram, 83.15% for the interpolated LVCSR, and 67.86% for the LVCSR at 0.10 sec error alignment, respectively.

บรรณานุกรม :
Charturong Tantibundhit , Thanakit Jarasboonpaisan , A. Natenee , Nattanun Thatphithakkul , Kwanchiva Saykhum . (2553). Automatic audio indexing alignment for Thai broadcast news.
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Charturong Tantibundhit , Thanakit Jarasboonpaisan , A. Natenee , Nattanun Thatphithakkul , Kwanchiva Saykhum . 2553. "Automatic audio indexing alignment for Thai broadcast news".
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Charturong Tantibundhit , Thanakit Jarasboonpaisan , A. Natenee , Nattanun Thatphithakkul , Kwanchiva Saykhum . "Automatic audio indexing alignment for Thai broadcast news."
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2553. Print.
Charturong Tantibundhit , Thanakit Jarasboonpaisan , A. Natenee , Nattanun Thatphithakkul , Kwanchiva Saykhum . Automatic audio indexing alignment for Thai broadcast news. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2553.