ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การรู้จำเสียงพูดภาษาไทยโดยใช้นิวโรฟัซซี่

หน่วยงาน สำนักงานกองทุนสนับสนุนการวิจัย

รายละเอียด

ชื่อเรื่อง : การรู้จำเสียงพูดภาษาไทยโดยใช้นิวโรฟัซซี่
นักวิจัย : ประทิต สันติประภพ
คำค้น : Artificial Neural Network , Fuzzy Inference System , Genetic-Algorithm , Hidden Markov Model , Keyword: Speech Recognition , Signal Processing , การรู้จำ , นิวโรฟัซซี่ , ภาษาไทย , เสียงพูด
หน่วยงาน : สำนักงานกองทุนสนับสนุนการวิจัย
ผู้ร่วมงาน : -
ปีพิมพ์ : 2548
อ้างอิง : http://elibrary.trf.or.th/project_content.asp?PJID=BRG4280004 , http://research.trf.or.th/node/2574
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

การวิจัยเกี่ยวกับการรู้จำเสียงพูดของมนุษย์ (Speech Recognition) นั้น ในระยะหลังจนถึงปัจจุบันมีความสำคัญมากขึ้นเป็นลำดับ รวมทั้งปริมาณงานวิจัยที่เกี่ยวข้องก็มีมากขึ้นด้วย งานวิจัยที่นำเสนอในรายงานฉบับนี้ เป็นความพยายามที่จะพัฒนากระบวนการรู้จำเสียงพูดภาาาไทย กรอบการทำงานที่ได้พัฒนาขึ้นสามารถแบ่งออกได้เป็น 3 ส่วน ซึ่งส่วนแรกคือการตัดแบ่งพยางค์ในสัญญาณเสียงพูดที่นำเข้ามาสู่ระบบ ในส่วนแรกนี้ได้มีการพัฒนาอัลกอริทึม ที่ใช้เทคโนโลยี Fuzzy Inference System สำหรับการคำนวณค้นหาขอบเขตของแต่ละพยางค์ในสัญญาณเสียงพูด ในส่วนที่สองนั้น แต่ละพยางค์ที่ได้ถูกตัดแบ่งไว้จะถูกนำมาประมวลผลเพิ่มเติม เพื่อที่จะทำการรู้จำหน่วยเสียง (Phoneme) ของพยางค์นั้นๆ กล่าวคือเสียงพยัญชนะต้น เสียงสระ เสียงพยัญชนะปลาย และเสียงวรรณยุกต์ โดยอาศัยเทคโนโลยี Hidden Markov Model และ Artificial Neural Network ณ จุดนี้สัญญาณเสียงพูดที่นำเข้ามาสู่ระบบ ได้ถูกประมวลขึ้นมา เป็นพยางค์ที่ผ่านการรู้จำ ที่ถูกจัดเรียงกันเป็นลำดับ ในส่วนที่สามจะนำพยางค์ที่ผ่านการรู้จำเหล่านั้นมาจัดกลุ่มเป็นคำ ซึ่งผลลัพย์ที่ได้จะเป็นคำที่ผ่านการรู้จำที่ถูกจัดเรียงกันเป็นลำดับ ในงายวิจัยนี้ได้นำเสนอแนวทางการประมวลผลในส่วนที่สามเป็น 2 แนวทาง คือการใช้เทคโนโลยี Genetic Alorithm และการใช้ Ambiguous Probability ทั้งนั้ทั้งสองแนวทางดังกล่าวจะต้องมีการกำหนด Word Domain ของคำศัพท์ที่จะทำการรู้จำ ซึ่งจะใช้เป็นพื้นฐานในการสร้าง Woed Model ขึ้นมาสำหรับใช้ในการรู้จำคำ นอกจากนั้นแล้วในการประมวลผลของส่วนที่สามนี้ พยางค์ที่อาจจะมีความผิดพลาดจากการรู้จำจะได้รับการปรับปรุงให้ถูกต้องตาม Word Model ที่ได้สร้างขึ้นมา จะเห็นได้ว่ากรอบการทำงานสำหรับการรู้จำ เสียงพูดภาษาไทยที่ได้พัฒนาขึ้นมา มีความแตกต่างเป็นอย่างมากจากระบบรู้จำเสียงพูดที่ทำงานในลักษณะของ Template Matching ที่มีใช้กันอยู่ในสินค้าทางเทคโนโลยีทั้วไป ซึ่งระบบในลักษณะดังกล่าวสามารถรู้จำได้เฉพาะคำศัพท์ที่ได้รับการฝึกฝน หรือจดจำไว้ก่อน จึงทำให้สามารถใช้งานได้โดยจำกัด ไม่สามารถใช้ในการรู้จำคำพูดที่ไม่ได้รับการฝึกฝนหรือจดจำไว้ก่อนโดยทั่วไปได้ ในทางกลับกันกรอบการทำงานที่พัฒนาขึ้นในงานวิจัยนี้ มีเป้าหมายที่รู้จำเสียงพูดภาาาไทยโดยทั่วไปในระดับพยางค์ ไม่จำกัดอยู่เฉาพะคำศัพท์ที่ได้จดจำไว้ก่อนเท่านั้น ผลลัพธ์สุดท้ายที่ได้จากกรอบการทำงานสำหรับรู้จำเสียงพูดภาษาไทยนี้ จะอยู่ในรูปของคำอ่านมาตรฐาน ที่สามารถนำไปใช้ในการวิจัยด้านการทำความเข้าใจเสียงพูดภาาามนุษย์ (Natural Language Understanding of Spoken Speeches) ต่อเนื่องในอนาคตได้โดยสะดวก ทั้งนี้ ณ ช่วงเวลาที่เริ่มตันดำเนินงานวิจัย คณะผู้วิจัยได้เข้าใจว่า 2 ส่วนแรกของกรอบการทำงาน น่าจะเพียงพอต่อการรู้จำเสียงพูดภาษาไทย และคาดว่าจะสามารถพัฒนาอัลกอริทึมเพื่อ ดำเนินงานใน 2 ส่วนดังกล่าวขึ้นมาได้โดยอาศัยเทคโนโลยี NeuroFuzzy เท่านั้น แต่หลังจากที่ได้ดำเนินการวิจัยและพัฒนาไปเป็นเวลามากกว่า 1 ปี ก็ได้พบว่าเทคโนโลยี NeueoFuzzy เพียงอย่างเดียวไม่เพียงพอต่อการทำงานตามที่คาดกหวังไว้ จึงได้มีการนำเทคโนโลยี Hidden Markov Model เข้ามาเสริม นอกจากนั้นยังพบว่าการประมวลผลออกมาเป็นพยางค์ที่ผ่านการรู้จำที่ถูกจัดเรียงกันเป็ยลำดับนั้น ก็ยังไม่เป็นคำตอบที่น่าพอใจในการที่จะนำไปพัฒนาระบบงานเพิ่มเติมในการทำความเข้าใจ เสียงพูดภาษามนุษย์ เพราะว่าในพยางค์ที่ผ่านการรู้จำที่ถูกจัดเรียงกันเป็นลำดับนั้น จะมีข้อผิดพลาดจากการรู้จำเล็กๆน้อยๆ ที่ไม่สามารถหลีกเลี่ยงได้ปรากฏอยู่เสมอ ซึ่งทำให้มีความจำเป็นที่จะต้องพัฒนาส่วนที่สามของกรอบการทำงานขึ้นมา ซึ่งทั้งหมดนี้ ได้ส่งผลให้งานวิจัยมีขอบเจตที่ขยายมากขึ้นจากเดิม และใช้เวลาในการดำเนินการวิจัยมากกว่าที่คาดไว้เดิมพอสมควร อนึ่ง จะเห็นได้ว่าปัญหาการรู้จำเสียงพูดภาาาไทยนี้ เป็นปัญหาที่มีความยากและซับซ้อนอยู่ในตัวเองมาก เสียงพูดของมนุษย์โดยทั่วไป จะมีความไม่แน่นอนอยู่เสมอ แม้แต่คำพูดคำเดียวกัน ที่พูดโดยคนคนเดียวกันสองครั้ง ยังมีความแตกต่างกันในรายละเอียด ทั้งนี้นอกจากความยุ่งยากและซับซ้อนของปัญหาการรู้จำเสียงพูดของมนุษย์โดยทั่วไปแล้ว กรอบการทำงานสำหรับการรู้จำคำ เสียงพูดภาษาไทยที่พัฒนาขึ้นมา ยังต้องรอบรับลักษณะพิเศษต่างๆ ของภาาาไทย เช่น เสียงวรรณยุกต์ และเสียงประสมด้วย Speech recognition has been a growing filed of research for quite some time in terms of its importance as well as the number of active research. The present research looks into a particular problem of recognizing Thai connected speech. The framwork developed in this research consists of three parts. The first part called syllable segmentation start with the esgmentation of an input speech signal into a sequence of syllables at the syllables boundaries with algorithms based on Fuzzy Inference System (FIS). Then, for each segmented syllable signal, its phonemes. namely leading consotant, vowel, ending consonant and tone, are recognized in the second part called syllable recognition using Hidden Markov Model (HMM) and Artificial Neural Network (ANN). At this point, the input speech signal has been processed into a sequence of recognition syllables. Subsequently, in the third and last part called syllable-based word recognition, the sequence of recognized syllables is segmented into a series of word with respect to a given word domain which is in turn used as a basis for the development of word madels. This is a complished by means of either a Genetic Algorithm (GA) based appoach or an Ambiguous Probability based appoach. In addition to the segmentation, this third part also attemps to correct any misrecognized syllable according to the word madels developed. The three-part framework described here is in stark contrast to a mere template matching acheme employed in many commercially available products. With such a scheme, speech recognition is only limited to a certain number of vocabularies that have been trained or memorized. Even though practical, an application domain of the template matching scheme is rather restricted since speeches cannot be reconized in general: only pre-memorized vocabularies can subsequently be recognized. On the other hand, the framework developed in this research is meant for the recognition of any spoken Thai speeches. Here, all syllables of Thai language can be reconized and represented in a standard phonetic representation. This, therefore forms a basis for a future research into natural language understanding of spoken Thai speeches. Originally, the research started off attempting to solve only the first two parts of the framework by means of NeuroFuzzy technology. After a couple of years of research and development effort. it has been proven that the NeuroFuzzy alone is inadequate in solving such complex problems; and the Hidden Markov Model had to be included. In addition, it has also been show that merely producing a sequence of recognized syllables is not totally useful for speech understanding applications to be further developed since there are always some albeit small, inherent errors in the recognize syllables. Hence the research with its widened scope took much longer than originally anticipated. It can be observed that the problem being tackled here is intrinsically difficult. Spoken speeches do contain uncertainly. Even when the same word of phrase is spoken by the same person twice, there are always some subtle differences. Moreover, in addition to tpical challenges encountered in a speech recognition problem, the research also needs to address the peculiarities of Thai speeches ranging from tone to diphtong.

บรรณานุกรม :
ประทิต สันติประภพ . (2548). การรู้จำเสียงพูดภาษาไทยโดยใช้นิวโรฟัซซี่.
    กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย.
ประทิต สันติประภพ . 2548. "การรู้จำเสียงพูดภาษาไทยโดยใช้นิวโรฟัซซี่".
    กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย.
ประทิต สันติประภพ . "การรู้จำเสียงพูดภาษาไทยโดยใช้นิวโรฟัซซี่."
    กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย, 2548. Print.
ประทิต สันติประภพ . การรู้จำเสียงพูดภาษาไทยโดยใช้นิวโรฟัซซี่. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย; 2548.