เพื่อที่จะเสริมความสามารถของอัลกอริทึมแปลงข้อความเป็นเสียง (text-to-speech) หรือระบบรู้จำเสียง (speech recognition) นักวิจัย Microsoft จึงได้พัฒนาโมเดล deep learning ที่ใช้การเรียนรู้แบบ unsupervised learning ซึ่งเป็นวิธีการที่ไม่ค่อยมีการใช้กันในด้านนี้ เพื่อมาปรับปรุงความแม่นยำของงานด้านเสียงทั้งสองอย่างได้
ด้วยการใช้โมเดลที่มีชื่อว่า Transformer ซึ่งมีโครงสร้างแบบ sequence-to-sequence นั้น ทีมงานสามารถทำให้ระบบ text-to-speech มีความแม่นยำถึง 99.84% ในระดับคำที่เข้าใจได้ และอัตราความผิดพลาดตามหน่วยเสียง (PER : Phoneme Error Rate) อยู่ที่ 11.7% ในงานรู้จำเสียงอัตโนมัติ ซึ่งสามารถดำเนินการได้เหนือกว่า 3 โมเดลที่เป็นตัวเทียบ baseline ในงานตีพิมพ์
“ปัจจุบันนี้ โมเดล Transformer นั้นได้รับความสำเร็จอย่างมากและสามารถเอาชนะโมเดลที่อิงแบบ RNN (Recurrent Neural Network) หรือ CNN (Convolutional Neural Network) ได้ในด้านการประมวลผลภาษาธรรมชาติ (NLP : Natural Language Processing) หลายๆ งาน อย่างเช่น งานด้านการแปลภาษาธรรมชาติ (neural machine translation) และการเข้าใจภาษา (language understanding)” นักวิจัยเขียนไว้ในงานตีพิมพ์ “หลักของ Transformer นั้นเป็นการนำเอากลไกของ self-attention มาใส่เพื่อปฏิสัมพันธ์ระหว่าง 2 องค์ประกอบในลำดับที่เข้ามา ซึ่งมีประสิทธิภาพที่ดีสำหรับโมเดลที่รับข้อมูลเป็นลำดับ sequence และทำได้เหนือกว่า RNN และ CNN” นักวิจัยอธิบาย
โดยทีมวิจัยใช้ข้อมูล dataset จาก LJSpeech ซึ่งมีข้อมูลเสียงภาษาอังกฤษ 13,100 คลิปพร้อมกับข้อความที่ถอดเสียง (transcript) โดยทีมแบ่งข้อมูลมาใช้เทรน 12,500 คลิปและเลือก 200 คลิปแบบแรนดอมมาจากข้อมูลเทรนให้มีข้อความที่สอดคล้องกับเสียง โดยนอกนั้นคือไม่ได้เป็นคู่กัน ซึ่งทีมใช้ NVIDIA P100 GPU 4 ตัว จึงสามารถเทรนให้โมเดล Transformer สร้างลำดับของเสียงและข้อความขึ้นมาได้ และที่สำคัญ ทีมได้ใช้โมเดล auto-encoder เพื่อทำขั้นตอน denoise โดยสร้างเสียงที่เสียหายไปขึ้นมาได้ด้วย และผลลัพธ์ที่ได้จึงสามารถใส่เสียงหรือข้อความเข้าไปเป็น input และได้ output เป็นเสียงหรือข้อความได้เลย
นักวิจัยได้เปิดตัวอย่างออกมาบางส่วนจากในงานนี้ไว้บนเว็บไซต์ซึ่งอีกไม่นานโค้ดก็จะนำไปขึ้นไว้ที่ GitHub ด้วย
ผลลัพธ์จากอัลกอริทึม
The forms of printed letters should be beautiful and that their arrangement on the page should be reasonable and a help to the shapeliness of the letters themselves.
Source : https://news.developer.nvidia.com/microsoft-enhances-sra-tts-algorithms/