Tacotron 2 ของ Google ทำให้การสอน AI ให้พูดทำได้ง่ายขึ้น

December 21, 2017

https://tctechcrunch2011.files.wordpress.com/2017/08/speech-recognition.png?w=738

การสร้างเสียงสังเคราะห์ (artificial speech) กำลังได้รับการพัฒนาอย่างต่อเนื่อง ซึ่งแน่นอนว่า Google เป็นผู้นำในด้านนี้ ทางบริษัทก็ได้ล้ำหน้าไปอีกขั้นกับการเปิดตัวของ Tacotron 2 ซึ่งเป็นวิธีฝึกโครงข่ายประสาทเทียม (Neural Network) ให้สร้างเสียงสมจริงจากข้อความโดยแทบจะไม่ต้องพึ่งความเชี่ยวชาญด้านไวยากรณ์เลย

เทคนิคใหม่นี้เป็นการผสานรวมของโปรเจคการสร้างเสียงก่อนหน้าของ Google ทั้งสองอัน นั่นคือ WaveNet และ Tacotron โดยดั้งเดิม WaveNet นั้นสร้างเสียงโดยใช้ metadata ของภาษาเป็นจำนวนมากตั้งแต่การออกเสียง ลักษณะทางภาษาศาสตร์ และอื่นๆ ส่วน Tacotron นั้นสังเคราะห์ข้อมูลชั้นสูงมากขึ้น เช่น ทำนองเสียงและจังหวะ แต่ก็ยังไม่เหมาะกับการสร้างเสียงที่สมจริงนัก

Tacotron 2 ใช้องค์ประกอบของทั้งสองอย่างนี้ โดยใช้ข้อความและการเล่าเรื่องบรรยายของข้อความนั้นคำนวณกฎภาษาศาสตร์ทั้งหมดที่ระบบได้เรียนรู้มา ตัวข้อความนั้นจะถูกแปลงเป็น “mel-scale spectrogram” ในรูปแบบของ Tacotron เพื่อดูจังหวะและการเน้น ในขณะที่ตัวคำเองก็ถูกสร้างโดยใช้ระบบแบบ WaveNet

https://s.aolcdn.com/dims-global/dims3/GLOB/resize/1167×874/quality/80/https://tctechcrunch2011.files.wordpress.com/2017/12/wavenet_diag.png

ผลลัพธ์เสียงที่ได้นั้นดีขึ้นกว่าแต่ก่อน จังหวะการพูดชัดเจน แม้อาจจะฟังขาดๆ ไปบ้าง โดยไปสะดุดกับคำที่การออกเสียงนั้นเป็นสำเนียงนอกเหนือจากภาษาอังกฤษแบบอเมริกัน เช่น คำว่า decorum ที่เน้นพยางค์แรก และในบางกรณีก็มีการออกเสียงแปลกๆ ไปบ้าง อย่างไรก็ดี ยังไม่มีวิธีควบคุมน้ำเสียงตามอารมณ์ได้ เช่น อารมณ์กังวล แม้ว่าจะสามารถผนวกสำเนียงและเรื่องละเอียดอ่อนอื่นๆ เช่นเดียวกับที่ทำได้กับ WaveNet

Source : https://techcrunch.com/2017/12/19/googles-tacotron-2-simplifies-the-process-of-teaching-an-ai-to-speak/

Share this: