AI จาก Microsoft สร้างเสียงพูดสมจริงจากตัวอย่างข้อมูลเพียง 200 ชุดเท่านั้น

0
An unidentified man is silhouetted as he walks in front of Microsoft logo at an event in New Delhi, India, Tuesday, Nov. 7, 2017. (AP Photo/Altaf Qadri)

การแปลงจากข้อความสู่เสียง (text-to-speech) นับวันยิ่งฉลาดขึ้นเรื่อยๆ แต่ปัญหาคือ ระบบยังต้องใช้เวลาฝึกอีกมาก รวมถึงทรัพยากรข้อมูลปริมาณมากเพื่อผลิตเสียงที่ฟังดูเป็นธรรมชาติ แต่ตอนนี้ Microsoft และทีมวิจัยชาวจีนอาจมีวิธีที่มีประสิทธิภาพมากขึ้นจากการประดิษฐ์ AI แปลงข้อความสู่เสียงที่สามารถสร้างเสียงพูดสมจริงได้จากชุดข้อมูลเสียงตัวอย่างเพียง 200 ชุดเท่านั้น (ความยาวประมาณ 20 นาที) และใช้การจับคู่กับบทถอดความ

ระบบเป็นส่วนหนึ่งของ Transformers หรือเครือข่ายประสาทเทียมที่เลียนแบบเซลล์ประสาทในสมองในการส่งสัญญาณจากข้อมูลอินพุตและแปลงเป็นข้อมูลเอาท์พุตได้เหมือนเซลล์ประสาทส่งข้อมูลหากัน (synaptic link) ซึ่งช่วยให้ระบบประมวลผลซีเควนซ์ยาวๆ เช่น ประโยคความซ้อน ได้อย่างมีประสิทธิภาพ

ทีมวิจัย Microsoft ได้นำส่วนประกอบของ Transformer มาสู่การออกแบบระบบ AI ที่สามารถใช้คำพูดหรือข้อความเป็นอินพุตหรือเอาท์พุตก็ได้ และสุ่มคลิปเสียง 200 เสียง จากชุดข้อมูล LJSpeech ที่มีคลิปเสียงสั้นๆ และบทถอดความอยู่แล้ว 13,000 ชุด มาใช้ในการฝึกระบบ ผนวกกับองค์ประกอบตัวเข้ารหัสตัดเสียงรบกวนด้วยแล้ว ก็ทำให้ AI ทำงานได้ยกระดับขึ้นไปอีกขั้น

แม้ผลลัพธ์ที่ได้จะยังไม่สมบูรณ์ดีนักเพราะมีเสียงแบบหุ่นยนต์อยู่บ้าง แต่ก็มีความแม่นยำในการเข้าใจภาษาสูงถึง 99.84 เปอร์เซ็นต์ สิ่งที่สำคัญที่สุดคือ การทำให้ระบบ text-to-speech นั้น เข้าถึงได้ง่ายมากขึ้น เพราะไม่ต้องพยายามหาชุดข้อมูลเสียงจริงมาฝึกระบบมากนัก ทำให้บริษัทขนาดเล็กและแม้แต่บรรดามือใหม่เข้าถึงได้