การแปลงจากข้อความสู่เสียง (text-to-speech) นับวันยิ่งฉลาดขึ้นเรื่อยๆ แต่ปัญหาคือ ระบบยังต้องใช้เวลาฝึกอีกมาก รวมถึงทรัพยากรข้อมูลปริมาณมากเพื่อผลิตเสียงที่ฟังดูเป็นธรรมชาติ แต่ตอนนี้ Microsoft และทีมวิจัยชาวจีนอาจมีวิธีที่มีประสิทธิภาพมากขึ้นจากการประดิษฐ์ AI แปลงข้อความสู่เสียงที่สามารถสร้างเสียงพูดสมจริงได้จากชุดข้อมูลเสียงตัวอย่างเพียง 200 ชุดเท่านั้น (ความยาวประมาณ 20 นาที) และใช้การจับคู่กับบทถอดความ
ระบบเป็นส่วนหนึ่งของ Transformers หรือเครือข่ายประสาทเทียมที่เลียนแบบเซลล์ประสาทในสมองในการส่งสัญญาณจากข้อมูลอินพุตและแปลงเป็นข้อมูลเอาท์พุตได้เหมือนเซลล์ประสาทส่งข้อมูลหากัน (synaptic link) ซึ่งช่วยให้ระบบประมวลผลซีเควนซ์ยาวๆ เช่น ประโยคความซ้อน ได้อย่างมีประสิทธิภาพ
ทีมวิจัย Microsoft ได้นำส่วนประกอบของ Transformer มาสู่การออกแบบระบบ AI ที่สามารถใช้คำพูดหรือข้อความเป็นอินพุตหรือเอาท์พุตก็ได้ และสุ่มคลิปเสียง 200 เสียง จากชุดข้อมูล LJSpeech ที่มีคลิปเสียงสั้นๆ และบทถอดความอยู่แล้ว 13,000 ชุด มาใช้ในการฝึกระบบ ผนวกกับองค์ประกอบตัวเข้ารหัสตัดเสียงรบกวนด้วยแล้ว ก็ทำให้ AI ทำงานได้ยกระดับขึ้นไปอีกขั้น
แม้ผลลัพธ์ที่ได้จะยังไม่สมบูรณ์ดีนักเพราะมีเสียงแบบหุ่นยนต์อยู่บ้าง แต่ก็มีความแม่นยำในการเข้าใจภาษาสูงถึง 99.84 เปอร์เซ็นต์ สิ่งที่สำคัญที่สุดคือ การทำให้ระบบ text-to-speech นั้น เข้าถึงได้ง่ายมากขึ้น เพราะไม่ต้องพยายามหาชุดข้อมูลเสียงจริงมาฝึกระบบมากนัก ทำให้บริษัทขนาดเล็กและแม้แต่บรรดามือใหม่เข้าถึงได้