AI และอัลกอริธึมระบบเรียนรู้เริ่มมีทักษะการสร้างสรรค์ผลงานเชิงศิลป์ แต่น้อยนักที่มีผลงานสร้างเสียงร้องสังเคราะห์หรือการเลียนเสียงนักร้อง ล่าสุดนักวิจัยจาก Amazon และ Cambridge ได้นำเสนองานวิจัยระบบ AI ที่ใช้โมเดลน้อยกว่างานก่อนหน้าเกี่ยวกับคุณสมบัติเสียงอย่างการทำเสียงสั่นหรือลูกคอ (vibrato) และช่วงความยาวตัวโน้ต
งานวิจัยนี้ใช้ WaveNet ซึ่งเป็นอัลกอริธึมที่ออกแบบโดย Google ในการสังเคราะห์แผนภาพคลื่นความถี่ของเสียง (mel-specrogram) ที่อีกโมเดลผลิตจากการผสมผสานระหว่างข้อมูลเสียงคำพูดและสัญลักษณ์
ระบบประกอบด้วย 3 ส่วน ส่วนแรกนำสกอร์เพลงเป็นอินพุตและสร้างสัญลักษณ์ตัวเลขแทนตัวโน้ตส่งไปยังตัวแปลงข้อมูล ส่วนที่สองเป็นโมเดลที่ถูกปรับให้รับข้อมูลจากส่วนแรกแล้วถอดรหัสสร้างแผนภาพคลื่นความถี่เสียง ส่วนสุดท้ายคือ WaveNet vocoder เป็นส่วนเลียนเสียงในประโยค เช่น การเน้นและทำนองเสียง ซึ่งจะสังเคราะห์แผนภาพคลื่นความถี่เสียงให้กลายเป็นเพลง

ระบบส่วนหน้าทำหน้าที่วิเคราะห์เนื้อเพลงในสกอร์โดยมีการแยกหน่วยเสียงให้เข้ากับแต่ละโน้ตในเพลงซึ่งใช้ข้อมูลการออกเสียงทีละพยางค์มาประกอบ ระบบยังคำนวณช่วงความยาวเป็นวินาทีสำหรับแต่ละตัวโน้ต พร้อมจังหวะและเครื่องหมายกำหนดจังหวะ ทั้งหมดนี้รวมกันเพื่อฝังรหัสส่งไปยังส่วนต่อไป
นักวิจัยรวมชุดข้อมูลเพลงภาษาอังกฤษ 96 เพลง ขับร้องแบบอะแคปเปล่าโดยเสียงนักร้องหญิงเป็นเวลารวมกันทั้งสิ้น 2 ชั่วโมง 15 วินาที เพลงมีหลายแนว ทั้งป๊อป บลู ร็อก และเพลงเด็ก เพลงต่างๆ ถูกแยกออกเป็นส่วนๆ ความยาวประมาณ 20-30 วินาที ประกอบด้วยหน่วยเสียง 200 หน่วย การแยกนี้ช่วยลดเวลาคำนวณที่ใช้ฝึกระบบ และทำให้แปลงตัวอย่างเพื่อเพิ่มคลังข้อมูลได้ง่ายขึ้น เช่น การเปลี่ยนระดับเสียงและการเปลี่ยนจังหวะความเร็ว
ทีมนักวิจัยสรรหาผู้ฟัง 22 รายเพื่อประเมินคุณภาพของเพลงสังเคราะห์ หลักๆ คือ ฟังเพลงความยาวประมาณ 3-5 วินาที และประเมินความเป็นธรรมชาติของเพลงจากระดับ 0 ถึง 100 ผลคือ โมเดลที่นำเสนอนี้ได้รับการให้คะแนนเฉลี่ย 58.9%
โมเดลร้องเพลงได้ตรงคีย์แม้ว่าจะทำได้ดีในเพลงง่ายๆ ที่ไม่มีโน้ตเสียงต่ำหรือสูงเกินไป ระบบยังเรียนรู้ที่จะสร้างเสียงสั่นและปรับเข้าได้ลงตัวตามบริบทของเพลง ระบบมีติดขัดอยู่บ้างพอถึงท่อนเงียบ และอาจมีโน้ตหลุดจังหวะที่อาจจะสั้นหรือยาวเกินไป แต่ผู้ร่วมงานวิจัยนี้เชื่อว่าระบบจะถูกทำให้เสถียรขึ้นได้ในอนาคต