นักวิจัย AI จาก Facebook สร้าง MelNet ที่สังเคราะห์เสียงเหมือน Bill Gates

June 12, 2019

https://venturebeat.com/wp-content/uploads/2016/08/4996229285_c5b294a858_b.jpg?w=930&strip=all

นักวิจัย AI จาก Facebook ได้ใช้ข้อมูลจาก TED Talks และข้อมูลจากแหล่งอื่นๆ มาสร้างเป็น AI ที่มีชื่อว่า MelNet ที่สามารถเลียนแบบเสียงเพลงและเสียงของคนดังต่างๆ ได้ ซึ่งรวมไปถึงเสียงของคุณ Bill Gates ได้สำเร็จแล้ว

โมเดล MelNet นั้นได้ใช้ข้อมูลสเปคโตรแกรม (spectrogram) หรือแผนภาพของเสียงมาใช้เป็นข้อมูลสำหรับเทรนแทนที่จะใช้รูปคลื่นสัญญาณไฟฟ้า (waveform) ซึ่งการทำเช่นนี้ได้ช่วยให้สามารถเก็บข้อมูลจากเสียงได้จำนวน timestep ที่มากกว่า จากนั้นจึงนำข้อมูลมาสร้างโมเดลที่สามารถสังเคราะห์เสียงจากข้อความ (text-to-speech) ได้แบบ end-to-end อีกทั้งยังสามารถสังเคราะห์เสียงเพลงเปียโนได้อีกด้วย นอกจากนี้ MelNet ยังถูกเทรนมาเพื่อสร้างเสียงผู้พูดได้หลากหลายแบบอีกด้วย

“แกนชั่วคราวของสเปคโตรแกรมเป็นลำดับข้อมูลขนาด (magnitude) ที่เล็กกว่ารูปแบบคลื่น ซึ่งหมายความว่าความขึ้นต่อกัน (dependency) ที่กระจายไปในหลายพัน timestep ในคลื่นนั้นจะใช้เพียงแค่หลักร้อยในสเปคโตรแกรม” นักวิจัย AI จาก Facebook กล่าวในงานตีพิมพ์ว่า MelNet ถูกสร้างมาอย่างไร “การผสมผสานเทคนิคเหล่านี้ได้ทำให้เกิดผลิตผลที่มีความหมาย ใช้งานได้อย่างกว้างขวาง และสร้างเสียงได้แบบ end-to-end”

เพื่อเป็นการทำให้เห็นถึงศักยภาพของ MelNet ทางนักวิจัยจึงได้สร้างเว็บไซต์ขึ้นมาเพื่อแสดงตัวอย่างเสียงและเพลงที่สร้างมาจากระบบ AI MelNet นี้ โดยนักวิจัยคุณ Mike Lewis และคุณ Sean Vasquez ได้ตีพิมพ์งานวิจัยบน arXiv เมื่อช่วงต้นเดือนที่ผ่านมา

Source : https://venturebeat.com/2019/06/11/facebook-ai-researchers-melnet-ai-sounds-like-bill-gates/

Share this: