ระบบ AI สามารถเล่นเพลงที่ได้ยินซ้ำได้

0
https://news.developer.nvidia.com/wp-content/uploads/2018/05/Facebook_AI_Cover.jpg

นักวิจัยจาก Facebook ได้สร้างระบบ deep learning ที่สามารถทำซ้ำเพลงที่ระบบได้ยินและเล่นเพลงนั้นๆ ได้ประหนึ่งเหมือนเป็นโมสาร์ท (Wolfgang Amadeus Mozart) บีโธเฟ่น (Ludwig van Beethoven) หรือบาค (Johann Sebastian Bach) สิ่งนี้เป็นครั้งแรกที่นักวิจัยสามารถสร้างการแปลดนตรีทั้งเครื่องดนตรี สไตล์ และแนวเพลงที่มีความชัดเจนสูงและเสียงรบกวนน้อยมากได้

“มนุษย์จะมีการสร้างดนตรีและทำซ้ำมันอยู่โดยทั่วไป ไม่ว่าจะเป็นการร้องออกมา ผิวปาก ตบมือ หรือหลังจากได้ฝึกฝนมาเพื่อเล่นกับเครื่องดนตรีมาตรฐานทั่วไปหรือเครื่องดนตรีแบบชั่วคราว ทักษะนี้ไม่ได้เป็นเอกลักษณ์เฉพาะพวกเราเท่านั้น และยังมีอีกหลายๆ สิ่งมีชีวิตสายพันธุ์อื่นๆ ที่สามารถจำลองทำซ้ำเสียงเพลงหลังจากได้ฟัง” นักวิจัยเขียนในงานตีพิมพ์

โดยทีมวิจัยได้ใช้เฟรมเวิร์กของ PyTorch โดยเทรนระบบบนข้อมูลในแนวเพลงคลาสสิก 6 โดเมน (domain) หรือ 6 แบบ ซึ่งรวมไปถึง ซิมโฟนีของโมสาร์ท 46 บท สตริงควอเต็ทของไฮเดิน (Joseph Haydn) 27 บท แคนตาตาสำหรับออเคสตร้าของบาค งานออร์แกนของบาค เปียโนโซนาตาของบีโธเฟ่น 32 บท และงานคีย์บอร์ดของบาค โดยการเทรนระบบใช้เวลาถึง 8 วัน โดยมีจำนวนตัวอย่างข้อมูลจากทุกๆ แบบรวมกันได้ระดับหลายพันตัวอย่าง

วิธีการที่ใช้จะยึดหลักของ multi-domain WaveNet autoencoder ซึ่งนักวิจัยอ้างว่าการใช้ encoder ที่โดเมนที่เป็นอิสระ (domain-independent) นั้นทำให้พวกเขาสามารถแปลดนตรีถึงแม้ว่าดนตรีในโดเมนนั้นๆ จะไม่เคยเห็นมาก่อนระหว่างการเทรนได้

“พวกเราได้แก้ไขสมการของ WaveNet เล็กน้อย ดังนั้นโครงสร้างสถาปัตยกรรม (architecture) ของพวกเขานั้นจะเข้ากับเคอร์เนล CUDA แบบ inference-time ที่ NVIDIA รองรับได้” นักวิจัยกล่าว

“ผลลัพธ์ของระบบแสดงให้เห็นถึงความสามารถที่เรารู้ว่ามีแต่ไม่เคยได้ยินมาก่อน การขอให้แปลงดนตรีจากเครื่องดนตรีคลาสสิคหนึ่งไปอีกอย่างหนึ่งนั้น ระบบของพวกเรายังคงทำได้แย่กว่านักตนตรีระดับมืออาชีพอยู่ แต่ในหลายๆ ครั้ง คนก็พบว่ามันยากที่จะบอกได้ว่าอันไหนคือเสียงจากต้นฉบับและอันไหนคือผลลัพธ์ output จากการแปลงที่เลียนแบบมาโดยใช้เครื่องดนตรีที่ต่างกันโดยสิ้นเชิง” นักวิจัยกล่าว

ทีมวิจัยยังกล่าวอีกว่างานของพวกเขานั้นยังคงอยู่ในระหว่างทางสำหรับงานในระดับที่สูงขึ้น อย่างเช่น การถอดข้อความจากดนตรีและการแต่งเพลงได้อัตโนมัติ

https://news.developer.nvidia.com/wp-content/uploads/2018/05/Facebook_encoder.png

 

“ระบบของพวกเราสามารถที่จะประมวลผลกับข้อมูลจากเครื่องดนตรีที่ไม่เคยได้รับการเทรนหรือไม่รู้จักมาก่อนหรือจากแหล่งที่มาอื่นๆ เช่น การผิวปาก ได้สำเร็จ โดยฝั่งผลลัพธ์ output ที่ได้นั้น ยังคงสามารถสร้างเสียงที่มีคุณภาพสูง และเครื่องดนตรีใหม่ก็สามารถที่จะเพิ่มเข้าไปโดยไม่ต้องเทรนระบบทั้งเน็ตเวิร์กใหม่หมดอีกด้วย”

Source : https://news.developer.nvidia.com/ai-can-play-it-by-ear/