โมเดลรู้จำเสียง (audio speech recognition) ในปัจจุบันนั้นยังไม่สามารถดำเนินการได้ดีพอในสภาพแวดล้อมที่มีสิ่งรบกวน เพื่อช่วยแก้ไขปัญหาดังกล่าวนักวิจัยจาก Samsung และ Imperial College ในลอนดอนจึงได้ร่วมกันพัฒนาโซลูชัน deep learning ที่ใช้เทคนิค Computer Vision ในการรู้จำเสียง ซึ่งโมเดลสามารถที่อ่านริมฝีปาก (lipreading) ได้รวมถึงสังเคราะห์เสียงออกมาได้จากใบหน้าและริมฝีปากที่เห็นในวีดีโอ
การอ่านริมฝีปากนั้นหลักๆ ผู้พิการทางการได้ยินหรือว่าผู้ที่มีอาการหูตึงจะใช้วิธ๊นี้กันอยู่ อย่างไรก็ดี ยังมีแอปพลิเคชันอื่นๆ ที่อาจนำเอาวิธีอ่านริมฝีปากมาใช้ได้ด้วย เช่น การใช้ระบบประชุมทางวีดีโอ (video conference) ในสภาพแวดล้อมที่มีเสียงรบกวน จนแทบจะไม่ได้ยินเสียงพูด
“วัตถุประสงค์ของวิธีการของเรานั้นได้อิงจากโครงสร้าง GAN ที่สามารถสร้างเสียงที่เป็นธรรมชาติออกมา เป็นเสียงที่เข้าใจได้ซึ่งได้ถูกสังเคราะห์ด้วยวีดีโอ” นักวิจัยกล่าวในงานตีพิมพ์ “ตามความรู้ที่มีอยู่ของพวกเรา สิ่งนี้เป็นครั้งแรกที่นำการแปลงจากวีดีโอแปลงออกมาเป็นเสียงได้โดยตรง และเป็นครั้งแรกที่สามารถสร้างเสียงที่เข้าใจได้เมื่อทดสอบกับผู้พูดที่ไม่เคยได้เรียนรู้มาก่อนหน้า”
ตัวโมเดลนั้นได้ประกอบไปด้วยโครงข่ายย่อยอีก 3 ตัวซึ่งมีโมเดล generator ที่แปลงจากเฟรมในวีดีโอให้กลายเป็นรูปแบบคลื่น แล้วจะมีโครงข่าย Convolutional Neural Network สามมิติ (3D CNN) ที่จะสร้างเสียงพูดที่ทำให้เหมือนกับเสียงธรรมชาติได้ และมีโครงข่าย encoder ที่จะช่วยรักษาเนื้อหาของเสียงพูดจากคลื่นเสียงเอาไว้ด้วย โดยโมเดลได้อิงจากโครงข่าย Wasserstein GAN ที่พัฒนาโดยนักวิจัย Facebook AI ซึ่งช่วยให้สามารถละดระยะห่างการกระจายระหว่างของจริงกับปลอมได้
โดยปัจจุบันนั้น โมเดลสามารถใช้งานได้กับวีดีโอที่ถ่ายหน้าตรงเท่านั้น นักวิจัยคาดหวังว่าจะขยายขีดความสามารถออกต่อไปได้ในอนาคต โดยปัจจุบันงานตีพิมพ์ได้เผยแพร่ออกมาผ่าน ArXiv
Source : https://news.developer.nvidia.com/new-gan-can-lipread-and-synthesize-speech/