Microsoft เปิดงานวิจัยล่าสุด VASA-1 เฟรมเวิร์ก AI ที่สามารถแปลภาพถ่ายศีรษะ (Headshot) ให้กลายเป็นวีดีโอที่พูดหรือร้องเพลงได้เลยแบบ “Real-Time”
งานวิจัยนี้ได้แสดงให้เห็นถึงขีดความสามารถของ AI ที่ก้าวหน้าอย่างมีนัยสำคัญ เพราะใช้ข้อมูลเข้า (Input) ส่งเข้าไปให้ AI นั้นน้อยมาก ๆ ดูตัวอย่างด้านล่างคือภาพโมนาลิซาที่นำมาสร้างเป็นวีดีโอที่แรปเพลง Paparazzi ได้อย่างแนบเนียน
เพียงแค่ใช้ภาพถ่ายศีรษะภาพเดียว พร้อมกับไฟล์เสียงที่มีคำพูด โมเดลใน VASA-1 ก็สามารถสร้างวีดีโอของภาพคนนั้นที่พูดตามเสียงที่ส่งไปให้ได้อย่างแนบเนียน แถมหน้าตาอารมณ์ที่แสดงออกมาก็ดูเกี่ยวข้องกับคำพูดที่ใส่ไปอีกด้วย
![](https://www.adpt.news/wp-content/uploads/2024/04/image-32.png)
จากวีดีโอสาธิตคือใช้เครื่องเดสก์ท็อปพีซีที่มีการ์ดจอ NVIDIA RTX 4090 GPU ก็สามารถใช้งาน VASA-1 ได้แบบ Real-Time แล้ว โดยจะได้วีดีโอขนาด 512×512 ด้วยความละเอียด 45 เฟรมต่อวินาทีสำหรับโหมด Offline Batch Processing ทั้งนี้ สามารถเข้าไปดูวีดีโอเพิ่มเติมของ VASA-1 ได้ที่นี่
โดยบริษัทคาดหวังว่าสิ่งนี้อาจจะช่วยสร้างความเท่าเทียมในด้านการศึกษา เพิ่มการเข้าถึงสำหรับบุคคลที่มีปัญหาในการสื่อสาร หรือสนับสนุนการรักษาบำบัดสำหรับผู้ป่วยที่ต้องการได้
แม้ว่าตอนนี้ VASA-1 จะสามารถสร้างวีดีโอจากภาพนิ่งขึ้นมาได้แบบ Real-Time ที่อาจจะไม่ได้ละเอียดอะไรมาก หากแต่ในอีกมุมก็อาจจะมีภัยคุกคามแอบแฝงจากพัฒนาการของเทคโนโลยีที่เกิดขึ้นนี้ได้ เช่น การนำภาพถ่ายใครบางคนมาใส่คำพูดที่ตัวจริงอาจจะไม่ได้เคยพูดมาก่อน เป็นต้น
และถ้าหากเทคโนโลยีมีพัฒนาการมากยิ่งขึ้นเรื่อย ๆ ก็อาจจะแยกไม่ออกได้ง่าย ๆ แล้วว่าวีดีโอที่กำลังรับชมอยู่นี้่ เป็นของจริงหรือ AI สร้างขึ้นมากันแน่ ดังนั้น ผู้รับชมข่าวสารหรือวีดีโออาจจะต้องมีความรู้เท่าทันในโลกดิจิทัลมากขึ้นเรื่อย ๆ อย่างต่อเนื่อง