Microsoft โชว์งานวิจัย “VASA-1” เฟรมเวิร์ก AI แปลงภาพ Headshot ให้พูดหรือร้องเพลงได้

April 19, 2024

Microsoft เปิดงานวิจัยล่าสุด VASA-1 เฟรมเวิร์ก AI ที่สามารถแปลภาพถ่ายศีรษะ (Headshot) ให้กลายเป็นวีดีโอที่พูดหรือร้องเพลงได้เลยแบบ “Real-Time”

งานวิจัยนี้ได้แสดงให้เห็นถึงขีดความสามารถของ AI ที่ก้าวหน้าอย่างมีนัยสำคัญ เพราะใช้ข้อมูลเข้า (Input) ส่งเข้าไปให้ AI นั้นน้อยมาก ๆ ดูตัวอย่างด้านล่างคือภาพโมนาลิซาที่นำมาสร้างเป็นวีดีโอที่แรปเพลง Paparazzi ได้อย่างแนบเนียน

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

เพียงแค่ใช้ภาพถ่ายศีรษะภาพเดียว พร้อมกับไฟล์เสียงที่มีคำพูด โมเดลใน VASA-1 ก็สามารถสร้างวีดีโอของภาพคนนั้นที่พูดตามเสียงที่ส่งไปให้ได้อย่างแนบเนียน แถมหน้าตาอารมณ์ที่แสดงออกมาก็ดูเกี่ยวข้องกับคำพูดที่ใส่ไปอีกด้วย

จากวีดีโอสาธิตคือใช้เครื่องเดสก์ท็อปพีซีที่มีการ์ดจอ NVIDIA RTX 4090 GPU ก็สามารถใช้งาน VASA-1 ได้แบบ Real-Time แล้ว โดยจะได้วีดีโอขนาด 512×512 ด้วยความละเอียด 45 เฟรมต่อวินาทีสำหรับโหมด Offline Batch Processing ทั้งนี้ สามารถเข้าไปดูวีดีโอเพิ่มเติมของ VASA-1 ได้ที่นี่

โดยบริษัทคาดหวังว่าสิ่งนี้อาจจะช่วยสร้างความเท่าเทียมในด้านการศึกษา เพิ่มการเข้าถึงสำหรับบุคคลที่มีปัญหาในการสื่อสาร หรือสนับสนุนการรักษาบำบัดสำหรับผู้ป่วยที่ต้องการได้

แม้ว่าตอนนี้ VASA-1 จะสามารถสร้างวีดีโอจากภาพนิ่งขึ้นมาได้แบบ Real-Time ที่อาจจะไม่ได้ละเอียดอะไรมาก หากแต่ในอีกมุมก็อาจจะมีภัยคุกคามแอบแฝงจากพัฒนาการของเทคโนโลยีที่เกิดขึ้นนี้ได้ เช่น การนำภาพถ่ายใครบางคนมาใส่คำพูดที่ตัวจริงอาจจะไม่ได้เคยพูดมาก่อน เป็นต้น

และถ้าหากเทคโนโลยีมีพัฒนาการมากยิ่งขึ้นเรื่อย ๆ ก็อาจจะแยกไม่ออกได้ง่าย ๆ แล้วว่าวีดีโอที่กำลังรับชมอยู่นี้่ เป็นของจริงหรือ AI สร้างขึ้นมากันแน่ ดังนั้น ผู้รับชมข่าวสารหรือวีดีโออาจจะต้องมีความรู้เท่าทันในโลกดิจิทัลมากขึ้นเรื่อย ๆ อย่างต่อเนื่อง

ที่มา: https://venturebeat.com/ai/microsoft-shows-off-vasa-1-an-ai-framework-that-makes-human-headshots-talk-sing/

Share this: