Google เปิดตัว “VideoPoet” โมเดล LLM ใหม่ ที่ออกแบบมาสำหรับงาน Generate วีดีโอโดยเฉพาะ

December 21, 2023

ล่าสุด Google ได้เปิดตัว “VideoPoet” โมเดล Multimodal AI ตัวใหม่ที่ใช้ LLM เป็นพื้นฐานสำหรับงาน Video Generator หรือการสังเคราะห์วีดีโอขึ้นมา ซึ่งโมเดลใหม่นี้สร้างโดยทีมนักวิจัยกว่า 31 ชีวิตที่ Google Research

ดูตัวอย่างผลลัพธ์วีดีโอที่ได้จาก VideoPoet ของทาง Google ได้ที่นี่

มีจุดที่น่าสนใจ ตรงที่ Google Research นั้นเลือกใช้ LLM สำหรับงาน Generate วีดีโอ แทนที่จะเป็นโมเดลที่เป็น Diffusion-based อย่างเช่นร Stable Diffusion ที่ดูเหมือนว่าจะได้ผลดีอย่างมาก ๆ ในงานด้าน Video Generation ณ ตอนนี้

หากแต่ Google Research นั้นเลือกใช้ LLM ที่มักจะใช้สำหรับงานด้าน Text Generation หรือ Code Generation อย่างที่หลาย ๆ คนใช้ใน ChatGPT, Claude 2 หรือ Llama 2 มากกว่า ซึ่งทาง Google Research เลือกนำเอา LLM มาเทรนเพื่อใช้ Video Generation แทน ด้วยการ Pre-Training วีดีโอกว่า 270 ล้านวีดีโอ และข้อความกับภาพอีกกว่า 1 พันล้านคู่จากอินเทอร์เน็ตและแหล่งอื่น ๆ

ผลลัพธ์ที่ได้ Google Research โน้ตว่าวิธีการใช้ LLM สำหรับ Video Generator นั้นามารถสร้างคลิปได้ยาวขึ้นกว่าเดิมและได้คุณภาพที่สูงขึ้นกว่าเดิม ซึ่งทำให้สามารถตัดข้อจำกัดหรือปัญหาบางอย่างที่เกิดขึ้นในโมเดลที่เป็น Diffusion-based ลงไปได้ อย่างเช่น การเคลื่อนไหวของบางวัตถุในวีดีโอที่มีแนวโน้มจะกลายเป็นจุดบกพร่อง (Glitch) ได้หลังจากรันไปไม่กี่เฟรม

ที่มา: https://venturebeat.com/ai/googles-new-videopoet-multimodal-ai-video-generation-model-looks-incredible/

Share this: