นักวิจัย Google เผย “Lumiere” โมเดล Space-Time Diffusion สร้างวีดีโอจากข้อความได้อย่างสมจริง

January 25, 2024

หลังจากที่องค์กรเริ่มหันมาปรับใช้ Generative AI กันมากขึ้นเรื่อย ๆ วิวัฒนาการของเทคโนโลยี AI จึงมีออกมาให้เห็นอย่างต่อเนื่อง ล่าสุดทีมนักวิจัยและ Google ได้เปิดเผยงานตีพิมพ์ที่แสดงให้เห็นว่าโมเดล Lumiere สามารถสร้างวีดีโอได้จากข้อความ (Text-To-Video) ได้ดูสมจริงมาก ๆ

โดยนักวิจัย Google Research, Weizmann Institute และ Tel Aviv University ได้เผยแพร่งานตีพิมพ์ออกมาในชื่อ “Lumiere: A Space-Time Diffusion Model for Video Generation” โมเดลที่สามารถช่วยสร้างวีดีโอจากข้อความได้แบบสมจริง

ปัจจุบันผู้เล่นหลักที่อยู่ในตลาด Text-To-Video นั้นเริ่มเห็นมากขึ้นเรื่อยๆ เช่น Runway, Pika หรือว่า Stability AI ซึ่ง Lumiere มีโอกาสที่จะก้าวเข้ามาแข่งขันในตลาดนี้ได้แน่นอน และนักวิจัยเคลมว่าโมเดลนี้ได้ใช้แนวทางที่แตกต่างจากผู้เล่นรายอื่น และมีการสังเคราะห์วีดีโอขึ้นมาได้อย่างสมจริง หลากหลาย และมีการเคลื่อนไหวที่สอดคล้องกันด้วย

สิ่งที่ Lumiere ทำได้อีก นอกจากการเป็นโมเดล Video Diffusion รับข้อความแล้วสร้างเป็นวีดีโอที่ดูสมจริงแล้ว ยังมีทางเลือกให้กับผู้ใช้ในการแก้ไขได้ตามคำสั่งอีกด้วย ผ่านข้อความที่อธิบายได้ว่าจะต้องการใส่วัตถุอะไรตรงไหน ปรับบางส่วนในวีดีโออย่างเสื้อผ้าหรือว่าสี หรือว่าเพิ่มการเคลื่อนไหวในเฉพาะบางส่วนในฉากฉาก หรือว่าเอาภาพอ้างอิงสไตล์ในการสร้างวีดีโอก็ทำได้ง่าย ๆ เลย

สำหรับใครที่สนใจงานวิจัยฉบับเต็ม สามารถอ่านได้ที่นี่ ซึ่งแม้ว่าจะยังไม่ได้ปล่อยโมเดลออกมาให้ทดสอบกันได้ แต่ถ้าหากดูตัวอย่างวีดีโอหรือเว็บไซต์ที่แสดงผลงานบน GitHub บอกได้เลยว่า Lumiere มีโอกาสจะกลายเป็นอีกคู่แข่งที่น่าจะก้าวมาเป็นผู้เล่นหลักในวงการได้ รวมทั้งอาจทำให้รู้สึกถึงความน่ากลัวในการรับชมวีดีโอในอนาคตมากขึ้นเรื่อย ๆ ที่อาจจะแยกไม่ออกแล้วว่าเป็นของจริงหรือว่า AI สร้างขึ้นมา ก็ว่าได้

ที่มา: https://venturebeat.com/ai/google-shows-off-lumiere-a-space-time-diffusion-model-for-realistic-ai-videos/

Share this: