Apple เปิดตัว “MGIE” โมเดล AI ปรับแต่งภาพได้ด้วยภาษาธรรมชาติ

0

อีกหนึ่งนวัตกรรมอันน่าทึ่งจาก Apple คือโมเดล AI ล่าสุดที่ Apple ปล่อยออกมา Open Source บน Hugging Face แล้วในชื่อ “MGIE” โมเดล AI ที่สามารถแก้ไขภาพได้ด้วยคำสั่งที่เป็นภาษาธรรมชาติได้เลย 

โดย MGIE ย่อมาจาก MLLM – Guided Image Editing ที่เป็นการใช้ประโยชน์จากโมเดลภาษาขนาดใหญ่หลากหลายรูปแบบ (Multimodal Large Language Models หรือ MLLMs) ที่สามารถแปลคำสั่งของผู้ใช้จากภาษาธรรมชาติแล้วดำเนินการปรับแต่งภาพได้ในระดับพิกเซล ซึ่ง MGIE นี้สามารถจัดการแก้ไขภาพได้ในหลากหลายมุมมอง อย่างเช่น การปรับแต่งแบบสไตล์ Photoshop หรือว่าการปรับแต่งทั้งภาพ หรือว่าปรับแค่เฉพาะที่ เป็นต้น

โมเดล MGIE นี้คือผลลัพธ์ความร่วมมือระหว่าง Apple กับนักวิจัยจาก University of California, Santa Barbara ซึ่งโมเดลนั้นได้ถูกนำเสนอในงานวิจัยที่ได้รับการตีพิมพ์ที่ International Conference on Learning Representations (ICLR) 2024 เป็นที่เรียบร้อยแล้ว

การทำงานของ MGIE นั้นได้อิงจากไอเดียการใช้งาน MLLMs ที่สามารถประมวลผลได้ทั้งข้อความและภาพ ที่จะสามารถเพิ่มประสิทธิภาพการปรับแต่งภาพด้วยคำสั่งได้ ซึ่ง MLLMs นั้นได้แสดงให้เห็นว่ามีขีดความสามารถในความเข้าใจภาพ และสามารถตอบสนองในการสังเคราะห์ภาพได้ดี หากแต่ยังไม่ค่อยมีการนำไปใช้ในวงกว้างในงานแก้ไขภาพเท่าไหร่นัก ณ ตอนนี้

Credit : arxiv.org

โดยแนวทางในการใช้งาน MGIE ง่าย ๆ คือการป้อนคำสั่งให้กับโมเดลเหมือนการส่ง Prompt ให้กับโมเดล Generative AI ทั่วไป ซึ่ง MLLMs จะดำเนินการตามคำสั่งที่ผู้ใช้กรอกข้อมูลเข้าไปอย่างชัดเจนและกระชับ ว่าต้องการให้ทำอะไร เช่น “ทำให้ท้องฟ้าเป็นสีฟ้ามากกว่าเดิม” เป็นต้น

โดย MGIE นั้นฟีเจอร์หลากหลาย โดยตัวอย่างที่ MGIE สามารถทำได้ เช่น

  • Expressive instruction-based editing MGIE จะดำเนินการตามคำสั่งที่ต้องการให้ทำ ซึ่งจะไม่ได้ปรับคุณภาพของภาพ หากแต่จะเพิ่มประสบการณ์ผู้ใช้เป็นหลัก
  • Photoshop-style modification การปรับแต่งเหมือน Photoshop อย่างเช่น การ Crop, Resize, Rotate, Flip เพิ่ม Filter อีกทั้งยังสามารถสั่งเปลี่ยน Background เพิ่มลบ object ได้ เป็นต้น
  • Global photo optimization MGIE สามารถปรับปรุงคุณภาพโดยรวมของภาพให้ดีขึ้นได้ เช่น การความสว่าง Contrast ความคม เป็นต้น
  • Local editing MGIE สามารถปรับแต่งบางส่วนบางพื้นที่ในภาพ เช่น ดวงตา ใบหน้า ผม เสื้อผ้า เป็นต้น โดยสามารถปรับแต่งรูปร่าง ขนาด สี พื้นผิว ได้ด้วย

จะเห็นได้ว่า MGIE มีขีดความสามารถหลากหลายไม่แพ้เครื่องมือปรับแต่งภาพยอดนิยมหลาย ๆ ตัวที่ใช้งานกันอยู่ และด้วยวิวัฒนาการของ Generative AI ไม่แน่ว่าในอนาคตเครื่องมือแต่งภาพก็อาจจะต้องเปลี่ยนแนวทางใช้งานไปอีก จากที่ต้องเรียนรู้วิธีใช้เครื่องมือต่าง ๆ ให้คล่อง อาจจะเปลี่ยนเป็นแค่การใช้ภาษาอังกฤษให้สื่อสารเข้าใจกับ AI ที่อยู่เบื้องหลังการปรับแต่งภาพได้ตามที่ต้องการ ก็เป็นได้

สำหรับผู้ที่สนใจ MGIE สามารถอ่านเพิ่มเติมได้ที่งานตีพิมพ์ รวมทั้งสามารถทดลองใช้งานได้ที่ Hugging Face ที่นี่

ที่มา: https://venturebeat.com/ai/apple-releases-mgie-a-revolutionary-ai-model-for-instruction-based-image-editing/