Computer vision จาก Google ลงสีวัตถุในวีดีโอได้

0
https://venturebeat.com/wp-content/uploads/2018/06/Capture-magic-2.png?fit=578%2C417&strip=all

AI ที่ลงสีในภาพขาวดำได้คงไม่ใช่เรื่องแปลกใหม่ แต่นักวิจัยจาก Google ได้ก้าวไปอีกขั้น จากการสร้างระบบเรียนรู้ (machine learning) ที่ไม่ใช่แค่ลงสีในวีดีโอขาวดำได้เท่านั้น แต่ยังสามารถลงสีเฉพาะวัตถุ คน หรือสัตว์ในเฟรมที่กำหนด เหมือนกับเด็กระบายสีให้อยู่ในเส้นได้

Carl Vondrick หัวหน้าทีมวิจัยโครงการนี้เขียนในบล็อกว่า “การตรวจจับวัตถุในวีดีโอนั้นเป็นปัญหาพื้นฐานสำหรับ computer vision ที่จำเป็นต่อการนำไปใช้งาน เช่น การรับรู้กิจกรรม การมีปฏิสัมพันธ์กับวัตถุ หรือการทำให้เข้ากับรูปแบบวีดีโอ อย่างไรก็ตาม การสอนระบบให้รู้จักวัตถุนั้นเป็นเรื่องที่ท้าทาย ส่วนหนึ่งเพราะว่ามันต้องอาศัยชุดข้อมูลที่มีระบุ label ไว้ขนาดใหญ่เพื่อใช้ฝึกระบบ ซึ่งทำได้ยาก”

Google Colorization AI
Credit: Venturebeat | โมเดลของ Google เรียนรู้ที่จะจับภาพวัตถุผ่านการลงสี

ในงานวิจัย นักวิจัยได้อธิบายถึง convolutional neural network (โครงข่ายประสาทเทียมแบบสังวัตนาการ) ประเภทที่เป็นโครงข่ายที่ถูกออกแบบมาใช้จับภาพวัตถุและทำให้ภาพวีดีโอนิ่ง ซึ่งโครงข่ายนี้เรียนรู้ที่จะติดตามวัตถุหลายอย่าง และยังคงทำงานได้ปกติโดยไม่ต้องใช้ข้อมูลที่มี label ใดๆ

ขั้นตอนแรกคือสอนอัลกอริธึมลงสีวีดีโอขาวดำ โดยนักวิจัยได้นำคลิปจากชุดข้อมูลของ Kinetics ที่เป็นชุดวีดีโอจาก YouTube รวบรวมการเคลื่อนไหวของมนุษย์  และแปลงเฟรมแรกให้เป็นขาวดำ แล้วจึงฝึกโครงข่ายประสาทเทียมให้คาดเดาสีดั้งเดิมในเฟรมต่อมา เมื่อระบบต้องลงสีวัตถุที่เคลื่อนไหวและพื้นหลัง มันจึงต้องเรียนรู้ที่จะตรวจจับวัตถุและพื้นหลังนั้นๆ ได้

Google Colorization AI
Credit: Venturebeat | (ซ้ายไปขวา) เฟรมอ้างอิง, input video, วีดีโอที่ลงสีใหม่

Vondrick เสริมว่า “การเรียนรู้ที่จะคัดลอกสีจากเฟรมอ้างอิงอันเดียวนั้นต้องให้ระบบโมเดลเรียนรู้ที่จะเลือกวัตถุได้ถูกต้องก่อนจึงจะลงสีได้ถูกต้องตาม เป็นการบังคับให้ระบบเรียนรู้กลไกที่ชัดเจนที่ใช้ในการจับภาพวัตถุ”

โมเดลที่ได้ผลลัพธ์ออกมานั้นสามารถเก็บรายละเอียดในภาพที่ระบุไว้ในเฟรมแรกของวีดีโอได้ และยังสามารถตรวจจับการเคลื่อนไหวของมนุษย์ได้อีกด้วย โดยนักวิจัยใช้การเคลื่อนไหวของมนุษย์นี้สร้างโมเดลจำลองการเคลื่อนไหว ดังภาพ

Google Colorization AI
Credit: Venturebeat

“ผลลัพธ์ที่ได้แสดงให้เห็นว่าการลงสีในวีดีโอนั้นเป็นสัญญาณหนึ่งที่สามารถนำไปใช้สำหรับการเรียนรู้ที่จะจับภาพวัตถุในวีดีโอได้โดยไม่ต้องมีการควบคุมใดๆ นอกจากนี้ เรายังพบว่า ความล้มเหลวจากระบบของเรานั้นสัมพันธ์กับความล้มเหลวในการลงสีในวีดีโอ นั่นแสดงว่าการพัฒนาโมเดลการลงสีในวีดีโอนั้นสามารถก้าวหน้าขึ้นไปอีกได้ด้วยการควบคุมการจับวัตถุด้วยตัวเอง”