ขยับไปอีกก้าว… Facebook ฝึก AI ให้มี “common sense” คิดได้เองไม่ต้องอาศัยข้อมูลกำกับตลอด

0

ระบบเรียนรู้ (Machine learning) มีความสามารถทำได้ทุกอย่างตราบเท่าที่มีข้อมูลสอนวิธีการให้ระบบ ซึ่งไม่ใช่เรื่องง่ายเพราะจำต้องป้อนข้อมูลมหาศาลเพื่อให้ระบบเรียนรู้และเข้าใจจนสามารถทำงานได้ดังที่เราต้องการ แต่นักวิจัยเองก็พยายามมองหาวิธีการสร้าง “common sense” ให้ AI เพื่อที่จะได้ไม่ต้องป้อนข้อมูลจำนวนมากขนาดนั้น และงานวิจัยล่าสุดจาก Facebook นี้เองแสดงให้เห็นถึงอีกก้าวสำคัญที่ช่วยลดปัญหาคอขวดของข้อมูล (data bottleneck) ได้

โดยปกติแล้ว เวลาพูดถึงการฝึก AI คุณอาจจะนึกถึงการป้อนภาพนับหลายร้อยที่ถูกคัดมาและตราเลเบลไว้ เพื่อให้ระบบประมวลผลรับรู้ถึงสิ่งที่อยู่ในภาพได้ แต่ Facebook AI ร่วมกับทีมนักวิจัยที่ Inria ได้พัฒนาวิธีใหม่ที่เรียกว่า ระบบ DINO (Distillation of knowledge with NO labels) ซึ่งเป็นการสกัดข้อมูลออกมาโดยไม่มีตราเลเบล สำหรับใช้ในการฝึก Vision Transformers (ViT) โดยไม่ต้องคอยสอน ซึ่ง Facebook เรียกวิธีการนี้ว่า “semi-supervised learning (การเรียนรู้แบบกึ่งกำกับดูแล)”

ระบบ DINO สามารถเรียนรู้หาวัตถุจุดเด่นในวิดีโอคลิปคน สัตว์ สิ่งของได้ดีโดยไม่มีข้อมูลใดถูกตราเลเบล แทนการให้ระบบวิเคราะห์ชุดภาพแบบเรียงลำดับ แต่ให้มองเป็นชุดที่เกี่ยวพันกัน เหมือนความต่างระหว่าง “ชุดคำ” กับ “ประโยค” ที่ให้ความเข้าใจต่างกัน

เมื่อ DINO เห็นวิดีโอตั้งแต่ต้นจนจบ ก็เข้าใจลักษณะวัตถุมากขึ้น ข้อมูลนั้นก็กลายมาเป็นชุดความรู้ อย่างเมื่อมีวัตถุเข้ามาซ้อนกับวัตถุแรก ระบบก็รู้ว่าเป็นวัตถุคนละอย่างกัน และความรู้นั้นก็สามารถนำไปประยุกต์กับสถานการณ์อื่นได้เช่นกัน ซึ่งนั่นหมายความว่าระบบพัฒนาการรับรู้ความหมายของภาพแบบพื้นฐานได้โดยแทบไม่ต้องมีการฝึกสอนป้อนข้อมูลเรื่องวัตถุใหม่

Animation showing four videos and the AI interpretation of the objects in them.
Image credit: Facebook via Techcrunch

ผลลัพธ์ที่ได้ไม่ใช่แค่ระบบ computer vision ที่มีประสิทธิภาพเท่านั้น แต่ยังแสดงถึงความเกี่ยวข้องเชื่อมโยงและอธิบายได้ กรณีถ้าเป็น AI ทั่วไปจะต้องได้รับข้อมูลภาพสุนัข 500 ภาพ และแมว 500 ภาพ ถึงจะแยกออกระหว่างสุนัขกับแมวได้ แต่ระบบก็ไม่ได้รู้ว่ามันมีความเหมือนอย่างไร ต่างกับระบบ DINO ที่ระบุได้ว่ามันมีความเหมือนต่างกันเพียงใด และ metadata และบริบทก็ยังคงอยู่ความจำของมัน เช่น ระบบรู้ว่าสุนัขกับแมวมีความใกล้เคียงกัน มากกว่าสุนัขกับภูเขา

Facebook หวังว่า การลดความจำเป็นในการประมวลผลด้วยวิธีการแบบ self-supervised และ semi-supervised จะช่วยเพิ่มการนำไปใช้งานและก่อให้เกิดงานวิจัยเพิ่มเติมในสาขานี้ โดยไม่ต้องใช้คนมาเขียนคำอธิบายประกอบภาพซึ่งเป็นปัญหาคอขวดในการพัฒนาระบบ computer vision นอกจากนี้การเรียนรู้โดยไม่จำเป็นต้องกำกับดูแลยังสำคัญสำหรับโดเมนที่มีภาพประกอบพร้อมคำอธิบายไม่เพียงพอ เช่น ภาพถ่ายทางการแพทย์ เป็นต้น