ระบบเรียนรู้ (Machine learning) มีความสามารถทำได้ทุกอย่างตราบเท่าที่มีข้อมูลสอนวิธีการให้ระบบ ซึ่งไม่ใช่เรื่องง่ายเพราะจำต้องป้อนข้อมูลมหาศาลเพื่อให้ระบบเรียนรู้และเข้าใจจนสามารถทำงานได้ดังที่เราต้องการ แต่นักวิจัยเองก็พยายามมองหาวิธีการสร้าง “common sense” ให้ AI เพื่อที่จะได้ไม่ต้องป้อนข้อมูลจำนวนมากขนาดนั้น และงานวิจัยล่าสุดจาก Facebook นี้เองแสดงให้เห็นถึงอีกก้าวสำคัญที่ช่วยลดปัญหาคอขวดของข้อมูล (data bottleneck) ได้
โดยปกติแล้ว เวลาพูดถึงการฝึก AI คุณอาจจะนึกถึงการป้อนภาพนับหลายร้อยที่ถูกคัดมาและตราเลเบลไว้ เพื่อให้ระบบประมวลผลรับรู้ถึงสิ่งที่อยู่ในภาพได้ แต่ Facebook AI ร่วมกับทีมนักวิจัยที่ Inria ได้พัฒนาวิธีใหม่ที่เรียกว่า ระบบ DINO (Distillation of knowledge with NO labels) ซึ่งเป็นการสกัดข้อมูลออกมาโดยไม่มีตราเลเบล สำหรับใช้ในการฝึก Vision Transformers (ViT) โดยไม่ต้องคอยสอน ซึ่ง Facebook เรียกวิธีการนี้ว่า “semi-supervised learning (การเรียนรู้แบบกึ่งกำกับดูแล)”
ระบบ DINO สามารถเรียนรู้หาวัตถุจุดเด่นในวิดีโอคลิปคน สัตว์ สิ่งของได้ดีโดยไม่มีข้อมูลใดถูกตราเลเบล แทนการให้ระบบวิเคราะห์ชุดภาพแบบเรียงลำดับ แต่ให้มองเป็นชุดที่เกี่ยวพันกัน เหมือนความต่างระหว่าง “ชุดคำ” กับ “ประโยค” ที่ให้ความเข้าใจต่างกัน
เมื่อ DINO เห็นวิดีโอตั้งแต่ต้นจนจบ ก็เข้าใจลักษณะวัตถุมากขึ้น ข้อมูลนั้นก็กลายมาเป็นชุดความรู้ อย่างเมื่อมีวัตถุเข้ามาซ้อนกับวัตถุแรก ระบบก็รู้ว่าเป็นวัตถุคนละอย่างกัน และความรู้นั้นก็สามารถนำไปประยุกต์กับสถานการณ์อื่นได้เช่นกัน ซึ่งนั่นหมายความว่าระบบพัฒนาการรับรู้ความหมายของภาพแบบพื้นฐานได้โดยแทบไม่ต้องมีการฝึกสอนป้อนข้อมูลเรื่องวัตถุใหม่

ผลลัพธ์ที่ได้ไม่ใช่แค่ระบบ computer vision ที่มีประสิทธิภาพเท่านั้น แต่ยังแสดงถึงความเกี่ยวข้องเชื่อมโยงและอธิบายได้ กรณีถ้าเป็น AI ทั่วไปจะต้องได้รับข้อมูลภาพสุนัข 500 ภาพ และแมว 500 ภาพ ถึงจะแยกออกระหว่างสุนัขกับแมวได้ แต่ระบบก็ไม่ได้รู้ว่ามันมีความเหมือนอย่างไร ต่างกับระบบ DINO ที่ระบุได้ว่ามันมีความเหมือนต่างกันเพียงใด และ metadata และบริบทก็ยังคงอยู่ความจำของมัน เช่น ระบบรู้ว่าสุนัขกับแมวมีความใกล้เคียงกัน มากกว่าสุนัขกับภูเขา
Facebook หวังว่า การลดความจำเป็นในการประมวลผลด้วยวิธีการแบบ self-supervised และ semi-supervised จะช่วยเพิ่มการนำไปใช้งานและก่อให้เกิดงานวิจัยเพิ่มเติมในสาขานี้ โดยไม่ต้องใช้คนมาเขียนคำอธิบายประกอบภาพซึ่งเป็นปัญหาคอขวดในการพัฒนาระบบ computer vision นอกจากนี้การเรียนรู้โดยไม่จำเป็นต้องกำกับดูแลยังสำคัญสำหรับโดเมนที่มีภาพประกอบพร้อมคำอธิบายไม่เพียงพอ เช่น ภาพถ่ายทางการแพทย์ เป็นต้น