เมื่อกล่าวถึงการสร้างระบบจดจำภาพ (visual recognition) สำหรับ AI แล้ว สิ่งหนึ่งที่ยากก็คือการสอนให้ระบบทำงานเหมือนสมองมนุษย์โดยไม่ต้องใช้ความพยายามใดๆ เพราะสมองมนุษย์นั้นถูกสร้างมาเพื่อให้รับรู้และแยกแยะได้อิงจากความรู้เดิม และเห็นภาพจากมุมที่ต่างออกไปหรือสร้างภาพขึ้นมาใหม่ในหัว ซึ่งทางทีมวิจัย DeepMind AI ของ Google ก็กำลังพัฒนาโครงข่ายประสาทเทียม (neural network) ที่ทำงานคล้ายสมองมนุษย์ในด้านนั้นอยู่
ปัญหาที่เจอก็คือการที่จะฝึก AI ให้สามารถอนุมานสรุปได้นั้น นักวิจัยต้องป้อนข้อมูลที่ติด label ไว้จำนวนมหาศาล และระบบโครงข่ายเองก็มักมีปัญหาในการประยุกต์ใช้สิ่งที่เรียนมาแล้ว ดังนั้น กุญแจสำคัญคือการสร้างโครงข่ายประสาทเทียมที่สามารถเข้าใจบริบทและสิ่งรอบตัวได้
จึงเป็นที่มาของ General Query Network (GQN) จาก DeepMind ซึ่งโครงข่ายนี้แตกต่างจากอันอื่นเพราะว่ามันถูกโปรแกรมให้สังเกตสิ่งรอบข้างและฝึกฝนเฉพาะข้อมูลนั้นที่ไม่ใช่ข้อมูลที่ถูกป้อนโดยนักวิจัย ดังนั้น GQN จึงเรียนรู้ที่จะเข้าใจโลกและนำสิ่งที่ได้จากการสังเกตนั้นไปประยุกต์กับฉากใหม่ที่เจอ
หลังจากที่ให้ GQN เรียนรู้จากสิ่งแวดล้อมที่ถูกควบคุมแล้ว นักวิจัยก็ลองนำไปใช้กับภาพอย่างสุ่ม ระบบก็สามารถจินตนาการฉากนั้นจากมุมที่ต่างกันออกไป และเรนเดอร์เป็นภาพสามมิติจากภาพสองมิตินั้นได้ มันยังสามารถระบุและแบ่งประเภทของวัตถุนั้นได้โดยไม่ได้รับการป้อนข้อมูล label ก่อนหน้านี้ อีกทั้งยังสามารถอนุมานได้โดยอิงจากสิ่งที่ระบบเคยเห็นมาก่อน
ผลงานวิจัยได้รับการตีพิมพ์ในวารสาร Science ซึ่งคุณสามารถอ่านเวอร์ชัน PDF ได้ ทั้งนี้ นักวิจัยหมายเหตุไว้ว่า GQN ยังมีข้อจำกัดอยู่บ้าง ระบบถูกฝึกมาเฉพาะฉากที่สังเคราะห์ขึ้น ดังนั้น จึงยังไม่แน่ชัดว่าหากนำภาพจริงๆ มาใช้ ผลที่ได้จะเป็นเช่นไร ทางนักวิจัยเชื่อว่า งานนี้ยังต้องได้รับการพัฒนาอีกมากก่อนที่จะนำไปใช้จริงได้ แต่ก็นับว่าเป็นก้าวใหญ่พอสมควรที่จะนำไปสู่การเข้าใจภาพทั้งหมดโดยอัตโนมัติของระบบ AI