DeepMind บริษัทของ Google ได้เปิดเผยอัลกอริทึมแบบใหม่ในด้าน computer vision ที่สามารถสร้างโมเดล 3 มิติจากฉาก scene snapshot 2 มิติหลายๆ ภาพได้ โดยมีชื่อเรียกวิธีดังกล่าวนี้ว่าโครงข่าย Generative Query Network หรือ GQN
สำหรับรายละเอียดของโครงข่าย GQN นั้นได้ถูกนำไปตีพิมพ์ที่วารสาร Science ซึ่งมีความสามารถในการ “จินตนาการ” และเรนเดอร์ฉากจากมุมมองใดก็ได้โดยที่ไม่ต้องมีมนุษย์มาดูแลหรือว่าเทรนแต่อย่างใด โดยให้ข้อมูล input เป็นเพียงแค่ภาพจำนวนหนึ่งของฉากนั้นๆ ก็พอ เช่น ภาพห้องหนึ่งที่ติดวอลล์เปเปอร์และมีวัตถุทรงกลมสีอยู่บนพื้น เป็นต้น ซึ่งวิธีอัลกอริทึมนั้นจะสามารถเรนเดอร์ส่วนตรงข้ามหรือส่วนที่มองไม่เห็น และสร้างมุมมอง 3 มิติจากภาพมุมกว้างหลายๆ ภาพขึ้นมา รวมไปถึงส่วนอื่นๆ อย่างเช่น การส่องสว่างในเงามืด ก็ยังสามารถเรนเดอร์ได้ด้วยเช่นกัน
วิธีการนี้มุ่งหวังที่จะเลียนแบบวิธีการที่สมองของมนุษย์เรียนรู้จากสิ่งที่อยู่รอบข้าง และการปฏิสัมพันธ์ทางกายภาพ (physical) ระหว่างวัตถุ และกำจัดความต้องการสำหรับนักวิจัยในด้าน AI ที่จะต้องมีการติดป้ายอธิบาย (annotate) ลงไปในทุกๆ ภาพในฐานข้อมูล dataset ซึ่งระบบการรู้จำภาพโดยส่วนใหญ่นั้นจะต้องการแรงงานมนุษย์ที่จะต้องติดป้าย (label) ในทุกๆ มุมมองของทุกๆ วัตถุภายในแต่ละฉากในข้อมูล dataset ซึ่งเป็นงานที่ต้องใช้แรงงานมหาศาลและซึ่งถือว่าเป็นกระบวนการที่ใช้ cost สูงมาก
“คล้ายๆ กับเด็กทารกและสัตว์ต่างๆ โดยโมเดล GQN เรียนรู้โดยการพยายามที่จะสร้างสิ่งที่สมเหตุสมผลจากการสังเกตภายในโลกรอบข้าง” นักวิจัย DeepMind เขียนในบล็อคโพส “ในการทำเช่นนั้น โมเดล GQN เรียนรู้เกี่ยวกับฉากที่น่าเชื่อถือและคุณลักษณะทางเรขาคณิต(geometrical properties) ของฉากนั้นๆ โดยไม่ต้องมีมนุษย์มา label อธิบายเนื้อหาภายในฉากนั้นๆ แต่อย่างใด”
โดยระบบจะมี 2 ส่วนโครงข่ายที่ถูกสร้างขึ้นมา คือโครงข่าย representation network และโครงข่าย generation network ซึ่งโครงข่าย representation network จะรับข้อมูล input เข้าไปเพื่อแปลงให้ข้อมูลอยู่ในรูปแบบเชิงคณิตศาสตร์หรือเป็นเวกเตอร์ (vector) เพื่ออธิบายถึงฉากนั้นๆ แล้วโครงข่าย generation network จะมโนภาพถึงฉากนั้นๆ ขึ้นมา
ในการเทรนระบบนั้น นักวิจัย DeepMind ให้ข้อมูลภาพฉากต่างๆ กับ GQN ในมุมมองที่ต่างกัน ซึ่งใช้เพื่อสอนตัวเองเกี่ยวกับพื้นผิว (texture) สี (color) และสภาพแสงของวัตถุต่างๆ ซึ่งเป็นอิสระต่อกัน และข้อมูลความสัมพันธ์ของตำแหน่งระหว่างวัตถุ จากนั้นโมเดลก็จะทำนายว่าวัตถุต่างๆ น่าจะอยู่แถวๆ ด้านข้างหรือว่าด้านหลัง
ด้วยการใช้ความเข้าใจเกี่ยวกับตำแหน่ง (spatial understanding) โมเดล GQN จึงมีโอกาสที่จะควบคุมวัตถุต่างๆ อย่างเช่น แขนหุ่นยนต์เสมือนเพื่อหยิบลูกบอลขึ้นมา เป็นต้น และการแก้ไขตัวเองได้ (self-correct) เวลาที่โมเดลมีการเคลื่อนไหวภายในฉากที่สร้างขึ้นมานั้นสามารถปรับปรุงการทำนายที่เกิดขึ้นเมื่อพิสูจน์แล้วว่าสิ่งที่สร้างขึ้นนั้นไม่ถูกต้อง
โมเดล GQN นั้นไม่ใช่ไม่มีข้อจำกัด โดย GQN นั้นเพิ่งนำไปทดสอบบนฉากง่ายๆ ที่มีจำนวนวัตถุน้อยๆ อยู่เท่านั้น ซึ่งคงยังไม่ได้มีความสามารถเพียงพอที่จะสร้างโมเดล 3 มิติที่มีความซับซ้อนได้ หากแต่ DeepMind กำลังพัฒนาเพิ่มเติมเพื่อให้ระบบนั้นมีความทนทาน (robust) มากขึ้น และใช้พลังในการประมวลผลที่น้อยลง ใช้คลัง corpus ที่เล็กลง อีกทั้งเรื่องพัฒนาเรื่องของเฟรมเวิร์กให้สามารถประมวลผลภาพที่มีความละเอียดสูงได้
“ก่อนที่วิธีการของพวกเราจะพร้อมในการใช้งานได้จริง คงจะมีงานวิจัยอีกจำนวนมากที่สามารถดำเนินการได้สำเร็จ หากแต่พวกเราเชื่อว่างานวิจัยนี้เป็นความก้าวหน้าก้าวใหญ่มากในการทำเรื่องการเข้าใจฉาก (scene understanding) ซึ่งเป็นการทำแบบ fully automate ทั้งหมด” นักวิจัยเขียน