Google DeepMind สร้างระบบ AI ที่สามารถเรนเดอร์วัตถุ 3 มิติจากภาพ 2 มิติ

0
https://venturebeat.com/wp-content/uploads/2018/06/deepmind_gnq.png?fit=578%2C325&strip=all

DeepMind บริษัทของ Google ได้เปิดเผยอัลกอริทึมแบบใหม่ในด้าน computer vision ที่สามารถสร้างโมเดล 3 มิติจากฉาก scene snapshot 2 มิติหลายๆ ภาพได้ โดยมีชื่อเรียกวิธีดังกล่าวนี้ว่าโครงข่าย Generative Query Network หรือ GQN

สำหรับรายละเอียดของโครงข่าย GQN นั้นได้ถูกนำไปตีพิมพ์ที่วารสาร Science ซึ่งมีความสามารถในการ “จินตนาการ” และเรนเดอร์ฉากจากมุมมองใดก็ได้โดยที่ไม่ต้องมีมนุษย์มาดูแลหรือว่าเทรนแต่อย่างใด โดยให้ข้อมูล input เป็นเพียงแค่ภาพจำนวนหนึ่งของฉากนั้นๆ ก็พอ เช่น ภาพห้องหนึ่งที่ติดวอลล์เปเปอร์และมีวัตถุทรงกลมสีอยู่บนพื้น เป็นต้น ซึ่งวิธีอัลกอริทึมนั้นจะสามารถเรนเดอร์ส่วนตรงข้ามหรือส่วนที่มองไม่เห็น และสร้างมุมมอง 3 มิติจากภาพมุมกว้างหลายๆ ภาพขึ้นมา รวมไปถึงส่วนอื่นๆ อย่างเช่น การส่องสว่างในเงามืด ก็ยังสามารถเรนเดอร์ได้ด้วยเช่นกัน

วิธีการนี้มุ่งหวังที่จะเลียนแบบวิธีการที่สมองของมนุษย์เรียนรู้จากสิ่งที่อยู่รอบข้าง และการปฏิสัมพันธ์ทางกายภาพ (physical) ระหว่างวัตถุ และกำจัดความต้องการสำหรับนักวิจัยในด้าน AI ที่จะต้องมีการติดป้ายอธิบาย (annotate) ลงไปในทุกๆ ภาพในฐานข้อมูล dataset ซึ่งระบบการรู้จำภาพโดยส่วนใหญ่นั้นจะต้องการแรงงานมนุษย์ที่จะต้องติดป้าย (label) ในทุกๆ มุมมองของทุกๆ วัตถุภายในแต่ละฉากในข้อมูล dataset ซึ่งเป็นงานที่ต้องใช้แรงงานมหาศาลและซึ่งถือว่าเป็นกระบวนการที่ใช้ cost สูงมาก

DeepMind GNQ
โมเดล GQN กำลังจินตนาการภาพวงกตนี้จากภาพนิ่งหลายๆ ภาพ

 

“คล้ายๆ กับเด็กทารกและสัตว์ต่างๆ โดยโมเดล GQN เรียนรู้โดยการพยายามที่จะสร้างสิ่งที่สมเหตุสมผลจากการสังเกตภายในโลกรอบข้าง” นักวิจัย DeepMind เขียนในบล็อคโพส “ในการทำเช่นนั้น โมเดล GQN เรียนรู้เกี่ยวกับฉากที่น่าเชื่อถือและคุณลักษณะทางเรขาคณิต(geometrical properties) ของฉากนั้นๆ โดยไม่ต้องมีมนุษย์มา label อธิบายเนื้อหาภายในฉากนั้นๆ แต่อย่างใด”

โดยระบบจะมี 2 ส่วนโครงข่ายที่ถูกสร้างขึ้นมา คือโครงข่าย representation network และโครงข่าย generation network ซึ่งโครงข่าย representation network จะรับข้อมูล input เข้าไปเพื่อแปลงให้ข้อมูลอยู่ในรูปแบบเชิงคณิตศาสตร์หรือเป็นเวกเตอร์ (vector) เพื่ออธิบายถึงฉากนั้นๆ แล้วโครงข่าย generation network จะมโนภาพถึงฉากนั้นๆ ขึ้นมา

DeepMind GNQ
โมเดล GQN สร้างวัตถุเสมือนที่เคลื่อนไหวได้ จากตัวอย่างข้อมูล 2 มิติ

 

ในการเทรนระบบนั้น นักวิจัย DeepMind ให้ข้อมูลภาพฉากต่างๆ กับ GQN ในมุมมองที่ต่างกัน ซึ่งใช้เพื่อสอนตัวเองเกี่ยวกับพื้นผิว (texture) สี (color) และสภาพแสงของวัตถุต่างๆ ซึ่งเป็นอิสระต่อกัน และข้อมูลความสัมพันธ์ของตำแหน่งระหว่างวัตถุ จากนั้นโมเดลก็จะทำนายว่าวัตถุต่างๆ น่าจะอยู่แถวๆ ด้านข้างหรือว่าด้านหลัง

ด้วยการใช้ความเข้าใจเกี่ยวกับตำแหน่ง (spatial understanding) โมเดล GQN จึงมีโอกาสที่จะควบคุมวัตถุต่างๆ อย่างเช่น แขนหุ่นยนต์เสมือนเพื่อหยิบลูกบอลขึ้นมา เป็นต้น และการแก้ไขตัวเองได้ (self-correct) เวลาที่โมเดลมีการเคลื่อนไหวภายในฉากที่สร้างขึ้นมานั้นสามารถปรับปรุงการทำนายที่เกิดขึ้นเมื่อพิสูจน์แล้วว่าสิ่งที่สร้างขึ้นนั้นไม่ถูกต้อง

DeepMind GNQ
วงกต 3 มิติอีกอันหนึ่งที่สร้างขึ้นมาจากโมเดล GQN

 

โมเดล GQN นั้นไม่ใช่ไม่มีข้อจำกัด โดย GQN นั้นเพิ่งนำไปทดสอบบนฉากง่ายๆ ที่มีจำนวนวัตถุน้อยๆ อยู่เท่านั้น ซึ่งคงยังไม่ได้มีความสามารถเพียงพอที่จะสร้างโมเดล 3 มิติที่มีความซับซ้อนได้ หากแต่ DeepMind กำลังพัฒนาเพิ่มเติมเพื่อให้ระบบนั้นมีความทนทาน (robust) มากขึ้น และใช้พลังในการประมวลผลที่น้อยลง ใช้คลัง corpus ที่เล็กลง อีกทั้งเรื่องพัฒนาเรื่องของเฟรมเวิร์กให้สามารถประมวลผลภาพที่มีความละเอียดสูงได้

“ก่อนที่วิธีการของพวกเราจะพร้อมในการใช้งานได้จริง คงจะมีงานวิจัยอีกจำนวนมากที่สามารถดำเนินการได้สำเร็จ หากแต่พวกเราเชื่อว่างานวิจัยนี้เป็นความก้าวหน้าก้าวใหญ่มากในการทำเรื่องการเข้าใจฉาก (scene understanding) ซึ่งเป็นการทำแบบ fully automate ทั้งหมด” นักวิจัยเขียน

Source : https://venturebeat.com/2018/06/14/googles-deepmind-develops-ai-that-can-render-3d-objects-from-2d-pictures/