AI จาก Google จินตนาการโลก 3 มิติจากภาพ 2 มิติได้

June 29, 2018

3dmodel — https://o.aolcdn.com/images/dims?quality=100&image_uri=https%3A%2F%2Fs.aolcdn.com%2Fhss%2Fstorage%2Fmidas%2F8a25ba0d200a54e154c7b56208039a2%2F206494018%2FImage_%2BNeuralSceneRendering_RGB_16_9.jpg&client=cbc79c14efcebee57402&signature=01323d0854e92d8eb42d593c42f881e507f9e340

เมื่อกล่าวถึงการสร้างระบบจดจำภาพ (visual recognition) สำหรับ AI แล้ว สิ่งหนึ่งที่ยากก็คือการสอนให้ระบบทำงานเหมือนสมองมนุษย์โดยไม่ต้องใช้ความพยายามใดๆ เพราะสมองมนุษย์นั้นถูกสร้างมาเพื่อให้รับรู้และแยกแยะได้อิงจากความรู้เดิม และเห็นภาพจากมุมที่ต่างออกไปหรือสร้างภาพขึ้นมาใหม่ในหัว ซึ่งทางทีมวิจัย DeepMind AI ของ Google ก็กำลังพัฒนาโครงข่ายประสาทเทียม (neural network) ที่ทำงานคล้ายสมองมนุษย์ในด้านนั้นอยู่

ปัญหาที่เจอก็คือการที่จะฝึก AI ให้สามารถอนุมานสรุปได้นั้น นักวิจัยต้องป้อนข้อมูลที่ติด label ไว้จำนวนมหาศาล และระบบโครงข่ายเองก็มักมีปัญหาในการประยุกต์ใช้สิ่งที่เรียนมาแล้ว ดังนั้น กุญแจสำคัญคือการสร้างโครงข่ายประสาทเทียมที่สามารถเข้าใจบริบทและสิ่งรอบตัวได้

จึงเป็นที่มาของ General Query Network (GQN) จาก DeepMind ซึ่งโครงข่ายนี้แตกต่างจากอันอื่นเพราะว่ามันถูกโปรแกรมให้สังเกตสิ่งรอบข้างและฝึกฝนเฉพาะข้อมูลนั้นที่ไม่ใช่ข้อมูลที่ถูกป้อนโดยนักวิจัย ดังนั้น GQN จึงเรียนรู้ที่จะเข้าใจโลกและนำสิ่งที่ได้จากการสังเกตนั้นไปประยุกต์กับฉากใหม่ที่เจอ

หลังจากที่ให้ GQN เรียนรู้จากสิ่งแวดล้อมที่ถูกควบคุมแล้ว นักวิจัยก็ลองนำไปใช้กับภาพอย่างสุ่ม ระบบก็สามารถจินตนาการฉากนั้นจากมุมที่ต่างกันออกไป และเรนเดอร์เป็นภาพสามมิติจากภาพสองมิตินั้นได้ มันยังสามารถระบุและแบ่งประเภทของวัตถุนั้นได้โดยไม่ได้รับการป้อนข้อมูล label ก่อนหน้านี้ อีกทั้งยังสามารถอนุมานได้โดยอิงจากสิ่งที่ระบบเคยเห็นมาก่อน

ผลงานวิจัยได้รับการตีพิมพ์ในวารสาร Science ซึ่งคุณสามารถอ่านเวอร์ชัน PDF ได้ ทั้งนี้ นักวิจัยหมายเหตุไว้ว่า GQN ยังมีข้อจำกัดอยู่บ้าง ระบบถูกฝึกมาเฉพาะฉากที่สังเคราะห์ขึ้น ดังนั้น จึงยังไม่แน่ชัดว่าหากนำภาพจริงๆ มาใช้ ผลที่ได้จะเป็นเช่นไร ทางนักวิจัยเชื่อว่า งานนี้ยังต้องได้รับการพัฒนาอีกมากก่อนที่จะนำไปใช้จริงได้ แต่ก็นับว่าเป็นก้าวใหญ่พอสมควรที่จะนำไปสู่การเข้าใจภาพทั้งหมดโดยอัตโนมัติของระบบ AI

Share this: