นักวิจัยจาก NVIDIA ร่วมมือกับสถาบันการศึกษาต่างๆ ได้ร่วมกันพัฒนาระบบ deep learning ที่สามารถดำเนินการประเมินตำแหน่งวัตถุ 6D จากภาพสี 2 มิติมาตรฐานทั่วไปด้วยความแม่นยำที่ยอดเยี่ยมมากๆ
ในสายงานหุ่นยนต์ robotics นั้น แขนหุ่นยนต์ใดๆ จะต้องได้รับข้อมูลตำแหน่งและทิศทางเพื่อที่จะตรวจจับและเคลื่อนย้ายวัตถุไปในที่บริเวณใกล้เคียงได้สำเร็จให้ได้ ซึ่งสิ่งนี้จะทำให้หุ่นยนต์นั้นสามารถที่จะดำเนินการได้อย่างปลอดภัยและมีประสิทธิภาพควบคู่ไปกับมนุษย์ด้วย หากแต่การรับรู้ตำแหน่งและทิศทางของวัตถุในฉากหนึ่งนั้นบางทีจะเป็นการอ้างถึงเป็นลักษณะแบบ 6D หรือ 6 องศาเสรี (degrees of freedom)
“วิธีการของพวกเรานั้นสามารถที่จะดำเนินการได้ดีกว่าวิธีการที่เป็น state-of-the-art ในปัจจุบันอย่างมีนัยสำคัญในการประเมินตำแหน่งวัตถุ 6D โดยใช้เพียงภาพสีอย่างเดียวเท่านั้น โดยประสิทธิภาพของวิธีการเรานั้นได้ใกล้เคียงกับวิธีการที่ใช้ภาพที่มีความลึกในการระบุท่าทางอย่างละเอียด อย่างเช่นการใช้อัลกอริทึมการวนหาจุดที่ใกล้เคียงกันที่สุด (iterative closest point algorithm)” นักวิจัยกล่าวในงานตีพิมพ์
โดยทีมได้เทรนระบบของพวกเขาบนเฟรมเวิร์ก MXNet กับข้อมูลหลายพันภาพจากข้อมูล dataset LINEMOD
“สำหรับทุกๆ ภาพนั้น พวกเราสร้างท่าทางแบบสุ่ม 10 ภาพที่ใกล้เคียงกับท่าทางจริง จึงเป็นผลให้สามารถเทรนด้วยจำนวน 2,000 ตัวอย่างในแต่ละวัตถุใน dataset ได้” ทีมงานกล่าว “ยิ่งกว่านั้น พวกเราได้สังเคราะห์ภาพ 10,000 ภาพ สำหรับแต่ละวัตถุขึ้นมาโดยที่กระจายท่าทางของวัตถุที่เหมือนกับในข้อมูล dataset ลงไปด้วย ดังนั้นพวกเราจึงมีข้อมูลตัวอย่าง 12,000 ภาพในการเทรนแต่ละวัตถุในข้อมูลเทรน”
เมื่อเทรนเสร็จสิ้น ระบบโครงข่ายประสาทเทียม (Neural Network) จึงได้เรียนรู้ที่จะจับคู่ท่าทางของวัตถุต่างๆ ในภาพสี 2 มิติได้ โดยโครงข่ายนี้จะให้ผลลัพธ์ข้อมูลการเปลี่ยนรูปท่าทางที่สัมพันธ์กัน (relative post transformation) ซึ่งสามารถนำไปประยุกต์ใช้ในท่าทางเริ่มต้น ซึ่งปรับปรุงการประเมินท่าทางของวัตถุ 6D ได้
“งานนี้เป็นการเปิดทิศทางงานวิจัยไปในทางต่างๆ ในอนาคตได้ ตัวอย่างเช่น พวกเราคาดหวังว่าสักเวอร์ชันหนึ่งของ DeepIM นั้นจะสามารถปรับปรุงความแม่นยำของการประมาณท่าทางได้ อีกทั้ง DeepIM แสดงให้เห็นว่ามันเป็นไปได้ที่จะทำให้การประเมินท่าทางวัตถุ 6D โดยใช้เพียงภาพสีเท่านั้นได้ ซึ่งเป็นการทำให้เห็นการใช้กล้องหลายๆ ตัวที่จับภาพด้วยความละเอียดสูง frame rate สูง ด้วยมุมสูงนั้นจะสามารถนำมาใช้ประเมินอะไรต่างๆ ที่มีประโยชน์สำหรับแอปพลิเคชันต่างๆ อย่างเช่น การควบคุมหุ่นยนต์ เป็นต้น”
โดยทีมงานนักวิจัยนั้นมาจากมหาวิทยาลัยชิงหวา (Tsinghua University) มหาวิทยาลัยวอชิงตัน (University of Washington) และ NVIDIA
Source : https://news.developer.nvidia.com/estimating-6d-pose-from-regular-2d-images-with-ai/