ในอีกไม่กี่วันข้างนี้การแข่งขันฟุตบอล FIFA World Cup ก็จะเริ่มขึ้น คุณเคยสงสัยบ้างไหมว่ามันจะเป็นอย่างไรในการที่จะทำให้คริสเตียโน่ โรนัลโด้หรือลิโอเนล เมสซี่หรือเนย์มาร์เล่นฟุตบอลให้ดูบนโต๊ะทานข้าว? ด้วยเหตุนี้ ทีมนักวิจัยจากมหาวิทยาลัยวอชิงตัน (University of Washington) Facebook และ Google ร่วมมือกันสร้างระบบ deep learning แบบ end-to-end ตัวแรกที่สามารถแปลข้อมูลวีดีโอบน YouTube มาตรฐานทั่วไปของเกมการแข่งขันฟุตบอลให้กลายเป็นการภาพเคลื่อนไหวโฮโลแกรม 3 มิติได้
“สิ่งนี้มีความท้าทายอยู่หลากหลายในการสร้างเกมฟุตบอลขึ้นมาใหม่ด้วยข้อมูลเสมือนการเห็นเพียงมุมเดียว พวกเราต้องประมาณการตำแหน่งทิศทางของกล้องที่สอดคล้องกับสนาม ตรวจจับและติดตามผู้เล่นแต่ละคัน แล้วสร้างรูปร่าง ร่างกาย ท่าทางของพวกเขาขึ้นมาใหม่ และ render สิ่งที่สร้างใหม่นั้นรวมเข้าด้วยกัน” นักวิจัยเขียนไว้ในงานตีพิมพ์
ผลลัพธ์ที่ออกมานั้นก็เป็นที่น่าประทับใจ โดยเกมการแข่งขันสามารถรับชมผ่านอุปกรณ์ดูภาพ 3 มิติหรือผ่านอุปกรณ์ AR ใดๆ ก็ได้ในโลก
โดยทีมวิจัยได้ใช้เฟรมเวิร์ก deep learning PyTorch เพื่อเทรนโครงข่ายประสาทเทียม Convolutional Neural Network บนข้อมูล 3 มิติของผู้เล่นต่างๆ ที่คัดแยกออกมาจากวีดีโอเกมการแข่งขันฟุตบอล FIFA เป็นเวลาหลายชั่วโมง ซึ่งผลจากข้อมูลเกมการแข่งขันดังกล่าว โครงข่ายประสาทเทียมนั้นสามารถที่จะสร้างข้อมูลผู้เล่นแต่ละคนขึ้นมาใหม่ในลักษณะภาพแผนที่ความลึก (depth map) ที่สามารถแสดงความลึกของวัตถุได้ลงไปในสนามการแข่งขัน ซึ่งพวกเขาสามารถ render ข้อมูลเหล่านี้บนอุปกรณ์ดูภาพ 3 มิติหรืออุปกรณ์ AR ได้
“มันแสดงให้เห็นว่าในขณะเล่นเกม FIFA และดักสกัดข้อมูลระหว่างการเรียกใช้ระบบเกม (game engine) และ GPU นั้น มันเป็นไปได้ที่จะแกะข้อมูลภาพ depth map จากเฟรมในวีดีโอเกม หากกล่าวโดยเจาะจงก็คือพวกเราใช้ RenderDoc เพื่อที่จะดักข้อมูลที่เรียกระหว่างการเรียกใช้ game engine และ GPU” ทีมวิจัยกล่าว “เกม FIFA ซึ่งเกมอื่นๆ ก็มีความคล้ายคลึงกันในการใช้วิธีการแรเงาแบบยืดเวลา (deferred shading) ระหว่างการเล่นเกม ซึ่งการเข้าถึง GPU ได้นั้นจึงสามารถทำให้บันทึกข้อมูลความลึกและสีสำหรับแต่ละเฟรมได้ และเมื่อบันทึกข้อมูลความลึกและสีได้ พวกเราก็สามารถที่จะแกะข้อมูลผู้เล่นได้”
เพื่อที่จะตรวจสอบระบบ ทีมวิจัยได้ทดสอบวิธีการของพวกเขาบนข้อมูลเกมการแข่งขันฟุตบอลที่ความละเอียดสูง (high resolution) 10 วีดีโอที่ค้นพบได้ใน YouTube ซึ่งมันคุ้มค่าที่จะบันทึกไว้ว่าระบบนั้นถูกเทรนบนข้อมูลสังเคราะห์จากวีดีโอเกมเท่านั้น ซึ่งผลจากการใช้งานใน scenario โลกความเป็นจริงแล้ว ระบบก็สามารถที่จะส่งมอบผลลัพธ์อันเป็นที่น่าพอใจและคุ้มค่า
อย่างไรก็ดี นักวิจัยได้ยอมรับว่าระบบนั้นยังไม่สมบูรณ์ โดยหนึ่งในโครงการถัดไปนั้นจะมุ่งเน้นไปในเรื่องการเทรนระบบเพื่อตรวจจับลูกฟุตบอลให้ได้ผลลัพธ์ที่ดียิ่งขึ้น เช่นเดียวกับการพัฒนาระบบที่สามารถรับชมได้จากมุมมองใดก็ได้ ซึ่งงานวิจัยนี้จะได้ถูกนำเสนอในสัมมนาวิชาการ Computer Vision and Pattern Recognition (CVPR) ในวันที่ 18-22 มิถุนายน พ.ศ.2561 นี้ที่ Salt Lake City เมือง Utah สหรัฐอเมริกา
Source : https://news.developer.nvidia.com/ai-transforms-recorded-soccer-games-into-3d-holograms/