นักวิจัยจาก Google ได้สร้างระบบ deep learning ที่สามารถสร้างวีดีโอคลิปสั้นๆ จากภาพถ่ายนิ่งๆ จากกล้องสามมิติ หรือกล้อง VR หรือกล้องที่มี 2 เลนส์ อย่างเช่น สมาร์ทโฟนโทรศัทพ์มือถือ iPhone 7 หรือ iPhone X ได้
“ด้วยภาพ 2 ภาพและข้อมูลตัวแปรต่างๆ ของกล้อง เป้าหมายของพวกเราคือเพื่อเทรนระบบโครงข่ายประสาทเทีม deep neural net ในการใช้อนุมานการนำเสนอฉากโดยรวมที่เข้ากันสำหรับสังเคราะห์มุมมองใหม่ของภาพในฉากเดียวกัน และโดยเฉพาะการประมาณค่าที่นอกเหนือจากข้อมูล input” นักวิจัยเขียนในงานตีพิมพ์
โดยทีมนักวิจัยใช้เฟรมเวิร์ก deep learning TensorFlow ในการเทรนระบบโครงข่ายประสาทเทียมบนข้อมูลอสังหาริมทรัพย์ประมาณ 7,000 วีดีโอที่มีการโพสอยู่บน YouTube
“ระบบสังเคราะห์มุมมองของพวกเรานั้นจะขึ้นอยู่กับภาพหลายระนาบหลายๆ ภาพ (multiplane image หรือ MPI) นั้นสามารถจัดการกับทั้งฉากในร่ม (indoor) และกลางแจ้ง (outdoor)” นักวิจัยกล่าว “พวกเราสามารถประยุกต์ใช้มันได้สำเร็จกับฉากต่างๆ ที่ค่อนข้างแตกต่างจากข้อมูล dataset ที่ใช้เทรนระบบ ด้วยการเรียนรู้จากภาพ MPI นั้นมีประสิทธิภาพที่จะนำเสนอพื้นผิวที่มีบางส่วนสะท้อนแสงหรือโปร่งใสได้”
ทีมวิจัยยังกล่าวอีกว่าระบบของพวกเขาสามารถดำเนินการได้ดีกว่าวิธีการก่อนๆ หน้านี้ และมีประสิทธิภาพที่สามารถขยายภาพที่ได้จากกล้องโทรศัพท์มือถือหรือกล้องสามมิติได้ในระยะแคบๆ “พวกเราแสดงให้เห็นว่าวิธีการของพวกเราประสบความสำเร็จเหนือกว่าในเชิงตัวเลขจากการถือไปทดสอบ และยังสามารถสร้างภาพ output ออกมาได้เสถียรกว่าก่อนๆ ตั้งแต่พวกเราเริ่มมีการแชร์การนำเสนอฉากที่อนุมานขึ้นมาสำหรับสังเคราะห์ในมุมต่างๆ”
นอกจากนี้ ทีมวิจัยยังบอกว่าโมเดลของพวกเขานั้นยังไม่สมบูรณ์ แต่พวกเขาเชื่อว่าวิธีการที่สามารถนำมาใช้เพื่อคาดการณ์ข้อมูลจากภาพ input 2 ภาพและสร้างแหล่งกำเนิดแสงเพื่อทำให้มองเห็นการเคลื่อนไหวในหลายมิติได้
Source : https://news.developer.nvidia.com/google-researchers-use-ai-to-bring-still-photos-to-life/