Pix2PixHD คือการพัฒนาวิธีการ deep learning บน PyTorch สำหรับแปลงภาพให้กลายเป็นภาพเสมืองจริงได้ด้วยความละเอียดสูง (เช่น 2048×1024) ซึ่งวันนี้ NVIDIA ได้ปล่อยโค้ดออกมาบน NGC เพื่อให้ใช้งานเชิงพาณิชย์ด้วยไลเซนแบบ BSD ได้แล้ว
โดย Pix2PixHD ได้เปิดตัวมาครั้งแรกใน CVPR 2018 ซึ่งสามารถนำมาใช้แปลงภาพที่ติดป้ายตามความหมาย (semantic label maps) ให้สังเคราะห์กลายมาเป็นภาพที่เสมือนจริงได้ตามจุดความหมายที่วางไว้
“โครงข่าย Conditional GAN ได้ทำให้เกิดแอปพลิเคชันต่างๆ ที่หลากหลายมากมาย หากแต่ผลลัพธ์ยังคงจำกัดอยู่กับความละเอียดต่ำ และยังคงไกลจากคำว่าเสมือนจริง ซึ่งในงานนี้พวกเราได้สร้างภาพผลลัพธ์ที่ละเอียดถึง 2048×1024 พิกเซลด้วยค่า adversarial loss ใหม่ พร้อมกับโครงสร้างสถาปัตยกรรม multi-scale generator และ discriminator ใหม่” นักวิจัยกล่าวไว้ในงานตีพิมพ์
สำหรับ 2 ผลงานหลักๆ ของงาน Pix2PixHD นี้คือเป็นการใช้ภาพแผนที่ติดป้ายตามความหมายระดับ instance และความสามารถในการสังเคราะห์ผลลัพธ์ที่ออกมาได้อย่างหลากหลายจากการติดป้ายแบบเดียวกัน ตัวอย่างเช่น ในภาพแผนที่ติดป้ายตามความหมายนั้นมีรหัสที่แตกต่างกัน (unique ID) ไปสำหรับแต่ละวัตถุในภาพ ซึ่ง”สิ่งนี้จะสามารถจัดการกับวัตถุแต่ละอันได้อย่างยืดหยุ่น เช่น การเพิ่มลดวัตถุหรือว่าเปลี่ยนชนิดวัตถุไปได้” นักวิจัยกล่าว “ด้วยภาพแผนที่ การแยกวัตถุต่างๆ จึงทำให้เป็นงานที่ง่ายขึ้นได้”
นอกจากนี้ โครงข่ายยังสามารถสร้างผลลัพธ์ได้อย่างหลากหลายจากการส่งข้อมูลเข้ามาแบบเดียวกันได้ “สิ่งนี้ทำให้ผู้ใช้งานสามารถแก้ไขวัตถุได้ตามที่ต้องการ ซึ่งการสังเคราะห์ภาพยังสามารถขยายผลลัพธ์ที่สร้างออกมาได้หลากหลายกว่าเดิม และยังปรับแก้ไขภาพได้แบบ interactive อีกด้วยหากให้ข้อมูลคู่ input-output สำหรับเทรนที่เหมาะสม โดยไม่จำเป็นที่จะต้องบอกว่า”พื้นผิว (texture)”เป็นอย่างไร ซึ่งดูเหมือนว่าโมเดลของพวกเราจะสามารถเรียนรู้ที่พื้นผิวของวัตถุที่แตกต่างกันได้
Source : https://news.developer.nvidia.com/pix2pixhd-is-now-available-as-open-source-on-ngc/