นักวิจัย NVIDIA สร้างเฟรมเวิร์ก GAN ที่ใช้สังเคราะห์ภาพได้อย่าง interactive

0
https://news.developer.nvidia.com/wp-content/uploads/2018/06/Image_synthesys.jpg

นักวิจัยจาก NVIDIA นำโดยคุณ Ting-Chun Wang ได้พัฒนาระบบ deep learning ใหม่ ที่สามารถสร้างภาพเหมือนจริง (photorealistic image) จากการติดป้ายระดับสูง และในเวลาเดียวกันสามารถที่จะสร้าง virtual environment ที่ทำให้ผู้ใช้สามารถแก้ไขภาพฉาก (scene) ได้อย่าง interactive อีกด้วย

วิธีการดังกล่าวได้เทรนโครงข่าย Generative Adversarial Network (GAN) แบบมีเงื่อนไข (conditional) ซึ่งได้มีศักยภาพที่จะปฏิวัติวิธีการแสดงผลภาพ visual ต่างๆ รวมถึงงานในด้านการแพทย์ medical imaging อีกด้วย

“Conditional GAN ได้เปิดโลกให้กับแอปพลิเคชันต่างๆ ได้อย่างหลากหลาย หากแต่ผลลัพธ์ที่ได้บ่อยครั้งจะยังมีข้อจำกัดอยู่ที่ความละเอียดขนาดต่ำและยังคงห่างไกลจากความจริง โดยในงานนี้ พวกเราได้สร้างภาพความละเอียด 2048×1024 ที่เป็นผลลัพธ์ที่ดูน่าดึงดูดใจอยู่ โดยใช้ adversarial loss แบบที่ไม่เคยมีมาก่อน ร่วมกับการใช้สถาปัตยกรรมของโครงข่าย generator model และ discriminator model แบบ multi-scale แบบใหม่” ทีมวิจัยกล่าวไว้ในงานตีพิมพ์ของพวกเขา

โดยทีมวิจัยใช้เฟรมเวิร์ก PyTorch เพื่อเทรนโครงข่ายประสาทเทียมด้วยข้อมูล dataset ต่างๆ ซึ่งประกอบไปด้วยภาพจำนวนหลายพันภาพ ซึ่งโครงข่ายนั้นจะอิงกับระบบ pix2pix ซึ่งเป็นเฟรมเวิร์กของ Conditional GAN สำหรับการแปลงภาพต่อภาพขึ้นมา

ตามที่แสดงในวีดีโอนั้น นักวิจัยได้จำลองให้เห็นวิธีการของพวกเขาโดยการแสดงให้เห็นว่าโครงข่ายประสาทเทียมของพวกเขาสามารถดำเนินการได้เมื่อผู้ใช้ต้องการที่จะแก้ไขส่วนหนึ่งของฉากบนถนน European และใบหน้าของคน โดยอัลกอริทึมที่ใช้ในการทำให้ interactive นั้นสามารถแก้ไขส่วนต่างๆ บนใบหน้าได้อย่างรวดเร็ว อย่างเช่น ขนาดของตา สีผิว เพิ่มหรือลดหนวดบนใบหน้า และอื่นๆ ส่วนฉากบนถนนนั้นก็สามารถที่จะปรับสีของรถ ขนาด และตำแหน่งบนถนนได้

ในงานวิจัยนี้จะมี 2 contribution หลักอยู่ด้วยกัน คือการใช้งานของตัว map ที่ติดป้ายระดับความหมายของแต่ละ instance และความสามารถในการสร้างผลลัพธ์ที่หลากหลายเมื่อให้ข้อมูล input แบบเดียวกัน โดยตัวอย่างของ map ที่ติดป้ายระดับความหมายของแต่ละ instance นั้นก็เช่น การมี unique ID สำหรับแต่ละวัตถุในภาพหนึ่งๆ ได้ เป็นต้น “สิ่งนี้ทำให้สามารถควบคุมวัตถุต่างๆ ได้อย่างยืดหยุ่น เช่น การเพิ่มหรือลบวัตถุนั้นๆ ไป และการเปลี่ยนแปลงชนิดของวัตถุ” ทีมวิจัยกล่าว

นอกจากนี้ โครงข่ายประสาทเทียมยังสามารถสร้างผลลัพธ์ได้อย่างหลากหลายเมื่อได้ข้อมูล map ที่ติดป้ายมาแบบเดียวกัน “สิ่งนี้ทำให้ผู้ใช้งานสามารถแก้ไขวัตถุต่างๆ ได้อย่าง interactive ทันทีทันใด เนื่องจากการที่สามารถสังเคราะห์แบบภาพต่อภาพเป็น pipeline ที่สามารถขยายได้ จึงสร้างผลลัพธ์ที่หลากหลายขึ้นมาได้โดยที่ไม่ต้องบอกเลยว่า “texture” เป็นอย่างไร โดยโมเดลของพวกเราเรียนรู้ที่จะปรับสไตล์ของวัตถุที่แตกต่างกันขึ้นมาซึ่งอาจจะทำให้สร้าง dataset อื่นๆ ขึ้นมาได้เช่นกัน”

นักวิจัยยังกล่าวอีกว่าวิธีการของพวกเขานั้นมีศักยภาพที่จะใช้ในแอปพลิเคชันต่างๆ ที่ต้องการภาพที่มีความละเอียดสูงเช่นกัน แต่ตอนนี้ยังขาดโมเดลที่ pre-train อยู่ “พวกเราเชื่อว่างานนี้จะสามารถนำไปประยุกต์ใช้ในงานการสังเคราะห์ภาพขึ้นมาได้อย่างกว้าง และสามารถนำไปประยุกต์ใช้กับงานวิจัยอื่นๆ ที่เกี่ยวข้องได้ รวมทั้งงานด้าน medical imaging และ biology”

Source : https://news.developer.nvidia.com/generating-and-editing-high-resolution-synthetic-images-with-gans/