ในงานด้าน computer vision การสร้างภาพจากลิสต์ของข้อความยาวๆ นั้นเป็นสิ่งที่ซับซ้อนมากๆ ดังนั้น เพื่อที่จะเร่งความก้าวหน้าในงานวิจัยด้านนี้ ทีมวิจัยจากมหาวิทยาลัย Tel Aviv University ในประเทศอิสราเอลจึงได้สร้างระบบ deep learning ที่สามารถสังเคราะห์ภาพของอาหารที่จะเสร็จออกมาจากข้อความสูตร recipe แบบง่ายๆ ได้
“พวกเรานำเสนองานแบบใหม่ในการสังเคราะห์ภาพจากข้อความยาวๆ ได้ โดยสิ่งนี้เกี่ยวข้องกับภาพแต่ไม่ได้มีอะไรที่เป็นรายละเอียดเกี่ยวกับการแสดงผลแต่อย่างใด” นักวิจัยกล่าวไว้ในงานตีพิมพ์
โดยทีมวิจัยได้เทรนโครงข่าย Conditional Generative Adversarial Network บนเฟรมเวิร์ก PyTorch จากข้อมูลสูตรที่เขียนไว้กับภาพของอาหารที่จะออกมาของสูตรนั้นๆ ซึ่งเมื่อเทรนได้เสร็จสิ้น ระบบจึงสามารถสังเคราะห์ภาพอาหารที่สูตรนั้นๆ ที่น่าจะออกมาได้จากลิสต์ของข้อความยาวๆ โดยที่ไม่ได้มีการอธิบายถึงรูปร่างหน้าตาแต่อย่างใดได้
“ระบบของพวกเราได้นำเอาสูตรเข้าไปเป็น input แล้วจากนั้นจึงสร้างภาพขึ้นมาใหม่จากตั้งแต่เริ่มต้น โดยภาพนั้นจะแสดงให้เห็นถึงตัวอาหารที่ระบบ ‘เชื่อ’ ว่าสูตรนั้นได้อธิบายไว้” คุณ Ori Bar El ผู้เขียนร่วมของงานตีพิมพ์นี้กล่าว “มุมมองที่สำคัญคือระบบนี้ไม่ได้มีการเข้าถึง title ของสูตรที่ซึ่งจะทำให้งานนี้ง่ายไปเลย อีกทั้งข้อความของสูตรนั้นๆ ก็ทั้งยาวและไม่ได้อธิบายถึงรูปร่างหน้าตาของภาพที่จะออกมาโดยตรง จึงทำให้งานนี้ยากถึงแม้ว่าจะเป็นมนุษย์มาทำก็ตาม ซึ่งก็ยากกว่าเดิมอีกสำหรับระบบคอมพิวเตอร์”
เพื่อที่จะวัดผลภาพของวิธีการที่ระบบได้สังเคราะห์ขึ้นมา ทีมงานจึงได้ขอแรงการตัดสินจากนักวิจารณ์เพื่อที่จะตัดสินหน้าตาอาหารจากภาพที่ดูน่าสนใจมากที่สุดในสเกล 1-5 ซึ่งนักวิจัยก็บอกว่าบางภาพอาหารจริงๆ นั้นก็ยังมีที่ได้คะแนนน้อยกว่าหรือเทียบเท่ากับภาพที่สังเคราะห์ขึ้นมาเลยทีเดียว
ตัวระบบนั้นสามารถที่จะสร้างภาพอาหารที่คล้ายๆ กับข้าวต้ม รวมไปถึงพาสต้า ข้าว ซุป และสลัดได้ แต่ยังคงต้องปรับปรุงในการสร้างภาพที่มีรูปร่างที่โดดเด่นเฉพาะ เช่น แฮมเบอร์เกอร์ ไก่ และน้ำ โดยงานนี้ได้ตีพิมพ์ไว้ใน ArXiv แล้ว