DALL-E 2 จาก OpenAI สร้างรูปภาพตามข้อความที่ระบุ และ “ปรับแต่ง” ได้

April 8, 2022

https://cdn.vox-cdn.com/thumbor/w1c-DUWWdH1RS4jMNppzB3TqaNY=/0x0:1024x1024/920x613/filters:focal(438x673:600x835):format(webp)/cdn.vox-cdn.com/uploads/chorus_image/image/70716637/DALL_E_Teddy_bears_mixing_sparkling_chemicals_as_mad_scientists__steampunk.0.png — DALL-E 2 results for “Teddy bears mixing sparkling chemicals as mad scientists, steampunk.” OpenAI

OpenAI กลุ่มนักวิจัยด้าน AI ได้สร้างเวอร์ชันใหม่ของ DALL-E โปรแกรมสร้างรูปภาพตามข้อความที่ระบุ (Text-To-Image Generation) ซึ่ง DALL-E 2 สามารถสร้างภาพที่มีความละเอียดที่สูงกว่า และ Latency ที่ต่ำกว่าเดิม ทำให้สามารถสร้างรูปภาพตามคำอธิบายได้อย่างรวดเร็วที่มาพร้อมกับความสามารถใหม่ นั่นคือการ “ปรับแต่ง (Edit)” ภาพได้

ทั้งนี้ DALL-E ทั้งสองเวอร์ชันจะไม่ได้มีการปล่อยออกมาสู่สาธารณะเพื่อให้ใช้งานแต่อย่างใด โดยหากใครที่เป็นนักวิจัยต้องการทดสอบพรีวิวระบบดังกล่าวสามารถสมัคร Sign up เข้าไปลองใช้งานได้ ทั้งนี้ OpenAI หวังว่าจะสามารถทำให้ระบบดังกล่าวสามารถใช้ในแอป 3rd Party ต่าง ๆ ได้ในอนาคต

DALL-E ได้เปิดตัวออกมาตั้งแต่มกราคมปี 2021 โดยมีการปล่อยฟีเจอร์อย่างจำกัดออกมาให้ทดสอบที่ดูน่าสนใจในหลักการความสามารถของระบบ AI ในเรื่องการแสดงผลภาพจากข้อความ ซึ่ง ณ เวลานั้น OpenAI กล่าวว่าสิ่งนี้อาจจะทำให้เกิดระบบที่สร้างอันตรายต่าง ๆ เกิดขึ้นมาได้อย่างมหาศาล เช่น เรื่อง ไบแอส (Bias) หรือว่าการสร้างรูปภาพที่ให้ข้อมูลผิด ๆ หรือไม่ได้เป็นภาพจริงขึ้นมาแล้วทำให้เกิดความเข้าใจที่คลาดเคลื่อนเป็นต้น ซึ่ง OpenAI ก็กำลังพยายามแก้ไขปัญหาต่าง ๆ เหล่านั้นด้วยการใช้ระบบป้องกันทางเทคนิค และนโยบายใหม่เกี่ยวกับข้อมูล ในขณะที่ยังพัฒนาลดภาระในประมวลผลและพัฒนาความสามารถใหม่ ๆ ของโมเดลไปพร้อมกัน

ตัวอย่างภาพ “สุนัขชิบะสวมหมวกเบเร่ต์และเสื้อคอเต่าสีดำ (Shiba Inu dog wearing a beret and black turtleneck)” ที่ DALL-E 2 สร้างขึ้นมา

หนึ่งในฟีเจอร์ใหม่ของ DALL-E 2 นั่นคือความสามารถในการสร้างรูปภาพจากข้อความในระดับที่ “ละเอียด” มากขึ้นกว่าเดิม โดยผู้ใช้สามารถใช้ภาพที่มีอยู่ เลือกพื้นที่ที่ต้องการใส่บางอย่างลงไป แล้วก็บอกโมเดลได้เลยเพื่อปรับแต่งภาพเพิ่มเติม เช่น อยากจะเปลี่ยนภาพที่แขวนไว้ในห้องนั่งเล่นแล้วเปลี่ยนเป็นภาพอื่นแทน หรือว่าเพิ่มดอกไม้เข้าไปวางไว้บนโต๊ะกาแฟ เป็นต้น ซึ่งจะเห็นได้ว่าโมเดลสามารถใส่หรือลบ Object ได้ในขณะที่ยังสามารถเก็บรายละเอียดอื่น ๆ อย่างเช่นทิศทางของแสงเงาในห้องได้ด้วย

ตัวอย่างการปรับภาพเดิมของห้องหนึ่งด้วยการใส่นกฟลามิงโกเข้าไปในมุมห้อง ซึ่งจะเห็นได้ว่า AI ใส่เงาได้ถูกต้องด้วย

อย่างไรก็ดี ยังมีฟีเจอร์อื่น ๆ อีกมากที่ DALL-E 2 สามารถทำได้ ซึ่งตอนนี้กำลังอยู่ในระหว่างการทดสอบโดยพาร์ทเนอร์ต่าง ๆ ทั้งนี้ผู้ที่ใช้งานได้จะไม่สามารถอัปโหลดหรือนสร้างรูปภาพที่ไม่ใช่เรท G หรือว่าสิ่งที่อาจจะเกิดอันตรายใด ๆ ขึ้น เช่น การใส่สัญลักษณ์ที่เกี่ยวข้องกับความเกลียดชัง ภาพโป๊เปลือย อนาจาร หรือความรุนแรง หรือภาพเหตุการณ์ต่าง ๆ ที่อาจจะเกี่ยวข้องกับภูมิรัฐศาสตร์ที่เกี่ยวข้องอยู่ เป็นต้น

จากข้างต้น จะเห็นได้ว่าแม้ระบบ AI จะมีวิวัฒนาการไปอย่างมากและยังคงพัฒนาไปเรื่อย ๆ แต่เรื่องจริยธรรม AI หรือว่า AI Ethics ก็เป็นอีกเรื่องที่สำคัญที่ทุกคนต้องพิจารณาด้วยเสมอถึงความเหมาะสม ปัญหาหรืออันตรายที่อาจเกิดขึ้นได้ด้วย ดังนั้น จึงอยากจะฝาก AI Ethics ไว้พิจารณากันด้วยว่าระบบ AI ที่กำลังพัฒนาขึ้นมานั้นอาจจะก่อให้เกิดปัญหาหรือประเด็นอะไรหรือไม่

ที่มา: https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing

Share this: