Meta ได้ปล่อยเครื่องมือ ImageBind ออกมาเป็น Opensource ที่มุ่งหวังเชื่อมโยงระหว่างข้อมูลหลายชนิดได้เหมือนมนุษย์ที่จะเหนืออีกขั้น โดยสามารถทำนายความเชื่อมโยงระหว่างข้อมูลที่คล้ายกับการรับรู้หรือจินตนาการของมนุษย์ในการนึกถึงสภาพแวดล้อมต่าง ๆ ที่เหนือกว่า Midjourney, Stable Diffusion หรือ DALL-E 2
โดย ImageBind จะสามารถเชื่อมโยงข้อมูลในรูปแบบที่ต่างกันได้มากกว่า ไม่ว่าจะเป็น “ข้อความ ภาพ วีดีโอ เสียง ข้อมูล 3D อุณหภูมิ และข้อมูล Motion” ที่มีหลากหลายเพื่อสร้างผลลัพธ์ออกมาได้โดยที่ไม่ต้องมีการฝึกฝนก่อนอีกด้วย
สิ่งนี้อาจจะมองว่า ImageBind เป็นการทำให้ Machine Learning เข้าใกล้การเรียนรู้ของมนุษย์ไปอีกขั้นแล้ว อย่างเช่น ถ้าหากเรายืนอยู่ในสภาพแวดล้อมอย่างถนนในเมืองที่วุ่นวาย สมองของเราก็มักจะมีการดูดซับการมองเห็น เสียง ว่ามีรถยนต์ คนเดินถนนพลุกพล่านแค่ไหน อาคารสูงเท่าไหร่ อุณหภูมิประมาณไหน กล่าวคือมนุษย์จะมีการซึมซับประสบการณ์ที่สัมผัสต่าง ๆ รอบข้างโดยที่ไม่รู้ตัว
ทั้งนี้ ImageBind ยังถือว่าเป็นช่วงเริ่มต้นของการพัฒนา แต่ก็สามารถรองรับการสร้างสภาพแวดล้อมที่ซับซ้อนได้ด้วยการใส่ Input ที่เป็น Prompt ข้อความร่วมกับภาพและเสียงที่บันทึกไว้ได้แล้ว หากใครสนใจดูเพิ่มเติมได้ที่ GitHub https://github.com/facebookresearch/ImageBind