เมื่อไม่นานมานี้ Salesforce Research ได้เปิด Opensource เครื่องมือใหม่ที่มีชื่อว่า LAnguage-VISion (LAVIS) ชุด library รวมศูนย์สำหรับงานวิจัยในเรื่อง Deep Learning สำหรับด้านภาษาและภาพ (Language-Vision) ซึ่ง LAVIS สนับสนุนได้ถึง 10 งานด้านภาษาและภาพ บน 20 Dataset สาธารณะ พร้อมกับมี Pre-trained Model Weight ให้อีกมากกว่า 30 โมเดล
จากข้อมูลบล็อคโพสของ Salesforce Research เครื่องมือ LAVIS ออกแบบมาให้เป็นลักษณะโมดูล (Modular) ที่จะทำให้สามารถเชื่อมโยงกับโมเดลใหม่ ๆ ได้ง่าย พร้อมกับมีมาตรฐานในการเชื่อมต่อสำหรับการทำ Inference ซึ่งโมเดลภายในที่ให้ใช้งานได้นั้นจะทำให้นักวิจัยสามารถใช้ LAVIS เพื่อวัดเกณฑ์ (Benchmark) ประเมินผลการทดลองในงานของตัวเองได้ หรือว่าจะนำเอาโมเดลไปใช้งานได้ตามสภาพ (as-is) สร้างเป็นแอปที่มีระบบ AI เลยก็ได้
“พวกเราสร้าง LAVIS ขึ้นมาเพื่อทำให้ผู้คนสามารถเข้าถึงขีดความสามารถที่ชาญฉลาดในด้านภาษาและภาพที่มากขึ้น พร้อมกับสนับสนุนให้มีการปรับใช้ (adopt) อย่างเหมาะสม และลดแรงงานที่ต้องทำซ้ำ ๆ ในการพัฒนาต่อ ๆ ไปในอนาคต” Salesforce กล่าว
LAVIS นั้นสนับสนุนงานในด้านภาษาและภาพใน 7 หมวดหมู่ด้วยกัน ได้แก่
- End-to-End Pre-training
- Multimodal Retrieval
- Captioning
- Visual Question Answering
- Multimodal classification
- Visual Dialogue
- Multimodal Feature Extraction.
โดยภาพด้านล่างนี้คือสถาปัตยกรรมในระดับสูง (High-level architecture) ของ LAVIS
สำหรับผู้ที่สนใจรายละเอียดเพิ่มเติมของ LAVIS สามารถเข้าไปที่ GitHub ที่นี่ เพื่อ Pull Repository ได้ทันที โดยโค้ดจะเป็นภาษา Python ที่อิงกับ PyTorch ซึ่งภายในจะมีรายละเอียดการใช้งานพร้อมโค้ดตัวอย่างไว้ให้อยู่แล้ว สามารถนำไปประยุกต์ใช้งานต่อได้ทันที
ที่มา: https://www.infoq.com/news/2022/11/salesforce-lavis-ai/