Salesforce ปล่อย “LAVIS” ชุดเครื่องมือ AI สำหรับภาษาและภาพให้เป็น Opensource

0

เมื่อไม่นานมานี้ Salesforce Research ได้เปิด Opensource เครื่องมือใหม่ที่มีชื่อว่า LAnguage-VISion (LAVIS) ชุด library รวมศูนย์สำหรับงานวิจัยในเรื่อง Deep Learning สำหรับด้านภาษาและภาพ (Language-Vision) ซึ่ง LAVIS สนับสนุนได้ถึง 10 งานด้านภาษาและภาพ บน 20 Dataset สาธารณะ พร้อมกับมี Pre-trained Model Weight ให้อีกมากกว่า 30 โมเดล

จากข้อมูลบล็อคโพสของ Salesforce Research เครื่องมือ LAVIS ออกแบบมาให้เป็นลักษณะโมดูล (Modular) ที่จะทำให้สามารถเชื่อมโยงกับโมเดลใหม่ ๆ ได้ง่าย พร้อมกับมีมาตรฐานในการเชื่อมต่อสำหรับการทำ Inference ซึ่งโมเดลภายในที่ให้ใช้งานได้นั้นจะทำให้นักวิจัยสามารถใช้ LAVIS เพื่อวัดเกณฑ์ (Benchmark) ประเมินผลการทดลองในงานของตัวเองได้ หรือว่าจะนำเอาโมเดลไปใช้งานได้ตามสภาพ (as-is) สร้างเป็นแอปที่มีระบบ AI เลยก็ได้

“พวกเราสร้าง LAVIS ขึ้นมาเพื่อทำให้ผู้คนสามารถเข้าถึงขีดความสามารถที่ชาญฉลาดในด้านภาษาและภาพที่มากขึ้น พร้อมกับสนับสนุนให้มีการปรับใช้ (adopt) อย่างเหมาะสม และลดแรงงานที่ต้องทำซ้ำ ๆ ในการพัฒนาต่อ ๆ ไปในอนาคต” Salesforce กล่าว

LAVIS นั้นสนับสนุนงานในด้านภาษาและภาพใน 7 หมวดหมู่ด้วยกัน ได้แก่

  • End-to-End Pre-training
  • Multimodal Retrieval
  • Captioning
  • Visual Question Answering
  • Multimodal classification
  • Visual Dialogue
  • Multimodal Feature Extraction. 

โดยภาพด้านล่างนี้คือสถาปัตยกรรมในระดับสูง (High-level architecture) ของ LAVIS 

Credit : Salesforce AI Research

สำหรับผู้ที่สนใจรายละเอียดเพิ่มเติมของ LAVIS สามารถเข้าไปที่ GitHub ที่นี่ เพื่อ Pull Repository ได้ทันที โดยโค้ดจะเป็นภาษา Python ที่อิงกับ PyTorch ซึ่งภายในจะมีรายละเอียดการใช้งานพร้อมโค้ดตัวอย่างไว้ให้อยู่แล้ว สามารถนำไปประยุกต์ใช้งานต่อได้ทันที

ที่มา: https://www.infoq.com/news/2022/11/salesforce-lavis-ai/