data2vec งานวิจัยใหม่จาก Meta AI: โมเดล Self-supervised Learning ที่ทำงานได้กับทั้งรูปภาพ เสียง และตัวอักษร

January 21, 2022

Meta AI เผยแพร่งานวิจัยปัญญาประดิษฐ์ฉบับล่าสุดที่โมเดล Self-supervised Learning เพียงโมเดลเดียวสามารถทำงานร่วมกับข้อมูล Input ได้ทั้งภาพตัวอักษร และไฟล์เสียง ซึ่งอาจเรียกได้ว่าเป็นโมเดล Generalized Self-supervised Learning ในระดับเริ่มต้นนั่นเอง

data2vec คือโมเดล Self-supervised Learning ที่ถูกพัฒนาขึ้นโดยมีเป้าหมายในการสร้างโมเดลที่สามารถเรียนรู้และพัฒนาตัวเองจากงานหลายๆรูปแบบ (Modality) วิธีที่พวกเขาใช้คือการแปลงข้อมูล Input ให้อยู่ในรูปแบบ Representation แบบมาตรฐานที่โมเดลสามารถนำไปวิเคราะห์ได้ และเมื่อได้ผลลัพธ์ก็จะอยู่ในรูปของ Representation ที่มาพร้อมกับข้อมูลบริบทแวดล้อม (Contextualized Latent Representation) ซึ่งทำให้โมเดลยืดหยุ่นต่อการทำงานรูปแบบต่างๆมากขึ้น

โดยในการเทรนโมเดล พวกเขาใช้ตัวแปลงเพื่อ Encode ข้อมูลแต่ละประเภทที่เข้ามา (ซึ่งมีรายละเอียดและวิธีการในการแปลงต่างกัน) และทำการปกปิด (Mask) ข้อมูลในบางส่วน เช่น ปิดคำศัพท์บางคำออกจากประโยค หรือเสียงบางช่วงออกจากเสียงพูด เพื่อให้โมเดลนักเรียน (Student) ได้เรียนรู้เพื่อพยายามแปลงตัวเองเพื่อเข้าสู่ต้นแบบในโมเดลครู (Teacher)

We created data2vec, the first general high-performance self-supervised algorithm for speech, vision, and text. When applied to different modalities, it matches or outperforms the best self-supervised algorithms. Read more and get the code:https://t.co/3x8VCwGI2x pic.twitter.com/Q9TNDg1paj
— AI at Meta (@AIatMeta) January 20, 2022

รับชมขั้นตอนการทำงานของ data2vec ได้ในภาพเคลื่อนไหวทางด้านบน

ความน่าสนใจของ data2vec นั้นมีอยู่ 3 ข้อ คือ

มีประสิทธิภาพในการทำงานที่ดี
- งานจำแนกภาพถ่าย (Image Classification) สามารถทำงานได้ดีในระดับ State of the Art (ViT-B และ ViT-L ในชุดข้อมูล ImageNet-1K)
- มีอัตราความผิดพลาดในงาน Speech Recognition ต่ำกว่าโมเดลที่ดีที่สุดในปัจจุบัน (wave2vec 2.0, HuBERT, WavLM) ใน Libri-light Limited Resource Training Set
- ทำงานได้สูสีกับ RoBERTa (GLUE Benchmark) ในงาน Natural Language Understanding
สามารถรับ Input ข้อมูลได้ 3 รูปแบบ (ภาพ เสียง และตัวอักษร) ซึ่งนับเป็นจุดเริ่มต้นที่จะนำไปสู่การสร้างโมเดลที่สามารถใช้งานได้กับข้อมูลที่หลากหลาย และทำงานได้หลายประเภท (Modality-agnostic Model)
ผลลัพธ์ของการทำงานของ data2vec นั้นอยู่ในรูปของ Contextualized Latent Representation ซึ่งมีความยืดหยุ่นมากกว่าผลลัพธ์จากโมเดลที่เคยมีมา เช่น ในงานประมวลผลภาพของโมเดลอื่นๆ ผลลัพธ์อาจออกมาในรูปแบบของจุด Pixel หรือ Token ของภาพ แต่สำหรับ data2vec นั้นจะมีข้อมูลบริบทจากไฟล์ Input อยู่ด้วย

สำหรับใครที่สนใจอ่านงานวิจัยฉบับนี้โดยละเอียด สามารถเข้าไปดาวน์โหลดเปเปอร์ได้ที่ https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

Share this: