Meta AI เผยแพร่งานวิจัยปัญญาประดิษฐ์ฉบับล่าสุดที่โมเดล Self-supervised Learning เพียงโมเดลเดียวสามารถทำงานร่วมกับข้อมูล Input ได้ทั้งภาพตัวอักษร และไฟล์เสียง ซึ่งอาจเรียกได้ว่าเป็นโมเดล Generalized Self-supervised Learning ในระดับเริ่มต้นนั่นเอง
data2vec คือโมเดล Self-supervised Learning ที่ถูกพัฒนาขึ้นโดยมีเป้าหมายในการสร้างโมเดลที่สามารถเรียนรู้และพัฒนาตัวเองจากงานหลายๆรูปแบบ (Modality) วิธีที่พวกเขาใช้คือการแปลงข้อมูล Input ให้อยู่ในรูปแบบ Representation แบบมาตรฐานที่โมเดลสามารถนำไปวิเคราะห์ได้ และเมื่อได้ผลลัพธ์ก็จะอยู่ในรูปของ Representation ที่มาพร้อมกับข้อมูลบริบทแวดล้อม (Contextualized Latent Representation) ซึ่งทำให้โมเดลยืดหยุ่นต่อการทำงานรูปแบบต่างๆมากขึ้น
โดยในการเทรนโมเดล พวกเขาใช้ตัวแปลงเพื่อ Encode ข้อมูลแต่ละประเภทที่เข้ามา (ซึ่งมีรายละเอียดและวิธีการในการแปลงต่างกัน) และทำการปกปิด (Mask) ข้อมูลในบางส่วน เช่น ปิดคำศัพท์บางคำออกจากประโยค หรือเสียงบางช่วงออกจากเสียงพูด เพื่อให้โมเดลนักเรียน (Student) ได้เรียนรู้เพื่อพยายามแปลงตัวเองเพื่อเข้าสู่ต้นแบบในโมเดลครู (Teacher)
ความน่าสนใจของ data2vec นั้นมีอยู่ 3 ข้อ คือ
- มีประสิทธิภาพในการทำงานที่ดี
- งานจำแนกภาพถ่าย (Image Classification) สามารถทำงานได้ดีในระดับ State of the Art (ViT-B และ ViT-L ในชุดข้อมูล ImageNet-1K)
- มีอัตราความผิดพลาดในงาน Speech Recognition ต่ำกว่าโมเดลที่ดีที่สุดในปัจจุบัน (wave2vec 2.0, HuBERT, WavLM) ใน Libri-light Limited Resource Training Set
- ทำงานได้สูสีกับ RoBERTa (GLUE Benchmark) ในงาน Natural Language Understanding
- สามารถรับ Input ข้อมูลได้ 3 รูปแบบ (ภาพ เสียง และตัวอักษร) ซึ่งนับเป็นจุดเริ่มต้นที่จะนำไปสู่การสร้างโมเดลที่สามารถใช้งานได้กับข้อมูลที่หลากหลาย และทำงานได้หลายประเภท (Modality-agnostic Model)
- ผลลัพธ์ของการทำงานของ data2vec นั้นอยู่ในรูปของ Contextualized Latent Representation ซึ่งมีความยืดหยุ่นมากกว่าผลลัพธ์จากโมเดลที่เคยมีมา เช่น ในงานประมวลผลภาพของโมเดลอื่นๆ ผลลัพธ์อาจออกมาในรูปแบบของจุด Pixel หรือ Token ของภาพ แต่สำหรับ data2vec นั้นจะมีข้อมูลบริบทจากไฟล์ Input อยู่ด้วย
สำหรับใครที่สนใจอ่านงานวิจัยฉบับนี้โดยละเอียด สามารถเข้าไปดาวน์โหลดเปเปอร์ได้ที่ https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language