นักวิจัยจาก Tsinghua University และ ByteDance บริษัทแม่ของ TikTok ล่าสุดได้พัฒนาระบบ AI ใหม่ชื่อ “SALMONN” (Speech Audio Language Music Open Neural Network) ที่เข้าใจและให้เหตุผลจากเสียงพูดหรือเพลงได้แล้ว
จากงานวิจัยที่เผยแพร่ใน arXiv นักวิจัยอธิบายว่า SALMONN นั้นเป็น Large Language Model (LLM) ที่สามารถรับข้อมูลเข้าเป็นเสียงพูดอย่างเช่นการปราศรัย เสียงในงานสัมมนา หรือว่าเพลง แล้วสามารถเข้าใจในสิ่งที่เกิดขึ้นได้เลย
โดยระบบนี้เกิดจากโมเดล AI อันชาญฉลาด 2 ตัวที่ทำงานร่วมกัน โดยโมเดลหนึ่งจะประมวลผลเสียงที่เข้ามา ส่วนอีกหนึ่งโมเดลจะเป็นโมเดลสำหรับงานเสียงทั่วไปใน LLM ที่สามารถสร้างข้อความตอบกลับให้กลายเป็น Prompt เสียงได้
“แทนที่จะเอาข้อมูลเข้าเป็นคำพูดปราศรัยในงานหรือว่าเสียงที่เกิดขึ้นในงานเท่านั้น SALMONN นี้สามารถรับรู้และเข้าใจในเสียงที่ส่งเข้าไปทุกชนิด และทำให้สามารถสร้างขีดความสามารถใหม่ ๆ อย่างการรู้จำและแปลเสียงพูดได้ในหลายภาษา และสามารถให้เหตุผลร่วมของเสียงและคำพูดได้” งานวิจัยกล่าว “สิ่งนี้อาจจะมองเป็นเหมือน ‘หู’ ให้กับ LLM และขีดความสามารถในการรับรู้ได้ผ่านการได้ยิน
สิ่งที่เกิดขึ้น เลยทำให้โมเดล SALMONN นั้นเป็นเหมือนโมเดล AI ที่สามารถ “รับรู้” และ “เข้าใจ” เสียงพูดที่เข้าไปในโมเดลได้ทุกชนิด และทำให้เกิดขีดความสามารถใหม่ ๆ ขึ้นมาอย่างหลากหลาย เช่น การรู้จำเสียงและแปลได้ในหลายภาษา หรือการให้เหตุผลจากเสียงพูด เป็นต้น
สำหรับผู้ที่สนใจ สามารถอ่านงานวิจัยเพิ่มเติมได้ที่ arXiv และสามารถดูตัวอย่างโค้ดการใช้งานได้ที่ GitHub