นักวิจัยจาก TikTok สร้างโมเดล AI “SALMONN” สามารถเข้าใจและให้เหตุผลจากเสียงคำปราศรัยได้

0

นักวิจัยจาก Tsinghua University และ ByteDance บริษัทแม่ของ TikTok ล่าสุดได้พัฒนาระบบ AI ใหม่ชื่อ “SALMONN” (Speech Audio Language Music Open Neural Network) ที่เข้าใจและให้เหตุผลจากเสียงพูดหรือเพลงได้แล้ว

จากงานวิจัยที่เผยแพร่ใน arXiv นักวิจัยอธิบายว่า SALMONN นั้นเป็น Large Language Model (LLM) ที่สามารถรับข้อมูลเข้าเป็นเสียงพูดอย่างเช่นการปราศรัย เสียงในงานสัมมนา หรือว่าเพลง แล้วสามารถเข้าใจในสิ่งที่เกิดขึ้นได้เลย

โดยระบบนี้เกิดจากโมเดล AI อันชาญฉลาด 2 ตัวที่ทำงานร่วมกัน โดยโมเดลหนึ่งจะประมวลผลเสียงที่เข้ามา ส่วนอีกหนึ่งโมเดลจะเป็นโมเดลสำหรับงานเสียงทั่วไปใน LLM ที่สามารถสร้างข้อความตอบกลับให้กลายเป็น Prompt เสียงได้

“แทนที่จะเอาข้อมูลเข้าเป็นคำพูดปราศรัยในงานหรือว่าเสียงที่เกิดขึ้นในงานเท่านั้น SALMONN นี้สามารถรับรู้และเข้าใจในเสียงที่ส่งเข้าไปทุกชนิด และทำให้สามารถสร้างขีดความสามารถใหม่ ๆ อย่างการรู้จำและแปลเสียงพูดได้ในหลายภาษา และสามารถให้เหตุผลร่วมของเสียงและคำพูดได้” งานวิจัยกล่าว “สิ่งนี้อาจจะมองเป็นเหมือน ‘หู’ ให้กับ LLM และขีดความสามารถในการรับรู้ได้ผ่านการได้ยิน

สิ่งที่เกิดขึ้น เลยทำให้โมเดล SALMONN นั้นเป็นเหมือนโมเดล AI ที่สามารถ “รับรู้” และ “เข้าใจ” เสียงพูดที่เข้าไปในโมเดลได้ทุกชนิด และทำให้เกิดขีดความสามารถใหม่ ๆ ขึ้นมาอย่างหลากหลาย เช่น การรู้จำเสียงและแปลได้ในหลายภาษา หรือการให้เหตุผลจากเสียงพูด เป็นต้น

สำหรับผู้ที่สนใจ สามารถอ่านงานวิจัยเพิ่มเติมได้ที่ arXiv และสามารถดูตัวอย่างโค้ดการใช้งานได้ที่ GitHub

ที่มา: https://venturebeat.com/ai/tiktok-makers-new-ai-salmonn-understands-all-audio-not-just-music-and-voices/