นักวิจัยจาก TikTok สร้างโมเดล AI “SALMONN” สามารถเข้าใจและให้เหตุผลจากเสียงคำปราศรัยได้

October 25, 2023

นักวิจัยจาก Tsinghua University และ ByteDance บริษัทแม่ของ TikTok ล่าสุดได้พัฒนาระบบ AI ใหม่ชื่อ “SALMONN” (Speech Audio Language Music Open Neural Network) ที่เข้าใจและให้เหตุผลจากเสียงพูดหรือเพลงได้แล้ว

จากงานวิจัยที่เผยแพร่ใน arXiv นักวิจัยอธิบายว่า SALMONN นั้นเป็น Large Language Model (LLM) ที่สามารถรับข้อมูลเข้าเป็นเสียงพูดอย่างเช่นการปราศรัย เสียงในงานสัมมนา หรือว่าเพลง แล้วสามารถเข้าใจในสิ่งที่เกิดขึ้นได้เลย

โดยระบบนี้เกิดจากโมเดล AI อันชาญฉลาด 2 ตัวที่ทำงานร่วมกัน โดยโมเดลหนึ่งจะประมวลผลเสียงที่เข้ามา ส่วนอีกหนึ่งโมเดลจะเป็นโมเดลสำหรับงานเสียงทั่วไปใน LLM ที่สามารถสร้างข้อความตอบกลับให้กลายเป็น Prompt เสียงได้

“แทนที่จะเอาข้อมูลเข้าเป็นคำพูดปราศรัยในงานหรือว่าเสียงที่เกิดขึ้นในงานเท่านั้น SALMONN นี้สามารถรับรู้และเข้าใจในเสียงที่ส่งเข้าไปทุกชนิด และทำให้สามารถสร้างขีดความสามารถใหม่ ๆ อย่างการรู้จำและแปลเสียงพูดได้ในหลายภาษา และสามารถให้เหตุผลร่วมของเสียงและคำพูดได้” งานวิจัยกล่าว “สิ่งนี้อาจจะมองเป็นเหมือน ‘หู’ ให้กับ LLM และขีดความสามารถในการรับรู้ได้ผ่านการได้ยิน

สิ่งที่เกิดขึ้น เลยทำให้โมเดล SALMONN นั้นเป็นเหมือนโมเดล AI ที่สามารถ “รับรู้” และ “เข้าใจ” เสียงพูดที่เข้าไปในโมเดลได้ทุกชนิด และทำให้เกิดขีดความสามารถใหม่ ๆ ขึ้นมาอย่างหลากหลาย เช่น การรู้จำเสียงและแปลได้ในหลายภาษา หรือการให้เหตุผลจากเสียงพูด เป็นต้น

สำหรับผู้ที่สนใจ สามารถอ่านงานวิจัยเพิ่มเติมได้ที่ arXiv และสามารถดูตัวอย่างโค้ดการใช้งานได้ที่ GitHub

ที่มา: https://venturebeat.com/ai/tiktok-makers-new-ai-salmonn-understands-all-audio-not-just-music-and-voices/

Share this: