เมื่อสัปดาห์ที่ผ่านมา Meta ได้เปิดตัว “Voicebox” โมเดล Generative สังเคราะห์เสียงจากข้อความที่เหนือกว่าอีกขั้น ที่สามารถ แก้เสียง (Edit) ลบสิ่งรบกวน (Noise Removal) และโอนย้ายสไตล์ (Style Transfer) ได้
แผนกวิจัยของ Meta ได้เปิดตัว Voicebox โมเดล ML ที่สามารถสร้างเสียงขึ้นมาได้จากข้อความโดยที่ Voicebox มีจุดที่แตกต่างจากเจ้าอื่น ๆ ตรงที่สามารถทำ Task ได้หลายอย่างมาก ๆ แม้ว่าจะไม่ใช่สิ่งที่ถูก Train มาก่อน เช่น การ Edit เสียง ลบ Noise และสามารถ Style Transfer หรือการโอนย้ายสไตล์การพูดมาใส่ไว้ในเสียงที่สร้างได้ด้วย
Voicebox นั้นถือว่าเป็น Generative Model อีกตัวหนึ่งที่สามารถสังเคราะห์เสียงได้ถึง 6 ภาษา ได้แก่ภาษาอังกฤษ ฝรั่งเศส สเปน เยอรมัน โปแลนด์ และโปรตุเกส ซึ่งเหมือน ๆ กับ LLMs ตัวอื่น ๆ ที่ได้ถูกเทรนมาจาก Task ทั่ว ๆ ที่สามารถนำไปใช้งานได้ในหลาย ๆ แอปพลิเคชัน หากแต่จะเป็นในเชิงเสียงที่จะเรียนรู้ pattern ที่สามารถจับคู่เสียงตัวอย่างไปใน Transcript ข้อความที่เตรียมไว้ได้
โดยโมเดลนี้ได้ถูกเทรนด้วยวิธีการพิเศษที่ถูกพัฒนาโดยนักวิจัยของ meta เอง ซึ่งแม้ว่า Meta จะยังไม่ได้ปล่อย Voicebox ออกมาให้เห็นกันจริง ๆ เนื่องจากเรื่องความกังวลในเชิงจริยธรรมที่อาจจะนำไปใช้งานในทางที่ผิดได้ แต่ผลลัพธ์ในช่วงเริ่มต้นก็ดูจะมีประสิทธิภาพที่ดี และอาจจะนำไปประยุกต์ใช้ต่อไปในอนาคตได้อย่างมหาศาล
สำหรับผู้ที่สนใจรายละเอียดเชิงเทคนิคของ Voicebox สามารถอ่านได้ที่งานตีพิมพ์ได้ที่นี่