Uncategorized

Meta เปิดตัว “Voicebox” โมเดล Generative สำหรับงานสังเคราะห์เสียงในอีกขั้น

June 19, 2023

เมื่อสัปดาห์ที่ผ่านมา Meta ได้เปิดตัว “Voicebox” โมเดล Generative สังเคราะห์เสียงจากข้อความที่เหนือกว่าอีกขั้น ที่สามารถ แก้เสียง (Edit) ลบสิ่งรบกวน (Noise Removal) และโอนย้ายสไตล์ (Style Transfer) ได้

แผนกวิจัยของ Meta ได้เปิดตัว Voicebox โมเดล ML ที่สามารถสร้างเสียงขึ้นมาได้จากข้อความโดยที่ Voicebox มีจุดที่แตกต่างจากเจ้าอื่น ๆ ตรงที่สามารถทำ Task ได้หลายอย่างมาก ๆ แม้ว่าจะไม่ใช่สิ่งที่ถูก Train มาก่อน เช่น การ Edit เสียง ลบ Noise และสามารถ Style Transfer หรือการโอนย้ายสไตล์การพูดมาใส่ไว้ในเสียงที่สร้างได้ด้วย

Voicebox นั้นถือว่าเป็น Generative Model อีกตัวหนึ่งที่สามารถสังเคราะห์เสียงได้ถึง 6 ภาษา ได้แก่ภาษาอังกฤษ ฝรั่งเศส สเปน เยอรมัน โปแลนด์ และโปรตุเกส ซึ่งเหมือน ๆ กับ LLMs ตัวอื่น ๆ ที่ได้ถูกเทรนมาจาก Task ทั่ว ๆ ที่สามารถนำไปใช้งานได้ในหลาย ๆ แอปพลิเคชัน หากแต่จะเป็นในเชิงเสียงที่จะเรียนรู้ pattern ที่สามารถจับคู่เสียงตัวอย่างไปใน Transcript ข้อความที่เตรียมไว้ได้

โดยโมเดลนี้ได้ถูกเทรนด้วยวิธีการพิเศษที่ถูกพัฒนาโดยนักวิจัยของ meta เอง ซึ่งแม้ว่า Meta จะยังไม่ได้ปล่อย Voicebox ออกมาให้เห็นกันจริง ๆ เนื่องจากเรื่องความกังวลในเชิงจริยธรรมที่อาจจะนำไปใช้งานในทางที่ผิดได้ แต่ผลลัพธ์ในช่วงเริ่มต้นก็ดูจะมีประสิทธิภาพที่ดี และอาจจะนำไปประยุกต์ใช้ต่อไปในอนาคตได้อย่างมหาศาล

สำหรับผู้ที่สนใจรายละเอียดเชิงเทคนิคของ Voicebox สามารถอ่านได้ที่งานตีพิมพ์ได้ที่นี่

ที่มา: https://venturebeat.com/ai/meta-announces-voicebox-a-generative-model-for-multiple-voice-synthesis-tasks

Share this: