OpenAI เปิดตัว “Voice Engine” โมเดล AI โคลนเสียงพูดได้จากคลิปเสียงแค่ 15 วินาที

April 1, 2024

ปลายสัปดาห์ที่ผ่านมา OpenAI ได้ประกาศเปิดตัว “Voice Engine” โมเดล AI ใหม่ล่าสุดที่สามารถโคลนเสียงจากคลิปเสียงหรือจากโทรศัพท์ได้ด้วยการใช้ข้อมูลเสียงเพียงแค่ 15 วินาทีเท่านั้น

โดย OpenAI กล่าวว่าบริษัทได้พัฒนาโมเดลดังกล่าวมาตั้งแต่ปี 2022 แล้ว และตอนนี้โมเดล Voice Engine ก็ได้เป็นส่วนที่สนับสนุนใน API แปลงข้อความเป็นเสียงพูด (Text-To-Speech) รวมทั้ง ChatGPT Voice และ Read Aloud ที่เปิดตัวในช่วงต้นเดือนที่ผ่านมา

ที่น่าสนใจคือ OpenAI เผยว่า Voice Engine สามารถโคลนเสียงได้จากเสียงพูดของมนุษย์ผ่านทางโทรศัพท์หรือว่าคลิปเสียงที่มีความยาวเพียงแค่ 15 วินาทีเท่านั้นก็จะสามารถสร้างเสียงธรรมชาติที่ดูใกล้เคียงกับเสียงผู้พูดต้นฉบับได้แล้ว

ทั้งนี้ ลองฟังตัวอย่างเสียงได้บนเว็บไซต์ของ OpenAI ที่จะเห็นว่าแยกได้ยากมาก ๆ ซึ่ง OpenAI ได้ชี้ถึงประโยชน์ของ Voice Engine ไม่ว่าจะเป็นการช่วยอ่านให้เด็กฟังเสริมการเรียนรู้ได้มากขึ้น การสร้าง PodCast ได้อย่างรวดเร็ว หรือว่าการช่วยผู้ป่วยที่ต้องใช้เสียงให้สามารถพักฟื้นกลับคืนมาได้เต็มที่มากขึ้น รวมไปถึงการแปลภาษาของเสียงพูดไปอีกภาษาหนึ่งเช่นกัน

หากแต่สิ่งนี้ก็อาจจะเป็นอันตรายต่อการเกิดสแกม (Scam) หรือภัยคุกคามรูปแบบใหม่ ๆ ได้เช่นกัน ด้วยเหตุนี้ OpenAI จึงเปิดให้เทคโนโลยีดังกล่าวใช้งานได้เฉพาะกลุ่มของพาร์ตเนอร์ที่เชื่อใจได้ก่อน ซึ่งคงต้องรอติดตามกันต่อไปว่าเทคโนโลยีนี้จะถูกทำให้เข้าถึงได้อย่างสาธารณะในอนาคตหรือไม่ และภาษาที่รองรับได้จะมีอะไรบ้างต่อไป

ที่มา: https://venturebeat.com/ai/openai-unveils-voice-cloning-ai-model-but-only-for-selected-partners-for-now/

Share this: