BabbleLabs สตาร์ทอัพจากรัฐแคลิฟอร์เนียกำลังพัฒนาระบบที่ช่วยการปรับปรุงคุณภาพของเสียงพูด รวมไปถึงความแม่นยำและการปรับให้เข้ากับแต่ละบุคคล โดยบริษัทเพิ่งได้เปิดตัวผลิตภัณฑ์ deep learning ใหม่ที่ใช้การประมวลผลบน GPU เพื่อดำเนินการในเรื่องต่างๆ เช่น การปรับปรุงคุณภาพเสียงพูด ลดสิ่งรบกวน (noise) และเรื่องของการประมวลผลของเสียงและภาพจากวีดีโอและไฟล์เสียงมาตรฐานทั่วไปได้
“ผลิตภัณฑ์แรกของพวกเราที่มีชื่อว่า Clear Cloud นั้นได้นำเทคนิคการประมวลผลในด้าน AI ของ BabbleLabs เข้าไปสู่ตลาดอุตสาหกรรมชั้นนำ” คุณ Chris Rowen ตำแหน่ง CEO ของ BabbleLabs กล่าว “นี่เป็นครั้งแรกจากหลายๆ ผลิตภัณฑ์ใน roadmap ของพวกเราที่จะช่วยให้เทคโนโลยีการปรับปรุงเสียงพูดสำหรับแอปพลิเคชันในชีวิตประจำวันนั้นใช้ในโลกความเป็นจริงได้”
โดยบริษัทได้เทรนระบบโครงข่ายประสาทเทียม (Neural Network) บนเฟรมเวิร์ก TensorFlow กับข้อมูลหลายร้อยหลายพันชั่วโมงของเสียงพูดที่มีเสียงและเสียงรบกวนที่แตกต่างกันไป ซึ่งเมื่อได้ดำเนินการเทรนโมเดลเสร็จสิ้นแล้ว ระบบโครงข่ายประสาทเทียมนั้นก็สามารถให้ผลลัพธ์ออกมาได้อย่างน่าประทับใจ ซึ่งเป็นการทำให้เห็นว่าเทคโนโลยีนี้สามารถนำมาใช้กับคำศัพท์ สำเนียง accent และภาษาต่างๆ ที่ครอบคลุมและเข้าใจได้
ตัว Original
หลังจากปรับปรุง
“ประสิทธิภาพที่สูงขึ้นของ GPU รวมไปถึงการสนับสนุนอย่างแข็งแกร่งในด้านการพัฒนาระบบ deep learning จึงทำให้พวกเราสามารถเทรนระบบโครงข่ายได้ใหญ่ขึ้น ซับซ้อนยิ่งขึ้น บนข้อมูลที่มีจำนวนมากขึ้นแล้วสามารถนำไป deploy ในเชิงพาณิชย์ได้ในราคาที่ต่ำ” คุณ Rowen กล่าว “GPU นั้นเป็นกุญแจที่สำคัญสำหรับสำหรับการส่งมอบเทคโนโลยีการปรับปรุงเสียงพูดที่ดีที่ีสุดในโลกของ BabbleLabs”
บริษัทเพิ่งได้เขียนรายละเอียดเพิ่มเติมลงไปในบล็อกซึ่งจะมีการอธิบายรายละเอียดการใช้ GPU และระบบ deep learning. โดย API ของ Clear Cloud สำหรับการปรับปรุงเสียงพูดนั้นสามารถดูรายละเอียดได้ที่หน้าเว็บของผลิตภัณฑ์
Source : https://news.developer.nvidia.com/startup-babblelabs-uses-ai-to-enhance-speech/