Meta ปล่อย Open Source AI “Massively Multilingual Speech” รู้จำเสียงได้มากกว่า 4,000 ภาษาพูด Text-To-Speech ได้กว่า 1,100 ภาษา

0

โครงการ Massively Multilingual Speech (MMS) เป็นโครงการที่ Meta ได้สร้างโมเดลภาษาขึ้นมาใหม่ที่ไม่ใช่แนวโคลน ChatGPT มา แต่เป็นโมเดลรู้จำเสียงหรือสังเคราะห์เสียง ที่สามารถรู้จำเสียงพูด (Speech-To-Text) ได้มากกว่า 4,000 ภาษาพูดทั่วโลก และสามารถสังเคราะห์เสียง (Text-To-Speech) ได้มากกว่า 1,100 ภาษา ซึ่ง Meta ยังได้ปล่อยออกมาเป็น Open Source อีกด้วย 

โดย Meta เผยว่า MMS นี้จะช่วยอนุรักษ์รักษาความหลากหลายทางภาษาและสนับสนุนให้นักวิจัยสร้างรากฐานต่าง ๆ ขึ้นมา 

ทั่วไปแล้ว การรู้จำเสียง (Speech Recognition) และการแปลงข้อความให้กลายเป็นเสียง (Text-To-Speech) นั้นมักจะจำเป็นต้องมีการฝึกฝน (Train) โมเดลด้วยข้อมูลเสียงพูดพร้อม Label ข้อความที่ถอดเสียงมาด้วยกันในปริมาณมหาศาล ระดับหลายพันชั่วโมงขึ้นไป เพื่อที่จะทำให้โมเดล Machine Learning นั้นสามารถคัดแยกและเข้าใจข้อมูลนั้นได้ถูกต้อง 

และนี่จึงเป็นปัญหาสำหรับหลาย ๆ ภาษาที่ไม่ได้มีการใช้งานกันในวงกว้างมากนักในระดับสากล เพราะการหาข้อมูลเสียงในภาษาเหล่านั้นสามารถจัดทำได้ค่อนข้างยากมาก ซึ่งหลาย ๆ ภาษานั้นมีความเสี่ยงสูงมาก ๆ ที่ภาษาดังกล่าวจะค่อย ๆ เลือนหายไปในอีกไม่กี่ทศวรรษนี้แล้ว 

Illustration of the languages the Massively Multilingual Speech (MMS) recognition model supports. MMS supports speech-to-text and text-to-speech for 1,107 languages and language identification for over 4,000 languages.

“วันนี้พวกเราได้แบ่งปันโมเดลและโค้ดของพวกเราออกสู่สาธารณะ เพื่อที่ทำให้ท่านอื่น ๆ ในกลุ่มชุมชนงานวิจัยจะสามารถต่อยอดจากงานของพวกเราได้” Meta กล่าว “ด้วยงานชิ้นนี้ พวกเราหวังว่าจะมีส่วนร่วมเล็ก ๆ น้อย ๆ ที่จะช่วยอนุรักษ์ความหลากหลายทางภาษาที่มีอยู่อย่างเหลือเชื่อบนโลกนี้ได้”

สำหรับผู้ที่สนใจ สามารถดู Source Code ของโครงการ MMS ได้ที่ GitHub หรือดูรายละเอียดของโครงการ MMS ได้ที่ Meta AI

ที่มา: https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html