ล่าสุด Facebook ได้ประกาศว่าสามารถเทรนโมเดล AI เพื่อสร้างะบบรู้จำเสียง (speech recognition system) ได้โดยที่ไม่จำเป็นจะต้องมีข้อความที่ถอดเสียงออกมาได้แล้ว โดยบริษัทได้เทรนระบบสำหรับภาษาสวาฮิลี (Swahili) ภาษาตาตาร์ (Tatar) ภาษาคีร์กีซ (Kyrgyz) และภาษาอื่นๆ ซึ่งเคลมว่าโมเดล wav2vec Unsupervised (Wav2vec-U) เป็นก้าวที่สำคัญในการสร้างโมเดลที่จะแก้ไขปัญหาในหลายๆ งานที่ต้องมีการสังเกตุ (observation) ได้
Facebook Wav2vec-U สามารถแก้ไขปัญหาในการเรียนรู้แบบ supervised learning ได้โดยการเรียนรู้แบบ self-supervised learning หรือเรียนรู้ด้วยตัวเอง หรือที่เรียกกันว่าวิธีการแบบ unsupervised learning ซึ่ง Wav2vec-U นั้นจะมีข้อมูล unknown ที่ไม่ได้มีการติดป้าย (label) มาก่อน ซึ่งระบบจะต้องสอนตัวเองเพื่อคัดแยก (classify) ข้อมูล โดยประมวลผลเพื่อเรียนรู้จากโครงสร้างแทน
Wav2vec-U เรียนรู้จากเสียงและข้อความที่บันทึกไว้เพียงเท่านั้น โดยที่ไม่ได้มีการถอดเสียงออกมาเป็นข้อความอีกทีแต่อย่างใด ด้วยการใช้โมเดล self-supervised ร่วมกับเฟรมเวิร์ก wav2vec 2.0 ของ Facebook เองกับวิธีการจัดกลุ่ม (clustering) ซึ่ง Wav2vec-U จะตัดเสียงออกมาเป็นหน่วยเล็กๆ ที่จะสอดคล้องกับเสียงเฉพาะอย่างหลวมๆ แล้วใช้ Generative Adversarial Network (GAN) เพื่อเรียนรู้การรู้จำคำในเสียง โดย generator จะเรียนรู้ส่วนของเสียงเพื่อทำนายหน่วยเสียง (phoneme) ส่วน discriminator จะเรียนรู้วิธีการคัดแยกระหว่างผลการรู้จำเสียงที่ได้จาก generator กับผลที่ได้จากข้อความจริงๆ จากตัวอย่างที่ทำให้กลายเป็นหน่วยเสียงออกมา
“มันใช้เวลาประมาณครึ่งวันหรือ 12-15 ชั่วโมงบน GPU ตัวเดียวเพื่อเทรนโมเดล Wav2vec-U โดยไม่นับขั้นตอน pre-training ที่มีการเรียนรู้ด้วยตัวเองก่อนหน้านี้ แต่พวกเราได้ทำให้โมเดลต่างๆ เหล่านี้เป็นสาธารณะเพื่อให้ผู้อื่นมาใช้งานต่อได้แล้ว” Facebook AI research scientist manager คุณ Michael Auli กล่าว “ครึ่งวันบน GPU ไม่ได้หนักหนามาก และสิ่งนี้ทำให้เทคโนโลยีเข้าถึงได้ในผู้เล่นที่กว้างขึ้นเพื่อสร้างเทคโนโลยีเกี่ยวกับเสียงสำหรับภาษาอื่น ๆ ในโลกได้มากขึ้น”