ในโลกของเรานี้มีภาษาเกือบถึง 7,000 ภาษา และเกือบครึ่งหนึ่งก็ดูเหมือนจะค่อนข้างใกล้สูญหายไปแล้ว นั่นหมายความว่าภาษาจำนวนมากในนั้นจะไม่ได้มีการเรียนการสอนในโรงเรียน และไม่ได้นำมาใช้งานในการค้าและในรัฐบาล อีกทั้งมักจะไม่ได้มีคีย์บอร์ดรองรับในคอมพิวเตอร์แล้ว เพื่อที่จะช่วยรักษาหลักฐานทางด้านเสียงและตัวอักษรหนึ่งในภาษาทั้งหมดเหล่านี้ นักวิจัยจากสถาบันเทคโนโลยีรอเชสเตอร์ (Rochester Institute of Technology) จึงได้สร้างระบบรู้จำเสียงอัตโนมัติ (automatic speech recognition) ที่ใช้ระบบ deep learning ที่จะช่วยรักษาภาษาของชาติเซเนกัล
“แรงบันดาลใจสำหรับเรื่องนี้นั้นเป็นเรื่องส่วนตัว โดยขั้นตอนแรกในการเก็บรักษาและฟื้นฟูภาษาของพวกเรานั้นคือการจดบันทึกมัน” คุณ Robert Jimerson (ชาวเซเนกัล) นักเรียนปริญญาเอกด้าน Computer and Information Sciences ที่สถาบันเทคโนโลีรอเชสเตอร์และหนึ่งในทีมงานวิจัยกล่าว
ภาษาเซเนกานั้นได้มีการพูดใช้งานกันอย่างมากโดยคนน้อยกว่า 50 คนเท่านั้น ดังนั้น เพื่อที่จะรักษามัน คุณ Jimerson จึงนำเอาผู้สูงอายุในชนเผ่าและเพื่อนสนิท รวมถึงคนชาวเซเนกัลมาร่วมกันบันทึกเสียงและข้อมูลข้อความเก็บไว้เป็นภาษาอเมริกันพื้นเมือง
“ไม่เคยมีใครพยายามทำแบบนี้จริงๆ มาก่อน ในการเทรนโมเดลรู้จำเสียงอัตโนมัติกับข้อมูลบางอย่างที่มีข้อมูลจำนวนจำกัดอย่างภาษาเซเนกา” คุณ Ray Ptucha ผู้ช่วยศาสตราจารย์ด้านวิศวกรรมคอมพิวเตอร์ที่สถาบันกล่าว
โดยทีมงานได้เริ่มใช้โมเดลโครงข่าย Deep Neural Network (DNN) ที่ได้สร้างมาก่อนหน้านี้จากข้อมูลภาษาอังกฤษจำนวนมากๆ มาก่อน แล้วนำเอามาประยุกต์ใช้กับภาษาเซเนกาโดยทำเป็นลักษณะ Transfer Learning โดยคุณ Jimerson และทีมงานได้เทรนโครงข่ายบนเฟรมเวิร์ก TensorFlow บนข้อมูลเสียงภาษาเซเนกัล 155 นาทีซึ่งรวมไปด้วยคำประมาณ 13,000 คำที่บันทึกและถอดเสียงออกมาโดยเด็กๆ ชาวเซเนกัล
จากนั้นทีมจึงได้สร้างข้อมูลเทรนที่สังเคราะห์ขึ้นมาใหม่โดยใช้เทคนิคการทำ data augmentation ที่แตกต่างกันสามแบบ ซึ่งรวมไปถึงการเพิ่ม noise การปรับ pitch และการปรับ speed ความเร็ว
“สิ่งนี้เป็นโครงการที่น่าตื่นเต้นเพราะว่ามันได้นำเอาคนจากหลายๆ ความรับผิดชอบและ background ที่แตกต่างกันมาทำงานร่วมกัน จากด้านวิศวกรรมและวิทยาศาสตร์คอมพิวเตอร์จนไปถึงด้านภาษา linguistics และด้านการสอนภาษา” คุณ Emily Prud’hommeaux ผู้ช่วยศาสตราจารย์ด้าน Computer Science ที่วิทยาลัยบอสตัน (Boston College) และหน่วยวิจัยที่วิทยาลัยศิลปศาสตร์ของสถาบัน (College of Liberal Arts) กล่าว
และตอนนี้ ทีมงานได้มุ่งเน้นที่จะลดอัตราความผิดพลาดของคำ ซึ่งพวกเขากล่าวว่าเกิดจากข้อมูล dataset สำหรับเทรนที่น้อยเกินไป ซึ่งข้อมูลที่สังเคราะห์ขึ้นมาตามที่พวกเขาได้สร้างขึ้นนั้นได้ลดอัตราความผิดพลาดของคำลงไแล้ว แต่โมเดลก็ยังคงต้องการการทำงานเพิ่มเติมอยู่ ทีมงานกล่าว
“ตามที่ขนาดของข้อมูล corpus สำหรับเทรนภาษาเซเนกาของพวกเรานั้นได้เพิ่มมาในโครงการการบันทึกภาษาของพวกเราแล้ว พวกเราก็ยังคงคาดหวังว่าช่องว่างประสิทธิภาพระหว่างวิธีการต่างๆ จะลดลงไปได้” ทีมงานกล่าวในงานตีพิมพ์
Source : https://news.developer.nvidia.com/ai-helps-preserve-the-endangered-seneca-language/