Google Translatotron สามารถแปลคำพูดได้ตามเสียงของผู้พูดได้

May 16, 2019

https://o.aolcdn.com/images/dims?quality=85&image_uri=https%3A%2F%2Fo.aolcdn.com%2Fimages%2Fdims%3Fcrop%3D4229%252C2809%252C0%252C0%26quality%3D85%26format%3Djpg%26resize%3D1600%252C1063%26image_uri%3Dhttps%253A%252F%252Fs.yimg.com%252Fos%252Fcreatr-images%252F2019-05%252F9ee830a0-7740-11e9-bf7b-d14c4b21be09%26client%3Da1acac3e1b3290917d92%26signature%3D29c569ced1ea235e23020934dc7f7e4ef2a6f1f0&client=amp-blogside-v2&signature=e0e7e7d788696b4d804024a3944c779aae31bcb5 — The Google Translate app is seen on an Android portable device on February 5, 2018. (Photo by Jaap Arriens/NurPhoto via Getty Images)

การพูดอีกภาษาหนึ่งอาจจะสามารถดำเนินการได้ง่ายขึ้นกว่าเดิมแล้ว โดย Google ได้แสดงตัว Translatotron โมเดลแปลภาษาตัวแรกที่สามารถแปลงเสียงพูดจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งในขณะที่ยังสามารถรักษาเสียงพูดและจังหวะของผู้พูดได้

เครื่องมือนี้ไม่ได้ใช้ขั้นตอนแบบปกติที่จะมีการแปลเสียงพูดไปเป็นข้อความก่อนแล้วค่อยแปลงกลับมาเป็นเสียงพูดอีกภาษาหนึ่งเนื่องจากการดำเนินการในลักษณะนี้จะยังมีข้อผิดพลาดอยู่พอควรในระหว่างดำเนินการ หากแต่จะเป็นเทคนิคที่แปลภาษาจากเสียงผู้พูดไปอีกภาษาหนึ่งโดยตรงแบบ end-to-end เลย โดยบริษัทคาดหวังว่าการทำสิ่งนี้จะเปิดแนวทางใหม่ในการพัฒนาโมเดลการแปลภาษาโดยตรงในลักษณะในอนาคตต่อไป

ตามที่ Google ให้ข้อมูล Translatotron นั้นใช้เทคนิคโมเดลโครงข่าย sequence-to-sequence ที่จะนำเอาเสียงพูดมาเป็นข้อมูลเข้าแล้วนำไปประมวลผลโดยแทนค่าเสียงพูดเป็นสเปกโตรแกรม (spectrogram) ซึ่งเป็นแถบคลื่นความถี่ของเสียง จากนั้นจึงสร้างสเปกโตรแกรมใหม่ขึ้นมาสำหรับภาษาปลายทาง ซึ่งผลลัพธ์ที่ได้ในการแปลภาษานั้นมีความรวดเร็วกว่าเดิมและข้อมูลที่จะสูญหายไปในระหว่างทางนั้นลดลงไปด้วย นอกจากนี้ เครื่องมือดังกล่าวยังทำงานร่วมกับตัวเข้ารหัสเสียง (encoder) ได้ด้วย ซึ่งทำให้คงเสียงของผู้พูดไว้ได้

อย่างไรก็ดี เสียงพูดที่แปลออกมานั้นยังคงมีลักษณะคล้ายๆ กับหุ่นยนต์พูดอยู่ แต่ก็ถือว่าสามารถคงบางลักษณะของเสียงผู้พูดได้อย่างมีประสิทธิภาพ โดยคุณสามารถลองฟังตัวอย่างของเสียง Translatotron ที่พยายามคงเสียงผู้พูดไว้ได้ที่หน้าเพจ GitHub

https://o.aolcdn.com/images/dims?resize=2000%2C2000%2Cshrink&image_uri=https%3A%2F%2Fs.yimg.com%2Fos%2Fcreatr-uploaded-images%2F2019-05%2Ff99b2af0-7747-11e9-bfef-2f43050ad813&client=a1acac3e1b3290917d92&signature=4aa2563e2b03fb6c34db4c2f21f38fc3ab1b4511 — Model architecture of Translatotron

Google ได้มีการ fine tune ตัวแปลภาษาในช่วงหลายเดือนที่ผ่านมานี้ และเมื่อปีที่แล้วบริษัทได้ใส่ฟีเจอร์สำเนียงลงไปใน Google Translate ที่สามารถพูดได้หลากหลายภาษาตามสำเนียงของแต่ละพื้นที่ได้ และยังเพิ่มภาษาเข้าไปในฟีเจอร์การแปลแบบ real-time อีกด้วย และเมื่อต้นปีนี้เอง Google Assistant ก็มี “interpreter mode” สำหรับหน้าจออัจฉริยะและลำโพงอัจฉริยะที่สามารถดำเนินการได้ถึง 26 ภาษา

Source : https://www.engadget.com/2019/05/15/google-translatotron-direct-speech-translation/

Share this: