
การพูดอีกภาษาหนึ่งอาจจะสามารถดำเนินการได้ง่ายขึ้นกว่าเดิมแล้ว โดย Google ได้แสดงตัว Translatotron โมเดลแปลภาษาตัวแรกที่สามารถแปลงเสียงพูดจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งในขณะที่ยังสามารถรักษาเสียงพูดและจังหวะของผู้พูดได้
เครื่องมือนี้ไม่ได้ใช้ขั้นตอนแบบปกติที่จะมีการแปลเสียงพูดไปเป็นข้อความก่อนแล้วค่อยแปลงกลับมาเป็นเสียงพูดอีกภาษาหนึ่งเนื่องจากการดำเนินการในลักษณะนี้จะยังมีข้อผิดพลาดอยู่พอควรในระหว่างดำเนินการ หากแต่จะเป็นเทคนิคที่แปลภาษาจากเสียงผู้พูดไปอีกภาษาหนึ่งโดยตรงแบบ end-to-end เลย โดยบริษัทคาดหวังว่าการทำสิ่งนี้จะเปิดแนวทางใหม่ในการพัฒนาโมเดลการแปลภาษาโดยตรงในลักษณะในอนาคตต่อไป
ตามที่ Google ให้ข้อมูล Translatotron นั้นใช้เทคนิคโมเดลโครงข่าย sequence-to-sequence ที่จะนำเอาเสียงพูดมาเป็นข้อมูลเข้าแล้วนำไปประมวลผลโดยแทนค่าเสียงพูดเป็นสเปกโตรแกรม (spectrogram) ซึ่งเป็นแถบคลื่นความถี่ของเสียง จากนั้นจึงสร้างสเปกโตรแกรมใหม่ขึ้นมาสำหรับภาษาปลายทาง ซึ่งผลลัพธ์ที่ได้ในการแปลภาษานั้นมีความรวดเร็วกว่าเดิมและข้อมูลที่จะสูญหายไปในระหว่างทางนั้นลดลงไปด้วย นอกจากนี้ เครื่องมือดังกล่าวยังทำงานร่วมกับตัวเข้ารหัสเสียง (encoder) ได้ด้วย ซึ่งทำให้คงเสียงของผู้พูดไว้ได้
อย่างไรก็ดี เสียงพูดที่แปลออกมานั้นยังคงมีลักษณะคล้ายๆ กับหุ่นยนต์พูดอยู่ แต่ก็ถือว่าสามารถคงบางลักษณะของเสียงผู้พูดได้อย่างมีประสิทธิภาพ โดยคุณสามารถลองฟังตัวอย่างของเสียง Translatotron ที่พยายามคงเสียงผู้พูดไว้ได้ที่หน้าเพจ GitHub
Google ได้มีการ fine tune ตัวแปลภาษาในช่วงหลายเดือนที่ผ่านมานี้ และเมื่อปีที่แล้วบริษัทได้ใส่ฟีเจอร์สำเนียงลงไปใน Google Translate ที่สามารถพูดได้หลากหลายภาษาตามสำเนียงของแต่ละพื้นที่ได้ และยังเพิ่มภาษาเข้าไปในฟีเจอร์การแปลแบบ real-time อีกด้วย และเมื่อต้นปีนี้เอง Google Assistant ก็มี “interpreter mode” สำหรับหน้าจออัจฉริยะและลำโพงอัจฉริยะที่สามารถดำเนินการได้ถึง 26 ภาษา
Source : https://www.engadget.com/2019/05/15/google-translatotron-direct-speech-translation/