Text-to-speech ของ AWS แปลงเสียงได้เหมือนผู้ประกาศข่าว

August 2, 2019

ด้วยเทคนิคระบบเรียนรู้สมัยใหม่ทำให้เครื่องมือแปลงข้อความเป็นเสียง (text-to-speech) ก้าวหน้าขึ้นมากในช่วงสองสามปีมานี้ เมื่อก่อนเราแยกได้ว่าเป็นเสียงคอมพิวเตอร์ที่กำลังอ่านข้อความ ไม่ใช่เสียงของคนอ่าน แต่ตอนนี้ AWS Cloud Computing จาก Amazon ได้ออกโมเดล text-to-speech จำนวนหนึ่ง รวมถึงสไตล์เสียงแบบผู้ประกาศข่าวด้วย

บริษัทได้กล่าวในประกาศวานนี้ว่า “คุณภาพเสียงนั้นสำคัญยิ่ง แต่ยังมีหลายสิ่งที่ทำได้เพื่อให้เสียงที่สังเคราะห์ออกมานั้นฟังดูสมจริงและชวนให้มีอารมณ์ร่วมด้วย แน่นอนว่าหูของคนแยกความต่างระหว่างผู้ประกาศข่าว ผู้พากย์กีฬา ชั้นเรียนในมหาวิทยาลัย และอื่นๆ แน่นอนว่าคนส่วนใหญ่ปรับลีลาการพูดได้ตามบริบทที่ใช่ และสิ่งนี้ย่อมช่วยให้สารส่งถึงไปได้”

ในตอนนี้ ลีลาการถอดเสียงแบบผู้ประกาศข่าวมาในรูปแบบสำเนียงอเมริกัน (Joanna และ Matthew) และ Amazon ก็ร่วมงานกับ USA Today และ The Globe and Mail ของประเทศแคนาดาเพื่อช่วยบันทึกเสียง

ระบบ text-to-speech นี้มีชื่อเรียกอย่างเป็นทางการว่า Amazon Polly Newscaster ซึ่งเป็นผลจากงานวิจัยหลายปีในด้าน text-to-speech ที่ AWS กำลังดำเนินการเปิดใช้งานผ่านระบบ Neural Text-to-Speech โดยมีเสียงทั้งหมด 11 รูปแบบ เป็นภาษาอังกฤษสำเนียงบริติช 3 เสียง และสำเนียงอเมริกัน 8 เสียง คุณสามารถรับฟังตัวอย่างได้ผ่านลิงก์นี้

ในยุคที่มีข่าวปลอมระบาด การมีเสียงหุ่นยนต์ที่ฟังดูเหมือนผู้ประกาศข่าวตัวจริงนั้นอาจเป็นปัญหาอยู่ในช่วงแรก ทั้งนี้ ไม่ว่าจะเป็นคนอ่านหรือระบบอ่านก็อาจไม่ต่างกันมาก แต่อย่างน้อยก็อาจทำให้คุณทนฟังเสียงแปลงเหล่านี้ได้นานขึ้นก่อนที่คุณจะปิดข้ามไปเสียก่อน

Share this: