DeepZen ใช้ระบบ AI สร้างเสียงพูดสำหรับหนังสือเสียง

June 1, 2019

https://news.developer.nvidia.com/wp-content/uploads/2019/05/DeepZen_Feature_1.png

ในทุกๆ ปีจะมีหนังสือเกือบ 1 ล้านเล่มที่ออกมาใหม่ในสหรัฐอเมริกา อย่างไรก็ดี มีเพียง 40,000 เล่มเท่านั้นที่ได้ถูกแปลงให้กลายมาเป็นหนังสือเสียง ส่วนใหญ่เป็นเพราะเรื่องค่าใช้จ่ายและเวลาในการดำเนินการ ด้วยเหตุนี้ทาง DeepZen บริษัทในลอนดอน หนึ่งในสมาชิกโปรแกรม Inception ของ NVIDIA จึงได้สร้างระบบ deep learning ที่สามารถสังเคราะห์เสียงบันทึกรวมถึงเสียงอื่นๆ ที่เกี่ยวข้องได้จากหนังสือแบบอัตโนมัติ ซึ่งเป็นเสียงที่ดูเหมือนมนุษย์และใส่อารมณ์เข้าไปได้ด้วย

“กระบวนการแบบดั้งเดิมนั้นใช้เวลานานเกินไปและราคาก็สูงเกินไปด้วย” คุณ Taylan Kamis ผู้ร่วมก่อตั้งและ CEO บริษัท DeepZen กล่าว “ถ้าคุณลองคิดดู พวกเราต้องหาผู้บรรยาย จัดห้องสตู และต้องบันทึกเสียงจำนวนมากๆ จากคนคนนั้น มันค่อนข้างใช้เวลายาวนาน ซึ่งอาจจะใช้เวลาถึง 3 สัปดาห์หรือ 1 เดือน และยังมีค่าใช้จ่ายที่สูงไปถึง 5,000 ดอลลาร์สหรัฐต่อเล่ม พวกเราจึงหวังว่าสื่งนี้จะเป็นอีกตัวเลือกหนึ่งให้กับผู้ที่ต้องการใช้งานได้”

โดยทีมได้เทรนอัลกอริทึม text-to-speech บนเฟรมเวิร์ก PyTorch และ TensorFlow กับข้อมูลเสียงผู้บรรยายจำนวนหลายพันชั่วโมงขึ้นมา และเมื่อดำเนินการเสร็จสิ้นแล้ว ระบบจึงสามารถวิเคราะห์ข้อความแล้วแปลงมันให้กลายเป็นเสียงพูดได้ พร้อมกับได้เพิ่มอารมณ์ที่จำเป็นเข้าไปในแต่ละประโยคหรือคำที่ต้องมีด้วย

“ในขั้นพื้นฐานนั้น พวกเราสอนให้พูดเหมือนกับที่มนุษย์สอน และถ้าหากคุณคิดถึงเสียงมนุษย์ มันจะมีกฎในการแบ่งวรรคตอน การหยุด อารมณ์ และอีกหลายๆ แง่ที่แตกต่างกันไปในเสียงพูด ซึ่งพวกเราเทรนเพื่อเลียนแบบสิ่งเหล่านี้” คุณ Kamis กล่าว

“พวกเราได้สร้างระบบแบบ end-to-end โดยรับข้อมูลเข้าเป็นข้อความ จากนั้นระบบจะทำความสะอาดและวิเคราะห์ประโยคโดยใช้ระบบ NLP ของพวกเราเพื่อให้เข้าใจบริบท และดึงข้อมูลที่บอกถึงอารมรณ์ความรู้สึกในแต่ละคำและประโยคได้่” คุณ Kerem Souzugecer ตำแหน่ง CTO บริษัทกล่าว “บริบทนั้นถูกกำหนดแนวทางในการดำเนินเรื่องไปตามธรรมชาติระหว่างประโยคและย่อหน้าเพื่อให้มั่นใจถึงความต่อเนื่องในเนื้อเรื่อง เหมือนกับผู้บรรยายที่จะต้องอ่าน”

เครื่องมือนี้อาจมีศักยภาพที่สามารถปฏิวัติเสียงในวีดีโอเกม เสียงพากษ์ และอุตสาหกรรมเกี่ยวกับหนังสือเสียงได้เลย ซึ่งระบบยังสามารถช่วยให้ผู้พิการทางสายตาหรือมีปัญหาทางการมองเห็นนั้นสามารถเข้าถึงหนังสือได้มากขึ้น ซึ่งเสียงที่ระบบ AI สร้างขึ้นมานี้นั้นยังสามารถแก้ไขได้ง่ายๆ ด้วยซอฟต์แวร์เพื่อให้สามารถสื่ออารมณ์ในบรรทัดต่างๆ ได้ดีขึ้นด้วย อีกทั้งสำนักพิมพ์ยังสามารถเลือกเสียงได้หลากหลายแบบ เช่น เลือกเพศ และสำเนียงที่ต้องการได้ ซึ่งจะทำให้สามารถสร้างหนังสือเสียงออกมาได้หลายเวอร์ชันจากหนังสือเล่มเดียวกัน

Source : https://news.developer.nvidia.com/inception-spotlight-deepzen-uses-ai-to-generate-speech-for-audiobooks/

Share this: