ระบบ AI ช่วยสร้างเสียงพูดจากข้อมูลในสมองได้

May 2, 2019

https://news.developer.nvidia.com/wp-content/uploads/2019/05/Neuroscience_Feature.png

เพื่อช่วยให้ประชากรที่สูญเสียความสามารถในการพูดได้ นักวิจัยจากมหาวิทยาลัยแคลิฟอร์เนีย ซานฟรานซิสโก (University of California, San Francisco) ได้พัฒนาวิธีการด้วย deep learning ที่สามารถถอดรหัสและแปลงสัญญาณสมองให้เป็นเสียงพูดได้

“โรคทางระบบประสาท (Neurological condition) ที่ส่งผลให้สูญเสียการสื่อสารไปได้นั้นเป็นสิ่งที่ทำให้หมดหวัง” นักวิจัยเขียนไว้ในงานตีพิมพ์ “เทคโนโลยีที่จะแปลภาษาจากกิจกรรมของประสาทสัมผัสมาเป็นเสียงพูดนั้นจะเป็นการส่งข้อมูลอีกทางหนึ่งสำหรับใครก็ตามที่ไม่สามารถสื่อสารได้อันเนื่องมาจากความบกพร่องทางระบบประสาท”

วิธีการปัจจุบันสำหรับการสร้างเสียงพูดขึ้นมาใหม่นั้นเป็นเรื่องที่ยุ่งยากมากๆ และไม่ค่อยมีประสิทธิภาพมากนัก โดยวิธีการทั่วไปจะทำให้ผู้ป่วยบางคนสามารถเขียนในสิ่งที่คิดได้เป็นตัวอักษร หากแต่มันก็ยังสามารถทำได้แค่ 10 คำต่อนาทีเท่านั้น ซึ่งหากเทียบกับความเร็วของผู้พูดแล้วโดยเฉลี่ยจะอยู่ที่ 150 คำต่อนาที

เพื่อที่จะพัฒนาและทดสอบหลักการ ทีมงานจึงบันทึกข้อมูลสัญญาณ high-density electrocorticographic จากผู้เข้าร่วม 5 คนที่ผ่านการติดตามสัญญาณข้อมูลผ่านกะโหลกศีรษะสำหรับโรคลมบ้าหมู (epilepsy)

https://lh5.googleusercontent.com/cYLMopgeohHMsjL_Vx__f9wsj8lEzTxvpOyftkvmn09d7_ZsCMs1hgJRKY7ey_WOydmVGtqp3iS8NaXdnvMoWx1eETglz0vOeY1Q-Tjp4ZZ15zNlOEPXbQuNbYY-dHkc20vHPbX4 — อุปกรณ์ที่สร้างสัญญาณไฟฟ้าที่ใช้ในการเก็บข้อมูลสัญญาณสมอง

ทีมงานวิจัยได้เทรนโครงข่าย Recurrent Neural Network บนเฟรมเวิร์ก Keras และ TensorFlow กับข้อมูลเสียงของผู้เข้าร่วมที่สอดคล้องกับสัญญาณเยื่อหุ้มสมองจำนวนหลายร้อยประโยค โดยอัลกอริทึมที่ใช้จับ pattern นั้นจะจับมาจากการเคลื่อนไหวของปาก ลิ้น กล่องเสียง และกรามของผู้ป่วยด้วย

https://lh3.googleusercontent.com/ta6bWN2J_Jfm9mhGC1cUCRQ3Khjk8Hx_H9PmIIgiVN1OBZ1xWq5TIIzGSHFjtPOI_OrPtBd6do5w3YZMUoBTVQ8xDm9MMdAh09r32ztlqq2z8hk1RYJPcDzVpqXtUYg0ED1spFrd — ขั้นตอนการสังเคราะห์เสียง

ในการสังเคราะห์เสียงพูดจากฟีเจอร์ต่างๆ ทีมได้ใช้อัลกอริทึมการพัฒนาของ Mellog spectral approximation algorithm within Festvox ซึ่งเป็นเครื่องมือที่ดูแลโดยนักวิจัยจาก speech group ในมหาวิทยาลัยคาร์เนลกีเมลลอน (Carnegie Mellon University)

“สำหรับครั้งแรก งานวิจัยนี้ได้แสดงให้เห็นถึงว่าพวกเราสามารถสร้างประโยคคำพูดได้ทั้งประโยคโดยอิงจากข้อมูลกิจกรรมของสมองแต่ละบุคคลได้” คุณ Edward Chang ศาสตราจารย์ด้านการผ่าตัดระบบประสาท และสมาชิกของสถาบัน UCSF Weill Institute for Neuroscience กล่าว “สิ่งนี้ได้เป็นการพิสูจน์หลักการที่น่ายินดีที่เทคโนโลยีสามารถทำได้แล้ว พวกเราน่าจะสามารถสร้างอุปกรณ์ที่ให้ผู้ป่วยที่สูญเสียการพูดให้มีใช้งานได้ทั่วไป”

อย่างไรก็ดี นักวิทยาศาสตร์กล่าวว่าเทคโนโลยีของพวกเรานั้นยังไม่ได้มีความแม่นยำมากพอที่จะนำมาใช้งานนอกห้องแล็ป แต่มันสามารถสังเคราะห์ได้ทั้งประโยคแล้วตอนนี้ ซึ่งเมื่อทดสอบกับคนจำนวน 101 คน พบว่า 70% ยังเข้าใจในคำที่ออกมาได้อยู่

งานวิจัยนี้เพิ่งได้มีการตีพิมพ์ในวารสาร Nature ซึ่งงานนี้ได้ปูทางสำหรับผู้ที่รอดชีวิตจากโรคหลอดเลือดสมอง โรคพาร์กินสัน และอื่นๆ อีกมากมายให้สามารถสื่อสารได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

Source : https://news.developer.nvidia.com/ai-helps-generate-speech-from-brain-recordings/

Share this: