นักวิจัยจากมหาวิทยาลัยจอนส์ฮอปกินส์ (Johns Hopkins University) และ Amazon ได้ตีพิมพ์งานวิจัยใหม่ที่อธิบายถึงวิธีการที่พวกเขาได้เทรนระบบ deep learning ที่สามารถช่วยให้ Alexa มองข้ามเสียงที่ไม่ได้ตั้งใจจะเข้ามาได้ ซึ่งทำให้ปรับปรุงโมเดลการรู้จำเสียงได้ดีขึ้น 15%
“อุปกรณ์ในบ้านที่ควบคุมด้วยเสียงอย่าง Amazon Echo หรือ Google Home นั้นจะเจอกับปัญหาของอุปกรณ์ในการดำเนินการรู้จำเสียงคำสั่งที่มีมาพร้อมกับเสียง background ที่แทรกเข้ามาด้วย” นักวิจัยกล่าวไว้ในงานตีพิมพ์
เพื่อที่จะดำเนินการให้สำเร็จ นักวิจัยจึงเทรนระบบโครงข่ายประสาทเทียม (Neural Network) เพื่อที่จะจับ match เสียงของคนที่พูดของคนที่ใช้คำสั่งเรียก Alexa และรู้จำเสียงที่ตามมาที่สอดคล้องกับเสียงของคนที่สั่ง แล้วเพิกเฉยกับเสียงที่แทรกเข้ามาจากคนอื่นๆ หรือว่าจาก media อื่นๆ ได้
“ความท้าทายของงานนี้คือเป็นการเรียนรู้ตัวแทนของเสียงผู้พูดจากส่วนสั้นๆ ที่จะมีความเกี่ยวพันกับคำที่ต่อเนื่องกันมาให้ได้” นักวิจัยกล่าว “พวกเราพัฒนาเทคนิคนี้โดยใช้โครงสร้าง 2 Neural Network ซึ่งทั้งคู่จะเป็นลักษณะโครงข่าย sequence-to-sequence encoder-decoder ที่มาพร้อมกับ attention mechanism” นักวิจัยกล่าวเพิ่มเติม
โดยทีมนักวิจัยได้ใช้เครื่องมือ OpenSeq2Seq และ TensorFlow สำหรับการสร้างโมเดลขึ้นมา โดยใช้ข้อมูล live ภาษาอังกฤษ 1,200 ชั่วโมงจาก Amazon Echo ในการเทรนโมเดล
และด้วยการแก้ไขโครงสร้างของ network ที่พัฒนาขึ้นมา ทีมเพิ่ม input เข้าไปอีกอันที่จะเพิ่มให้ attention mechanism โดยให้ลำดับความสำคัญของเสียงที่คล้ายกับคำที่ติดกันมากกว่า “ระหว่างเทรนนั้น attention mechanism นั้นจะสามารถเรียนรู้ลักษณะของเสียงในคำ wake word เพื่อที่จะมองหาคำที่ตามมาของเสียงเดียวกันได้” ทีมเพิ่มเติม
ท้ายที่สุด วิธีการนี้ก็สามารถดำเนินการได้ดีกว่าเดิม 15% ซึ่งสามารถอ่านรายละเอียดเพิ่มเติมในงานตีพิมพ์ และจากโพสนี้ในบล็อคของ Alexa