MIT สร้างระบบ AI ที่สามารถจัดการรู้จำเสียงและวัตถุได้พร้อมๆ กัน

0
https://news.developer.nvidia.com/wp-content/uploads/2018/09/Featured_MIT.png

ทีมนักวิจัยจาก MIT ได้พัฒนาระบบ deep learning ที่สามารถระบุวัตถุต่างๆ ภายในภาพตามที่มีคนพูดอธิบายรายละเอียดต่างๆ ภายในภาพได้แบบ real time

“พวกเราต้องการที่จะทำการรู้จำเสียงพูด (speech recognition) ในทางที่เป็นธรรมชาติมากยิ่งขึ้น โดยเป็นการใช้ประโยชน์ของสัญญาณและข้อมูลที่เพิ่มเข้าไปที่จะทำให้มนุษย์ได้รับประโยชน์ในการใช้งานมากยิ่งขึ้น แต่ว่าอัลกอริทึมการเรียนรู้ของเครื่อง (Machine Learning) นั้นโดยทั่วไปจะไม่สามารถเข้าถึงได้” คุณ David Harwath นักวิจัยในห้องปฏิบัติการ Computer Science and Artificial Intelligence Laboratory กล่าวไว้ใน MIT News “พวกเราจึงมีไอเดียที่จะเทรนโมเดลที่มีลักษณะเหมือนกับการเดินพาเด็กไปดูโลกและเล่าเรื่องว่าคุณกำลังมองเห็นอะไร”

โดยให้ข้อมูลภาพและเสียงเกี่ยวกับรายละเอียดในวีดีโอในการเทรนโมเดล จึงทำให้ระบบสามารถจับคู่ข้อมูลขอบเขตที่สัมพันธ์สอดคล้องกันตามที่อธิบายไว้ในข้อมูลเสียงได้ ซึ่งคุณ Harwath และทีมงานได้เทรนระบบโครงข่าย Convolutional Neural Network 2 โมเดลกับข้อมูลภาพและข้อมูล caption จำนวน 402,385 คู่ โดยหนึ่งในโครงข่าย CNN นั้นจะประมวลผลข้อมูลภาพ และอีกตัวหนึ่งจะประมวลผลข้อมูล spectrogram

ทีมนักวิจัยกล่าวว่า สิ่งที่ทำให้เกิดกระบวนการที่แตกต่างไปนี้คือ งานนี้ไม่ได้ใช้รูปแบบการรู้จำเสียงหรือวัตถุในรูปแบบตามที่ดำเนินการกันมาโดยทั่วไป โดยจะใช้วิธีการเรียนรู้จุดที่คงไว้ (fixed point) ใน embedding space แทน ซึ่งระบบโครงข่ายประสาทเทียมจะเรียนรู้ representation ที่กระจายตัวอยู่ทั้งแบบ spatial และ temporal

“ทั้งข้อมูลเสียงและภาพนั้นไม่สามารถที่จะตัดส่วน (segment) จัดตำแหน่ง (align) และทำคำอธิบายประกอบ (annotate) ได้ระหว่างการเทรนโมเดลเหล่านั้น ซึ่งจะนอกเหนือจากสมมติฐานที่พวกเรารู้ว่าภาพใดกับคำอธิบายจากเสียงพูดใดควรจะต้องอยู่คู่กัน” คุณ Harwath กล่าว “สิ่งที่เป็น contribution ใหญ่ที่สุดของงานตีพิมพ์นี้เป็นการแสดงให้เห็นว่าสิ่งที่เป็นการจัดวางโมเดลต่างๆ มาใช้งานร่วมกันนั้นสามารถที่จะนำมาอ้างอิงกันได้อัตโนมัติโดยเพียงนำโครงข่ายมาสอนอย่างง่ายๆ ว่าภาพใดหรือคำอธิบายใดควรจะต้องอยู่คู่กัน หรือว่าส่วนคู่ใดที่ไม่ใช่”

โดยโครงข่ายนี้จะมีคลังคำศัพท์ถึง 44,000 คำและได้ถูกเทรนกับข้อมูลเสียงจากผู้พูดประมาณ 2,500 คน

งานนี้ได้ถูกนำเสนอในงานสัมมนาวิชาการ ECCV ในประเทศเยอรมนีเมื่อเร็วๆ นี้ โดยโค้ดและข้อมูล dataset นั้นได้ตีพิมพ์ online ตามลิงก์นี้

Source : https://news.developer.nvidia.com/mit-develops-ai-that-handles-speech-and-object-recognition-all-at-once/