นักวิจัย Bing สร้างวิธีการใหม่ในการเก็บข้อมูลที่มีคุณภาพสูงสำหรับใช้เทรนระบบ AI

0
https://venturebeat.com/wp-content/uploads/2016/03/Bing2520Logo2520HD2520Wallpaper-1.jpg?fit=578%2C361&strip=all

นักวิจัยในทีม Bing แห่ง Microsoft ได้สร้างวิธีการใหม่ในการสร้างข้อมูลที่มีคุณภาพสูงสำหรับใช้เทรนโมเดลการเรียนรู้ของเครื่อง (Machine Learning) โดยในบล็อคโพสและงานวิจัยที่ตีพิมพ์ในสัมมนาวิชาการ Computer Vision and Pattern Recognition (CVPR) ที่เมืองซอลท์เลคซิตี้ พวกเขาอธิบายว่าระบบสามารถแยกแยะระหว่างข้อมูลที่ติดป้าย (label) ว่าถูกต้องหรือไม่ถูกต้องได้ ซึ่งผลลัพธ์ออกมาได้ผลสอดคล้องอย่างน่าประทับใจ

“การเก็บข้อมูลสำหรับเทรนที่มีคุณภาพสูงเพียงพอนั้นเป็นส่วนที่ท้าทายที่สุดในการสร้างบริการของระบบ AI” นักวิจัยเขียน “เป็นปกติที่ข้อมูลที่ติดป้ายโดยมนุษย์นั้นจะมีคุณภาพที่สูงกว่า (แต่ก็มีผิดพลาดอยู่บ้าง) แต่ก็จะมาพร้อมกับต้นทุน (cost) ที่สูง ทั้งในส่วนของเงินและเวลา ในทางกลับกัน วิธีการสร้างโดยอัตโนมัติก็จะสามารถสร้างข้อมูลจำนวนมหาศาล หากแต่ผลลัพธ์ที่ได้ก็มีการติดป้ายที่ผิดพลาดมากกว่า (เรียกว่า noise)”

ตามที่ทีม Bing อธิบาย อัลกอริทึมสำหรับเทรนนั้นต้องการจำนวนข้อมูลหลายร้อยหลายพันหรือหลายล้านตัวอย่างข้อมูล แล้วจะต้องจัดเรียงข้อมูลเหล่านั้นให้เป็นหมวดหมู่ (category) ซึ่งจะเป็นการกระบวนการที่ยุ่งยาหกเมื่อดำเนินการแบบ manual โดย data scientist อีกแบบหนึ่งที่เป็นทางลัดที่มักใช้กันคือการ”ดูด (scraping)” ข้อมูลจากระบบ search engine โดยนำลิสต์ข้อมูลหมวดหมู่มารวมเข้าไว้ด้วยกันแล้วใช้ web สืบค้นในแต่ละข้อมูลในลิสต์แล้วเก็บผลลัพธ์ที่ได้ ตัวอย่างเข่น การสร้างคลัง corpus สำหรับอัลกอริทึม computer vision ที่จะสามารถคัดแยกระหว่างความต่างของชนิดอาหาร ซึ่งคุณสามารถดำเนินการสืบค้นภาพโดยใช้คำว่า “ซูชิ (sushi)” เพื่อเอารูปซูชิมาเก็บไว้ได้

https://venturebeat.com/wp-content/uploads/2018/06/Figure2.png?w=747&resize=747%2C266&strip=all
การใช้โมเดลเพื่อลบข้อมูล noise ออก

 

หากแต่ไม่ใช่ทุกผลลัพธ์จะสอดคล้องกับการสืบค้นใน category นั้นๆ ซึ่งข้อมูลเทรนที่ผิดพลาดนั้นสามารถนำไปสู่การสร้างโมเดล machine learning ที่มีไบแอส (bias) และความถูกต้องที่ไม่ดีได้ ทางหนึ่งที่จะบรรเทาปัญหาการติดป้ายผิดพลาดไปคือการเทรนอัลกอริทึมที่ 2 ที่จะช่่วยค้นหาการติดป้ายที่ผิดพลาดและทำให้มันถูกต้อง หากแต่มันก็เป็นวิธีการประมวลผลที่หนักหน่วงนั่นก็คือโมเดลจะต้องเทรนในแต่ละ category ขึ้นมา

วิธีการของทีม Bing คือการใช้โมเดล AI ระบบหนึ่งที่สามารถแก้ไขความผิดพลาดที่เกิดขึ้นได้อย่าง real time โดยระหว่างการเทรนนั้น หนึ่งในส่วนของระบบเรียกว่า class embedding vector จะดำเนินการเรียนรู้การเลือกภาพที่จะเป็นตัวแทนที่ดีที่สุดในแต่ละ category ได้อัตโนมัติ ในขณะเดียวกันอีกส่วนหนึ่งเรียกว่า query embedding vector เรียนรู้ที่จะฝังภาพตัวอย่างลงไปใน vector เดียวกัน ซึ่งเมื่อเริ่มเทรน ระบบถูกออกแบบเพื่อที่จะทำให้ class embedding vector และ query image vector ค่อยๆ มีความคล้ายกันมากยิ่งขึ้นเรื่อยๆถ้าหากภาพนั้นอยู่ใน category นั้นๆ หรือว่าต่างกันโดยสิ้นเชิงหากไม่ใช่

ในที่สุด ระบบก็สามารถระบุรูปแบบ (pattern) ที่จะใช้เพื่อค้นหาตัวแทนภาพสำหรับแต่ละ category ที่ดีมาได้ ซึ่งมันทำงานได้อย่างน่าเชื่อถือโดยที่ไม่ต้องมีแรงงานมนุษย์มาติดป้าย ทีมงานกล่าว

“วิธีการดังกล่าวได้พิสูจน์แล้วว่าใช้งานได้ดีในการสร้างข้อมูลเทรนที่มีความสะอาดในงานที่เกี่ยวข้องกับภาพ” ทีมงานเขียน “พวกเราเชื่อว่ามันจะมีประโยชน์เช่นเดียวกันเมื่อนำไปประยุกต์ใช้งานด้านวีดีโอ ข้อความ หรือเสียง”

Source : https://venturebeat.com/2018/06/18/bing-researchers-develop-a-novel-way-of-collecting-high-quality-ai-training-data/