นักวิจัยในทีม Bing แห่ง Microsoft ได้สร้างวิธีการใหม่ในการสร้างข้อมูลที่มีคุณภาพสูงสำหรับใช้เทรนโมเดลการเรียนรู้ของเครื่อง (Machine Learning) โดยในบล็อคโพสและงานวิจัยที่ตีพิมพ์ในสัมมนาวิชาการ Computer Vision and Pattern Recognition (CVPR) ที่เมืองซอลท์เลคซิตี้ พวกเขาอธิบายว่าระบบสามารถแยกแยะระหว่างข้อมูลที่ติดป้าย (label) ว่าถูกต้องหรือไม่ถูกต้องได้ ซึ่งผลลัพธ์ออกมาได้ผลสอดคล้องอย่างน่าประทับใจ
“การเก็บข้อมูลสำหรับเทรนที่มีคุณภาพสูงเพียงพอนั้นเป็นส่วนที่ท้าทายที่สุดในการสร้างบริการของระบบ AI” นักวิจัยเขียน “เป็นปกติที่ข้อมูลที่ติดป้ายโดยมนุษย์นั้นจะมีคุณภาพที่สูงกว่า (แต่ก็มีผิดพลาดอยู่บ้าง) แต่ก็จะมาพร้อมกับต้นทุน (cost) ที่สูง ทั้งในส่วนของเงินและเวลา ในทางกลับกัน วิธีการสร้างโดยอัตโนมัติก็จะสามารถสร้างข้อมูลจำนวนมหาศาล หากแต่ผลลัพธ์ที่ได้ก็มีการติดป้ายที่ผิดพลาดมากกว่า (เรียกว่า noise)”
ตามที่ทีม Bing อธิบาย อัลกอริทึมสำหรับเทรนนั้นต้องการจำนวนข้อมูลหลายร้อยหลายพันหรือหลายล้านตัวอย่างข้อมูล แล้วจะต้องจัดเรียงข้อมูลเหล่านั้นให้เป็นหมวดหมู่ (category) ซึ่งจะเป็นการกระบวนการที่ยุ่งยาหกเมื่อดำเนินการแบบ manual โดย data scientist อีกแบบหนึ่งที่เป็นทางลัดที่มักใช้กันคือการ”ดูด (scraping)” ข้อมูลจากระบบ search engine โดยนำลิสต์ข้อมูลหมวดหมู่มารวมเข้าไว้ด้วยกันแล้วใช้ web สืบค้นในแต่ละข้อมูลในลิสต์แล้วเก็บผลลัพธ์ที่ได้ ตัวอย่างเข่น การสร้างคลัง corpus สำหรับอัลกอริทึม computer vision ที่จะสามารถคัดแยกระหว่างความต่างของชนิดอาหาร ซึ่งคุณสามารถดำเนินการสืบค้นภาพโดยใช้คำว่า “ซูชิ (sushi)” เพื่อเอารูปซูชิมาเก็บไว้ได้
หากแต่ไม่ใช่ทุกผลลัพธ์จะสอดคล้องกับการสืบค้นใน category นั้นๆ ซึ่งข้อมูลเทรนที่ผิดพลาดนั้นสามารถนำไปสู่การสร้างโมเดล machine learning ที่มีไบแอส (bias) และความถูกต้องที่ไม่ดีได้ ทางหนึ่งที่จะบรรเทาปัญหาการติดป้ายผิดพลาดไปคือการเทรนอัลกอริทึมที่ 2 ที่จะช่่วยค้นหาการติดป้ายที่ผิดพลาดและทำให้มันถูกต้อง หากแต่มันก็เป็นวิธีการประมวลผลที่หนักหน่วงนั่นก็คือโมเดลจะต้องเทรนในแต่ละ category ขึ้นมา
วิธีการของทีม Bing คือการใช้โมเดล AI ระบบหนึ่งที่สามารถแก้ไขความผิดพลาดที่เกิดขึ้นได้อย่าง real time โดยระหว่างการเทรนนั้น หนึ่งในส่วนของระบบเรียกว่า class embedding vector จะดำเนินการเรียนรู้การเลือกภาพที่จะเป็นตัวแทนที่ดีที่สุดในแต่ละ category ได้อัตโนมัติ ในขณะเดียวกันอีกส่วนหนึ่งเรียกว่า query embedding vector เรียนรู้ที่จะฝังภาพตัวอย่างลงไปใน vector เดียวกัน ซึ่งเมื่อเริ่มเทรน ระบบถูกออกแบบเพื่อที่จะทำให้ class embedding vector และ query image vector ค่อยๆ มีความคล้ายกันมากยิ่งขึ้นเรื่อยๆถ้าหากภาพนั้นอยู่ใน category นั้นๆ หรือว่าต่างกันโดยสิ้นเชิงหากไม่ใช่
ในที่สุด ระบบก็สามารถระบุรูปแบบ (pattern) ที่จะใช้เพื่อค้นหาตัวแทนภาพสำหรับแต่ละ category ที่ดีมาได้ ซึ่งมันทำงานได้อย่างน่าเชื่อถือโดยที่ไม่ต้องมีแรงงานมนุษย์มาติดป้าย ทีมงานกล่าว
“วิธีการดังกล่าวได้พิสูจน์แล้วว่าใช้งานได้ดีในการสร้างข้อมูลเทรนที่มีความสะอาดในงานที่เกี่ยวข้องกับภาพ” ทีมงานเขียน “พวกเราเชื่อว่ามันจะมีประโยชน์เช่นเดียวกันเมื่อนำไปประยุกต์ใช้งานด้านวีดีโอ ข้อความ หรือเสียง”