MIT และ IBM พัฒนา AI แนะนำเอกสารตามหัวเรื่อง

0

ทีมวิจัยจาก MIT-IBM Watson AI Lab และ Geometric Data Processing Group ของ MIT ได้คิดค้นเทคนิคที่ผสมผสานเครื่องมือ AI ยอดนิยมที่รวมถึง embedding และ optimal transport ซึ่งวิธีการนี้สามารถสแกนแสดงผลความน่าจะเป็นได้หลายล้านเพียงมีข้อมูลเฉพาะประวัติความนิยมของบุคคลนั้น หรือความนิยมของกลุ่มคน

Justin Solomon ผู้นำงานวิจัยและผู้ช่วยศาสตราจารย์ที่ MIT กล่าวในแถลงการณ์ว่า “บนอินเทอร์เน็ตมีบทความจำนวนมหาศาล อะไรที่ช่วยลดปริมาณเหล่านั้นให้เข้าถึงสิ่งที่ต้องการได้ง่ายขึ้นย่อมเป็นประโยชน์อยู่แล้ว”

อัลกอริธึมของทีมวิจัยนี้สรุปชุดข้อมูลบทความเป็นหัวเรื่องไปโดยอิงจากคำที่ใช้บ่อยในชุดนั้น จากนั้นจึงแบ่งข้อมูลบทความเป็น 5-15 หัวเรื่องที่สำคัญที่สุด โดยมีการจัดลำดับถึงความสำคัญของแต่ละหัวเรื่องให้ตรงกับบทความนั้นในภาพรวม

Embedding ซึ่งเป็นการใช้ตัวเลขนำเสนอชุดข้อมูลซึ่งในที่นี้คือ คำ ได้นำมาช่วยหาความเหมือนระหว่างคำ ส่วน optimal transport ช่วยคำนวณวิธีที่มีประสิทธิภาพที่สุดในการย้ายวัตถุ (หรือจุดข้อมูล) ไปยังหลากหลายปลายทาง ทั้งสองเทคนิคถูกนำมาใช้ทำงานร่วมกันด้วยการเปรียบเทียบหัวเรื่องในคลังและประเมินว่าเนื้อหาธีมคาบเกี่ยวกันมากน้อยเพียงใด ซึ่งใช้งานได้ดีเมื่อต้องสแกนชุดข้อมูลหนังสือและเอกสารขนาดใหญ่ จากชุดข้อมูลหัวเรื่องทั้ง 1,720 คู่ที่ชุดข้อมูลของ Gutenberg Project พบว่า อัลกอริธึมสามารถจับคู่ทั้งหมดได้ภายในหนึ่งวินาที หรือเร็วกว่าวิธีเดิมมากกว่า 800 เท่า

นอกจากนี้ อัลกอริธึมยังทำงานได้เหนือกว่าในเรื่องของการแบ่งประเภทเอกสาร เช่น การจัดกลุ่มหนังสือในชุดข้อมูล Gutenberg ตามผู้เขียนและการรีวิวสินค้าจาก Amazon ตามสาขา อีกทั้งยังอธิบายได้ที่ระบบให้รายชื่อหัวเรื่องนี้มา ซึ่งช่วยให้ผู้ใช้เข้าใจได้ดีขึ้นถึงเหตุผลว่าทำไมระบบถึงแนะนำเอกสารเหล่านั้น

นักวิจัยมีพื้นที่ให้งานได้พัฒนาต่อไปโดยหวังว่าจะนำวิธีการนี้ไปใช้กับชุดข้อมูลขนาดใหญ่ขึ้น และศึกษาการนำไปประยุกต์ใช้การค้นหารูปภาพหรือข้อมูลสามมิติ