
ตั้งแต่เมื่อปี 2014 ทาง Microsoft ได้เปิดตัว Project Alexandria โครงการวิจัยภายในแผนกวิจัยของมหาวิทยาลัย Cambridge เพื่อมุ่งเน้นการค้นหา entities หรือ topics ของข้อมูล รวมทั้ง properties ที่เกี่ยวข้องอื่นๆ ออกมาจากเอกสาร ซึ่งล่าสุดสามารถทำให้เกิดกระบวนการรันแบบ unsupervised learning ได้แล้ว
เทคโนโลยีของ Alexandria นั้นได้ไปอยู่ใน Microsoft Viva Topics ที่เพิ่งเปิดตัวไปเมื่อกุมภาพันธ์ที่ผ่านมา ซึ่งจะสามารถจัดการกับเอกสาร เนื้อหาข้อมูลความเชี่ยวชาญต่างๆ ในองค์กรจำนวนมหาศาลได้อย่างอัตโนมัติ โดยทีม Alexandria นั้นรับผิดชอบในการระบุ topics และ metadata ของข้อมูลโดยใช้ระบบ AI เพื่อจัดการ (parse) เนื้อหาของเอกสารภายใน datasets

Project Alexandria นั้นสามารถดำเนินการค้นหาหัวข้อและการเชื่อมโยงต่างๆ ด้วยวิธีการ Machine Learning ที่เรียกว่า Probabilistic Programming ซึ่งอธิบายถึงกระบวนการดังกล่าวโดยบอกได้ว่า topics และ properties ใดที่ถูกอ้างถึงในเอกสารบ้าง และด้วยโปรแกรมเดียวกันนี้สามารถรันเพื่อสกัดเอา topics ออกมาจากเอกสารได้เลย ซึ่งข้อได้เปรียบของวิธีการดังกล่าวนี้คือข้อมูลที่เกี่ยวกับงานนี้จะถูกรวมเข้าไปใน Probabilistic Programming ภายในตัวเองโดยที่ไม่จำเป็นจะต้องใช้ข้อมูลที่มีการติดป้าย (labeled data) แต่อย่างใด นั่นหมายความว่าสามารถทำให้เกิดกระบวนการรันแบบ unsupervised ซึ่งทำงานได้อย่างอัตโนมัติโดยที่ไม่จำเป็นจะต้องมีมนุษย์มาให้ข้อมูลเข้าแต่อย่างใด
“ภายในโครงการได้มีความก้าวหน้าอย่างมากอย่างมากนับจากจุดเริ่มต้น ด้วยศักยภาพของ Machine Learning พวกเราได้สร้างแนวทางด้านสถิติมากมายที่ทำให้สามารถสกัดและแสดงจำนวน entities และ properties ต่างๆ ได้ อย่างเช่น ชื่อของโครงการ หรือวันที่ของ event” คุณ Yordan Zaykov ผู้จัดการฝ่ายวิศวกรรมแห่ง Alexandria กล่าว “พวกเรายังได้พัฒนาอัลกอริทึมที่แม่นยำในการตัดสินอย่างแม่นยำไม่ว่าข้อมูลจะถูกดึงมาจากแหล่งต้นทางที่แตกต่างกันแต่อ้างไปถึง entity เดียวกันได้ รวมทั้งความก้าวหน้าในด้านวิศวกรรม พวกเราสามารถ scale up ระบบที่ทำให้รันอัลกอริทึมได้แบบคู่ขนาน (parallel) และกระจาย (distribute) ไปรันได้ในหลายๆ เครื่อง ดังนั้น จึงสามารถดำเนินการบน Big Data ได้โดยแท้จริง ไม่ว่าจะเป็นเอกสารของทั้งองค์กรเลย หรืออว่าทั้งเว็บใดๆ ก็ทำได้เลย”