Facebook ได้อัพเดท Dynabench ล่าสุดว่าเพิ่มเติม Dynaboard แพลตฟอร์ม Evaluation-as-a-Service เพื่อกำกับการวัดผลโมเดลการประมวลผลภาษาธรรมชาติ (Natural Language Processing : NLP) ได้แบบ on demand ซึ่งบริษัทเคลมว่า Dynaboard จะทำให้สามารถเปรียบเทียบโมเดลต่างๆ ได้แบบ apple-to-apple โดยที่ไม่มีปัญหาเรื่องบั๊กในโค้ดทดสอบ หรือข้อมูลทดสอบที่ไม่สอดคล้องกั หรือว่าปัญหาในการทำซ้ำขึ้นมา
โดยเมื่อกันยายนปีที่ผ่านมา ทาง Facebook ได้เปิดตัว Dynabench แพลตฟอร์มสำหรับโมเดล AI ในการเก็บรวบรวมข้อมูลและวัดผล (benchmarking) ที่ใช้มนุษย์และโมเดล “ภายในลูป”เพื่อสร้างชุด dataset ทดสอบที่ท้าทายขึ้นมา ด้วยเทคนิคที่มีชื่อว่า Dynamic Adversarial Data Collection ซึ่ง Dynabench จะวัดผลว่ามนุษย์จะสามารถหลอกโมเดล AI ได้ง่ายเพียงใด โดย Facebook เชื่อว่าแพลตฟอร์มนี้จะเป็นตัวบ่งชี้คุณภาพของโมเดลที่ดีกว่าวิธีการ benchmark แบบอื่น ๆ ที่มีอยู่ในปัจจุบันได้
“ที่สำคัญ ตอนนี้ยังไม่ได้มีวิธีการที่ถูกต้องใดๆ ในการจัดลำดับโมเดลในงานวิจัยด้าน AI” Facebook เขียนในบล็อคโพส “ตั้งแต่เปิดตัว Dynabench พวกเราได้เก็บรวบรวมกว่า 400,000 ตัวอย่างและได้ปล่อย 2 ชุด dataset ใหม่ออกมา ซึ่งตอนนี้พวกเรามีชุด adversarial benchmark สำหรับ 4 task เริ่มต้นทั้งหมดภายใน Dynabench แล้ว โดยมุ่งเน้นในเรื่องของการเข้าใจภาษาต่างๆ แม้ว่าแพลตฟอร์มอื่นๆ จะได้แก้ไขปัญหาส่วนอื่นๆ ไปแล้วอย่างเช่น การทำซ้ำ (reproducilbility) การเข้าถึงได้ (accessibility) ความเข้ากันได้ (compatibility) แต่ Dynabench ได้จัดการกับปัญหาต่างๆ เหล่านี้ในโซลูชันแบบ end-to-end ภายในแพลตฟอร์มเดียวเลย”