OpenAI Five เอาชนะทีม OG แชมป์โลก Dota 2 ได้สองเกมรวด

0

หลังจากที่ได้พ่ายแพ้ให้กับผู้เล่นโปรในงาน The International 2018 ที่ผ่านมา ทีมงาน OpenAI ก็ได้กลับไปซุ่มพัฒนา OpenAI Five และเอาชนะทีมแชมป์โลก OG ไปได้ในช่วงสงกรานต์ที่ผ่านมา

OpenAI Five นั้นเป็นระบบ AI ของเกม Dota 2 ที่ถูกพัฒนาขึ้นด้วยอัลกอริทึม Deep Reinforcement Learning ที่ชื่อว่า Proximal Policy Optimisation (PPO) ซึ่งเป็นอัลกอริทึมที่สามารถเรียนรู้วิดีโอเกม สภาพแวดล้อม 3 มิติ และเกมวางแผนอื่นๆได้อย่างมีประสิทธิภาพ โดยในปี 2018 OpenAI Five ได้ลองปะทะฝีมือ Dota 2 กับโปรจากทีม paIN และแม้จะทำได้ดีและสามารถวางแผนเอาชนะได้ในบางเกม แต่ยังมีแนวการเล่นที่สับสน และแพ้ไปในรอบการแข่งขันสดที่งาน The International 2018

OpenAI Five จึงกลับมาแก้มืออีกครั้งในการแข่งขัน Finals เมื่อวันที่ 13 เมษายนที่ผ่านมา โดยสามารถเอาชนะทีม OG แชมป์โลกจากรายการ The International ไปได้ 2 ตารวด ซึ่งก็เป็นผลมาจากการเทรนที่มากขึ้น ในเวอร์ชั่นปัจจุบัน OpenAI Five มีการรับข้อมูลเข้าไปเทรนถึงวันละ 800 petaflop/s-days เทียบเท่ากับการเล่น Dota 2 ประมาณ 45,000 ปี ในระยะเวลา 10 เดือนที่ผ่านมา

OpenAI ได้มีการใช้ Transfer Learning เข้ามาช่วยให้ AI สามารถเรียนรู้การเล่นเกมในเวอร์ชั่นใหม่ๆได้โดยไม่ต้องเริ่มเรียนรู้ใหม่ และยังได้เรียนรู้การเล่นฮีโร่เพิ่มเติม ทำให้ในตอนนี้สามารถเล่นฮีโร่ได้ 18 ตัวอย่างเชี่ยวชาญ

นอกจากนี้ ในการเทรนครั้งนี้ OpenAI Five ยังได้เรียนรู้ความสามารถในการร่วมมือกับผู้เล่นมนุษย์ด้วยตัวเอง แม้เป้าหมายในการเทรนจะเน้นไปที่การเอาชนะบอทคู่ต่อสู้ก็ตาม ซึ่งนับว่าเป็นแนวทางการเรียนรู้ที่น่าสนใจและเผยให้เห็นถึงอนาคตของการร่วมมือกันทำกิจกรรมต่างๆระหว่างมนุษย์และ AI ด้วย

ทีมงานจะเปิดให้ผู้เล่นทางบ้านได้ลองแข่งกับ OpenAI Five ในวันที่ 18-21 เมษายนที่จะถึงนี้ เพื่อค้นหาจุดอ่อนที่ควรปรับปรุงของระบบเพิ่มเติม โดยผู้ที่สนใจสามารถลงชื่อเข้าร่วมเล่นได้ เพื่อที่ทีมงานจะได้เตรียมเซิฟเวอร์ AI ให้พอเพียงกับจำนวนผู้เล่น

หลังจากนี้ ทีมงานจะปลดระวาง OpenAI Five ในฐานะผู้เล่น โดยจะนำเทคโนโลยีที่ได้จากการพัฒนานี้ลองไปใช้กับงานอื่นๆบ้าง และได้กล่าวว่านี่จะไม่ใช่ผลงานสุดท้ายของพวกเขาในการพัฒนา AI สำหรับ Dota แน่นอน เพราะ Dota นั้นเป็นสภาพแวดล้อมที่น่าสนใจและซับซ้อนเหมาะกับการพัฒนา Reinforcement Learning มากกว่าสภาพแวดล้อมพื้นฐานอื่นๆที่นิยมใช้กันในปัจจุบัน

ส่วนผลงานถัดไปของพวกเขาจะเป็นอะไรนั้น ก็ต้องติดตามกันต่อไป