ทีมมนุษย์ชนะ 2 เกมรวดจากการแข่งขัน Dota 2 แบบ 5v5 กับ OpenAI Five

August 24, 2018

Dota 2 นั้นเป็นหนึ่งในหัวข้องานวิจัยทางปัญญาประดิษฐ์ที่ได้รับความสนใจเป็นอย่างมากในช่วงที่ผ่านมา เพราะการเอาชนะเกมนี้ในแต่ละตานั้นหมายถึงความสามารถในการเข้าใจเกมและตัวละครของคู่ต่อสู้ การประมวลผลปัจจัยแวดล้อมจำนวนมากเพื่อตัดสินใจ การวางแผนระยะยาว และการร่วมมือกันในทีม ซึ่งในครั้งนี้องค์กร OpenAI ได้ส่ง OpenAI Five เข้าแข่งกันกับ paIN Gaming ทีมผู้เล่น Dota 2 มืออาขีพจากทวีปอเมริกาใต้ และทีมมืออาชีพจากประเทศจีน ในทัวร์นาเมนท์ The International 2018

OpenAI Five นั้นเป็นบอท Dota 2 ที่ถูกพัฒนาขึ้นด้วยอัลกอริทึม reinforcement learning ที่เรียกว่า Proximal Policy Optimization (PPO) โดยในการเล่นเกม Dota 2 นั้น อัลกอริทึมนี้ต้องเผชิญกับความท้าทายในการประมวลผลข้อมูลจำนวนมหาศาลที่รวมไปถึงแผนที่ของเกมที่มีการเปลี่ยนแปลงและมี action จากผู้เล่น ตัวละคร NPC และวัตถุอื่นในแผนที่ตลอดเวลา ซึ่งเป็นภาพที่มีการเปลี่ยนแปลงเร็วถึง 30 เฟรมต่อวินาที โดยการประมวลผลภาพทั้งหมดและการตัดสินใจนั้นจะต้องเกิดขึ้นแบบ real-time เพื่อให้สามารถรับมือกับคู่ต่อสู้ได้ทันท่วงที โดยในปัจจุบัน OpenAI Five สามารถเล่นได้เพียงตัวละครบางตัวใน Dota 2 ในสภาพแวดล้อมที่จำกัด

การแข่งขันระหว่าง OpenAI Five และทีม paIN Gaming นัดแรกนั้นได้เริ่มต้นไปเมื่อวันพุธที่ผ่านมาตามเวลาท้องถิ่นของ Vancouver โดยเป็นการพบกันระหว่างตัวละครฮีโร่ที่นักพัฒนา OpenAI Five และทีม Pain Gaming เลือกร่วมกันโดยหวังให้เกิดความสมดุลในเกมมากที่สุด และในการแข่งขันดังกล่าว จะเป็นครั้งแรกที่ OpenAI เล่นโดยใช้ Courrier (ตัวละครที่คอยส่งไอเท็มให้ผู้เล่น) เพียงตัวเดียว จากเดิมที่ใช้ courier อมตะ 1 ตัวต่อ 1 ผู้เล่นในทีมมาตลอด

ผลการแข่งขันพบว่าทีม OpenAI Five นั้นสู้กับทีมผู้เล่นมนุษย์ได้อย่างสูสีในหลายช่วงของเกม และสามารถตัดสินใจเพื่อรับมือกับผู้เล่นมนุษย์ได้อย่างดีเยี่ยม เช่น การออกคำสั่งให้ผู้เล่นภายในทีมใช้สกิลเพื่อหยุดศัตรูฝ่ายตรงข้าม แล้วร่วมมือกับผู้เล่นอื่นภายในทีมโจมตีศัตรู หรือความสามารถในการต้านทานแผนหลอกล่อของทีมมนุษย์ที่ดีกว่าผู้เล่นมนุษย์ทั่วไป

อย่างไรก็ตาม OpenAI Five นั้นยังแสดงออกให้เห็นถึงความสับสนในบางครั้ง เช่นการใช้สกิลโดยปราศจากความจำเป็น การใช้ไอเท็มอย่างผิดวิธี หรือการมุ่งเป้าไปที่การฆ่า Rosh (มอนสเตอร์ภายในแผนที่ที่มอบรางวัลที่สร้างความได้เปรียบแก่ทีมได้) จนเกินไป และการมุ่งมั่นในการจัดการกับ Rosh ซ้ำไปซ้ำมานี้เองที่เปิดช่องว่างให้ทีม paIN Gaming เข้าไปทำลายฐานที่มั่น และชนะเกมไปในที่สุดด้วยเวลา 51 นาที

Mike Cook นักวิจัยปัญญาประดิษฐ์เกี่ยวกับเกมให้ความเห็นว่า OpenAI Five นั้นสามารถตัดสินใจในแต่ละช่วงเวลาได้อย่างดีเยี่ยม แต่ดูเหมือนจะทำได้ไม่ดีในการตัดสินใจที่ส่งผลในระยะยาว โดยในการ live-tweet การแข่งขันครั้งนี้ เขาได้สันนิษฐานว่าความผิดพลาดของเหล่า AI อาจมีผลมาจากการเลือกตัวละครตามการตัดสินใจของบุคคลภายนอก และการทำงานที่อาศัยการประมวลผลจากรูปภาพเพียงอย่างเดียว โดย OpenAI Five นั้นไม่สามารถคลิกที่สกิลหรือไอเท็มเพื่ออ่านคำอธิบายได้เหมือนมนุษย์ และจำเป็นต้องคาดเดาการเคลื่อนไหวของศัตรูภายใต้หมอกที่ปกคลุมแผนที่อยู่ตลอดเวลา ซึ่งเป็นความท้าทายที่ยากแม้กับอัลกอริทึมที่ฉลาดอย่าง reinforcement learning ก็ตาม

#OAI Snap thoughts:
🔹 The bots are a lot less aggressive than before. They feel worse than the previous exhibition, I think (but still, amazing).
🔹 The bots are still very good at moment-to-moment, but they seem bad at macro-level decisions. I have more to say on this!

— mike cook (@mtrc) August 23, 2018

และในทำนองเดียวกัน ในการแข่งขันกับทีมเฉพาะกิจที่ประกอบไปด้วยผู้เล่นจีนระดับมืออาชีพ 5 คน (xiao8, BurNIng, rOtk, Ferrari_430, และ SanSheng) โดยมีการเปลี่ยนตัวละครบางตัว ก็พบว่า OpenAI Five นั้นยังแสดงออกให้เห็นถึงความสับสน และการดำเนินเกมที่ประหลาดอยู่บ่อยครั้ง เช่นการพยายามใช้สกิล teleport เมื่อมีศัตรูอยู่ใกล้ แม้จะรู้ว่าศัตรูสามารถยกเลิกสกิลนั้นได้ก็ตาม โดย Cook ได้สันนิษฐานว่า OpenAI ในปัจจุบันนั้นอาจยังไม่ชินกับการรับมือในเกมที่ทีมเป็นรองและถูกกดดันเช่นนี้

บล็อกสรุปการแข่งขันของ OpenAI ยืนยันสมมติฐานนี้ โดยได้อธิบายถึงข้อจำกัดที่เพิ่มเข้ามาในการฝึกฝน (การใช้ courier 5 ตัว) ที่ทำให้ OpenAI Five ชินกับการดำเนินเกมที่ดุดันและเป็นต่อ โดยทางทีม OpenAI เพิ่งเริ่มเทรน Five ให้เรียนรู้การเล่นด้วย courier ตัวเดียวเมื่อสัปดาห์ที่ผ่านมา

ทว่า OpenAI เชื่อว่า courier นั้นไม่ใช่สาเหตุที่ทำให้ OpenAI Five แพ้แต่อย่างเดียว “เราคิดว่าเราต้องเทรนให้มากขึ้น แก้ไข bug ทั้งหลาย และลบ logic ที่ถูกกำหนดไว้ในโมเดล[ซึ่งทำให้การประมวลผลบางอย่างออกมาแบบตายตัว]ออกให้หมด” โดยพวกเขาเชื่อว่า การพัฒนา AI ให้สามารถเล่น Dota ได้ ก็คือการพัฒนาความสามารถของ AI ขึ้นใน sandbox ที่ปลอดภัยนั่นเอง

สำหรับผู้ที่สนใจ สามารถรับชมการแข่งขันย้อนหลังได้ทางช่อง Twitch ของ The International

Share this: