ระบบ AI ของ DeepMind สามารถเล่นเกม Quake III ได้ในระดับมนุษย์แล้ว

July 6, 2018

https://cdn.vox-cdn.com/thumbor/jpkHTiaQMnDesKkdbkCEUi5HDu0=/0x0:1900x1100/920x613/filters:focal(798x398:1102x702)/cdn.vox-cdn.com/uploads/chorus_image/image/60264409/deepmind_capture_the_flag_quake_iii_crop.0.png

ระบบ AI นั้นยังคงค่อยๆ ชนะมนุษย์ในโลกของวีดีโอเกมอย่างต่อเนื่อง โดยเมื่อสัปดาห์ก่อน บอทของ OpenAI สามารถเล่นเกม Dota 2 ได้ ส่วนสัปดาห์นี้ก็คือเกม Quake III โดยทีมวิจัยจาก DeepMind บริษัทลูกของ Google ได้สามารถเทรน agent ที่สามารถเอาชนะมนุษย์ได้ที่เกมจับธงของฝั่งตรงข้าม (capture the flag)

ตามที่พวกเราได้เห็นตัวอย่างก่อนหน้าที่ระบบ AI สามารถเล่นวีดีโอเกมได้ ซึ่งความท้าทายของงานนี้คือการเทรน agent ให้สามารถหาเส้นทางในชสภาพแวดล้อม 3 มิติที่ซับซ้อนด้วยข้อมูลที่ไม่สมบูรณ์ โดยนักวิจัยที่ DeepMind ได้ใช้วิธีการเทรนระบบ AI ที่กำลังจะกลายเป็นมาตรฐานทั่วไปนั่นก็คือ Reinforcement Learning ซึ่งเป็นการเทรนแบบทั่วไปด้วยลักษณะลองผิดลองถูก (trial and error) ใน scale ระดับขนาดใหญ่

โดยระบบ agent นั้นจะไม่เคยได้รับคำสั่งอะไรมาก่อนว่าจะต้องเล่นเกมอย่างไร แต่มันจะทดลองแข่งขันกับตัวเองอย่างง่ายๆ จนกระทั่งสามารถหากลยุทธวิธีที่จะต้องใช้เพื่อเอาชนะได้ โดยทั่วไปสิ่งนี้หมายถึงจะได้เวอร์ชันหนึ่งของ agent AI ที่สามารถเล่นเอาชนะตัว clone ของมันเองที่เหมือนกันได้ ซึ่ง DeepMind ได้ให้ความลึกเพิ่มเติมลงไปในสมการด้วยคือเทรนทั้ง 30 agent เพื่อให้เกิดการสไตล์การเล่นที่หลากหลายกระจัดกระจายออกไป

แล้วต้องใช้กี่เกมในการเทรนระบบ AI ในวิธีการทางนี้? ปกติก็จะประมาณเกือบครึ่งล้านรอบจะได้ โดยแต่ละรอบใช้เวลาประมาณ 5 นาที

และก็เป็นเช่นเดิม มันเป็นสิ่งที่น่าประทับใจที่เทคนิคแบบทั่วไปตาม concept นั้นสามารถสร้างพฤติกรรมที่ซับซ้อนในบอทได้ โดย agent ของ DeepMind นั้นไม่ได้เพียงแค่เรียนรู้กฎทั่วไปในการจับธงของฝั่งตรงข้าม แต่จะเรียนรู้กลยุทธการป้องกันธงของฝั่งตัวเองด้วย และการติดตามเพื่อนร่วมทีม ซึ่งคุณจะสามารถทำงานกันเป็นทีมเพื่อจัดการฝ่ายศัตรูได้

เพื่อให้สร้างความท้าทายที่ยากขึ้นสำหรับ agent ในแต่ละเกมที่เล่นจะเป็นการสร้างแผนที่ขึ้นมาใหม่ทั้งหมด เพื่อทำให้มั่นใจได้ว่าบอทนั้นจะไม่เคยเรียนรู้กลยุทธได้เพียงแค่แผนที่เดียวเท่านั้น

สิ่งนี้จะไม่เหมือนกับบอทของ OpenAI ที่เล่นเกม Dota 2 โดย agent ของ DeepMind นั้นไม่ได้เคยเข้าถึงข้อมูลดิบเชิงตัวเลขเกี่ยวกับเกมนี้มาก่อน หรือไม่เคยส่งข้อมูลต่างๆ เช่น ระยะระหว่างศัตรู พลังชีวิต โดยพวกมันสามารถเรียนรู้การเรียนเพียงการได้รับข้อมูลภาพ input จากหน้าจอเท่านั้น เหมือนกับมนุษย์ อย่างไรก็ดี สิ่งนี้ไม่ได้จำเป็นต้องหมายถึงว่าบอทของ DeepMind นั้นเจอกับความท้าทายที่เหนือกว่า เนื่องจากภาพรวมของเกม Dota 2 นั้นเป็นเกมที่มีความซับซ้อนมากกว่าเวอร์ชันที่เล็กลงของ Quake III ที่นำมาใช้ในงานวิจัยนี้

เพื่อทดสอบความสามารถของ agent AI นี้ DeepMind ได้สร้าง tournament ขึ้นมาโดยในทีมมี 2 ผู้เล่น ซึ่งผสมในแบบต่างๆ ไปเช่น ทีมที่มีแต่บอทเท่านั้น หรือมีแต่มนุษย์เท่านั้น หรือว่ามีทั้งบอทและมนุษย์ มาร่วมกันต่อสู้กับอีกฝั่ง ซึ่งผลพบว่าทีมที่มีแต่บอทเท่านั้นประสบความสำเร็จสูงสุดที่มีความน่าจะเป็นที่จะชนะถึง 74% สิ่งนี้เปรียบเทียบได้กับ 43% ของความสามารถของผู้เล่นที่เป็นมนุษย์แบบเฉลี่ย และเท่ากับ 52% ของผู้เล่นที่เป็นมนุษย์ที่เล่นได้เก่ง ดังนั้นจะเห็นได้ว่า agent AI นี้มีความสามารถที่เล่นเกมนี้ได้ดีกว่ามนุษย์อย่างชัดเจนมาก

https://cdn.vox-cdn.com/thumbor/frIf7kXAF-7M6-ieSIyPNAnSHeo=/0x0:1205x617/920x0/filters:focal(0x0:1205x617)/cdn.vox-cdn.com/uploads/chorus_asset/file/11641941/CTF_Fig_Tagging_180703_r01.width_1500.png — กราฟแสดงความสามารถของผู้เล่นต่างๆ โดย FTW เป็น agent ของ DeepMind ที่แข่งชนะตัวเองในทีมที่มีจำนวน 30

อย่างไรก็ดี มันเป็นที่น่าสังเกตได้ว่ายิ่งมีจำนวน DeepMind บอทในทีมมากขึ้นเท่าไหร่ ทีมก็จะยิ่งทำได้แย่ลง โดยทีมหนึ่งที่มีบอท 4 ตัวนั้นสามารถเอาชนะได้ด้วยความน่าจะเป็น 65% เท่านั้น ซึ่งสิ่งที่นักวิจัยแนะนำมาจากการเรียนรู้ในงานนี้ว่าสิ่งเหล่านี้ไม่ได้เพิ่มขึ้นตามจำนวนความซับซ้อนของทีม

และเช่นเคยในงานวิจัยลักษณะนี้ จุดประสงค์มุ่งหวังนั้นไม่ใข่เป็นการเอาชนะมนุษย์ในการเล่นวีดีโอเกม หากแต่เป็นการค้นหาหนทางใหม่ในการสอน agent เพื่อค้นหาเส้นทางในสภาพแวดล้อมที่ซับซ้อนในขณะที่ยังใฝ่หาเป้าหมายร่วมกัน หรือกล่าวอีกนัยหนึ่งคือเกี่ยวกับการสอนความฉลาดแบบเป็นกลุ่ม (collective intelligence) ซึ่งเกมจับธงนี้เป็นเพียงแค่ทางเชื่อมสำหรับเกมที่ยิ่งใหญ่ขึ้นต่อไป

Source : https://www.theverge.com/2018/7/4/17533898/deepmind-ai-agent-video-game-quake-iii-capture-the-flag

Share this: