AI จาก Facebook และ CMU เอาชนะผู้เล่นไพ่โป๊กเกอร์ห้าคนในตาเดียว

0
FILE - In this June 24, 2019, file photo, players and dealers sit at tables during a tournament at the World Series of Poker in Las Vegas.T ens of thousands of professional and amateur poker players go on a pilgrimage to Las Vegas every summer in hopes of returning home richer, owning a gold bracelet and earning considerable bragging rights. They all want to win at the World Series of Poker. The tournament is marking its 50th year. The $10,000 buy-in, no-limit Texas Hold 'em main event kicks off Wednesday, July 3. (AP Photo/John Locher, File)

Facebook และ Carnegie Mellon University ได้สร้างบอต AI ที่เอาชนะผู้เล่นไพ่โป๊กเกอร์มือโปรได้ นับเป็นครั้งแรกที่บอต AI เอาชนะคู่แข่งได้มากกว่าหนึ่งรายในคราวเดียว

ระบบ AI นี้มีชื่อว่า Pluribus ซึ่งเป็นเวอร์ชันบอตที่ล้ำขึ้นของบอต Libratus จาก Carnegie Mellon โดยมีอัลกอริธึมค้นหาออนไลน์ที่ช่วยให้ Pluribus มองหาทางเลือกการเล่นตาถัดไปได้ล่วงหน้า และยังมีอัลกอริธึมฝึกเล่นเองที่เร็วขึ้นสำหรับเกมที่ซ่อนข้อมูลไว้ จึงทำให้ระบบเรียนรู้ได้มีประสิทธิภาพมากขึ้นว่าจะรับมือกับข้อมูลที่ถูกซ่อนในเกมอย่างไร นอกจากนี้ ระบบยังใช้ความจำน้อยกว่า 128 GB และรันบน GPU สองชุดเท่านั้นในขณะเล่น ทำให้ Pluribus เล่นได้เร็วขึ้นกว่าผู้เล่นมือโปรสองเท่า โดยใช้เวลาเฉลี่ย 20 วินาทีต่อมือเมื่อเล่นกับบอตด้วยกันเอง

Pluribus ผ่านการฝึกฝนมากว่า 12 วัน 10,000 รอบ โดยได้เล่นกับมือโปร 12 ราย รวมทั้งแชมป์จาก Word Series of Poker Main Event และเหล่าผู้ชนะจาก World Poker Tour โดยผู้เล่นทั้งหมดนี้เคยคว้าเงินรางวัลมาอย่างน้อย 1 ล้านดอลลาร์ และมีเงินรางวัลเป็นแรงจูงใจให้โชว์ฝีมือเต็มที่

ระบบ AI แข่งกับผู้เล่นเหล่านี้ในสองบริบทที่ต่างกัน อันแรก AI เล่นกับผู้เล่นห้าราย ส่วนอีกอันหนึ่งเป็น AI 5 เวอร์ชัน (มีเงื่อนไขคือตัวคอมพิวเตอร์ไม่สามารถทำงานร่วมกันได้) แข่งกับผู้เล่นหนึ่งคน ผลคือ Pluribus เอาชนะได้ด้วยค่าเฉลี่ย 5 ดอลลาร์ต่อรอบและในรอบชั่วโมงก็ทำเงินชนะได้ประมาณ 1,000 ดอลลาร์

Facebook's poker AI Pluribus

ในงานวิจัยเผยแพร่ใน Science นักวิจัยเบื้องหลัง Pluribus กล่าวว่า ชัยชนะนี้ถือว่าเป็นหลักไมล์สำคัญในการวิจัย AI แม้ว่าระบบเรียนรู้เคยเอาชนะคนในการเล่นบอร์ดเกมอย่างหมากรุกและโกะ หรือการเล่นคอมพิวเตอร์เกม เช่น Starcraft II และ Dota มาก่อนแล้ว แต่การเล่นไพ่โป๊กเกอร์ Texas Hold’em แบบ 6 ผู้เล่นนี้ ก็เป็นมาตรฐานความยากขึ้นไปอีก

ความยากไม่ได้มีเพียงแค่ข้อมูลที่ถูกซ่อนจากบรรดาผู้เล่นเพื่อชนะเกมเท่านั้น แต่ยังรวมไปถึงการมีผู้เล่นหลายรายและผลลัพธ์ที่จะเอาชนะได้ซึ่งมีความซับซ้อน หากเทียบกับเกมโกะที่แม้ว่าจะมีความเป็นไปได้ที่รูปแบบเกมจะออกมาได้หลายแนวทาง แต่ข้อมูลทั้งหมดนั้นถูกเปิดเผยตรงหน้า จึงฝึก AI ให้ชนะเกมโกะได้ง่ายขึ้น อีกกลยุทธ์หนึ่งของไพ่โป๊กเกอร์คือการหลอกผู้เล่น เพราะหากทำมากเกินไป ผู้เล่นฝ่ายตรงข้ามก็อาจจะเดาทางออก บอต AI จึงต้องคอยสร้างสมดุลของการเล่นด้วย