DeepMind นั้นเป็นแผนกหนึ่งของ Google ที่โฟกัสที่งานวิจัยเชิง AI ในระดับที่สูงขึ้น ซึ่งได้เผยความลับว่าเวอร์ชันใหม่ของโปรแกรม AlphaGo นั้นสามารถเรียนรู้เกมได้โดยการเล่นเกมกับตัวเองเพียงผู้เดียว
โปรแกรมที่ว่านี้มีชื่อว่า AlphaGo Zero ซึ่งเป็นระบบที่เรียนรู้จากผลลัพธ์ของการเล่นเกมด้วยตัวคนเดียว โดย AlphaGo Zero นี้ใช้เทคนิคการเรียนรู้ของเครื่องหรือ Machine Learning แบบการเรียนรู้แบบเสริมกำลัง หรือ Reinforcement Learning ซึ่งเป็นการเรียนรู้แบบต่อเนื่องโดยเริ่มจากการเรียนรู้หลักการ concept เบื้องต้นของเกมโกะก่อน และจุดใดหรือลำดับแบบใดที่ได้เปรียบที่สุด แล้วจึงเริ่มเรียนรู้ด้วยตัวเอง
หลังจากฝึกฝนไปเพียงสามวัน AlphaGo Zero ก็สามารถเอาชนะ AlphaGo เวอร์ชันที่ชนะคุณ Lee Sedol เมื่อปีที่แล้วได้ ยิ่งไปกว่านั้น เมื่อฝึกฝนไปประมาณ 40 วัน (ฝึกฝนกับตัวเองไปประมาณ 29 ล้านกระดาน) ก็สามารถที่จะเอาชนะ AlphaGo Master ที่ชนะคุณ Ke Jie แชมป์โลกไปในช่วงต้นปีนี้ได้ จากผลลัพธ์ดังกล่าว แสดงให้เห็นว่ายังคงมีอะไรอีกมากมายให้เรียนรู้ในเรื่องของ AI เมื่อได้เห็นถึงประสิทธิผลของเทคนิคต่างๆ ที่ใช้แตกต่างกัน เพราะจริงๆ แล้ว AlphaGo Master นั้นถูกฝึกฝนโดยใช้เทคนิคที่ใกล้เคียงกันกับ AlphaGo Zero มาก ต่างตรงที่เริ่มต้นจากการฝึกฝนด้วยข้อมูลของคนก่อนแล้วจึงเริ่มฝึกฝนด้วยตัวเองเท่านั้น
สิ่งที่น่าสนใจอย่างหนึ่งคือในขณะที่ AlphaGo Zero เรียนรู้หลักการเกี่ยวกับโกะระหว่างฝึกฝน ระบบกลับเรียนรู้ในแบบที่ต่างกันไปจากวิธีการเรียนรู้ของคน ตัวอย่างเช่น วิธีการจับกินแบบขึ้นบันไดนั้นจะเป็นสิ่งที่คนจะเรียนรู้เป็นอันดับแรก แต่ AlphaGo Zero กลับเข้าใจหลักการนี้หลังจากที่ได้ฝึกฝนแล้ว
นอกจากนี้ AlphaGo Zero นั้นมีประสิทธิภาพสูงกว่า AlphaGo ที่เคยฝึกฝนมาก่อนหน้านี้หลายๆ ตัว เ่ช่น AlphaGo ที่ชนะคุณ Lee นั้นต้องใช้จำนวน 48 TPU (Tensor Processing Unit) และเครื่องจำนวนหนึ่งในการฝึกฝน แต่ AlphaGo Zero นั้นใช้เพียงแค่ 4 TPU และใช้เครื่องเดียวเท่านั้น
จากความลับที่เผยนี้ สิ่งที่น่าจะได้เห็นกันต่อไป นั่นคือการนำเทคนิคเหล่านี้ไปประยุกต์ใช้กับปัญหาอื่นๆ นอกจากเรื่องเกมกระดานโกะ เพราะประสิทธิภาพของ AlphaGo นั้นแสดงให้เห็นถึงความสามารถของ AI ยังคงมีจุดที่พัฒนาต่อไปได้อีกเพื่อเอาชนะความสามารถของคนในงานอื่นๆ ที่เราอาจจะคิดว่ายังอีกไกลหรือยากเกินไปได้