Google เปิดตัว opensource เฟรมเวิร์ก reinforcement learning เพื่อเทรนโมเดล AI

0
https://venturebeat.com/wp-content/uploads/2018/07/Google-Mountain-View-Headquarters.jpg?fit=578%2C385&strip=all

reinforcement learning คือเทคนิคการทำปัญญาประดิษฐ์ (Artificial Intelligence) ที่ใช้วิธีการให้รางวัล (reward) หรือลงโทษ (punishment) เพื่อที่จะขับเคลื่อนให้ agent นั้นๆ ไปในทิศทางเป้าหมายที่ระบุไว้ได้ ซึ่ง reinforcement learning นี้ได้นำมาใช้เพื่อเทรนระบบที่สามารถเอาชนะ Alpha Go ที่ชนะแชมป์โกะระดับโลกได้ อีกทั้งยังสามารถทำให้เล่น Dota 2 ได้อย่างเชี่ยวชาญ และตอนนี้มันก็เป็นส่วนหลักของ Deep Q-network ของ Google DeepMind ซึ่งสามารถที่จะกระจายการเรียนรู้ออกไปหลายๆ หน่วยได้ หากแต่ปัญหาก็คือเฟรมเวิร์ก reinforcement learning นั้นจะต้องใช้เวลาอย่างมากในการไปให้ถึงจุดหมายที่ต้องการ ซึ่งมีโอกาสที่จะไม่มีความยืดหยุ่น และอาจจะไม่เสถียรเสมอไป

และนี่คือเหตุผลที่ทำไม Google จึงนำเสนอทางเลือกอีกทางหนึ่ง ซึ่งเป็น opensource เฟรมเวิร์กที่ทำ reinforcement learning โดยอิงจาก TensorFlow ซึ่งสามารถดาวน์โหลดไปใช้งานได้จาก GitHub ได้ตั้งแต่วันนี้

“สิ่งนี้มีแรงจูงใจมาจากหนึ่งในส่วนหลักของพฤติกรรมการจูงใจจากรางวัล (reward-motivated behavior) ในสมองและการแสดงให้เห็นถึงความเชื่อมโยงตั้งแต่อดีตมาในงานวิจัยของระบบประสาท neuroscience และการทำ reinforcement learning จึงทำให้แพลตฟอร์มนี้มุ่งหวังที่จะทำให้เกิดงานวิจัยในลักษณะที่ไม่แน่ไม่นอน ซึ่งจะสามารถขับเคลื่อนการค้นพบที่มากขึ้นได้” คุณ Pablo Samuel Castro และ Marc G. Bellemare นักวิจัยจากทีม Google Brain เขียนในบล็อคโพส “สิ่งที่เปิดออกไปนี้ยังรวมไปถึง colab จำนวนหนึ่งที่จะแสดงให้เห็นวิธีการใช้งานเฟรมเวิร์กนี้ด้วย”

โดยพวกเขาและทีม Google Brain ได้สร้างเฟรมเวิร์ก reinforcement learning นี้โดยใช้หลัก 3 อย่างคือ ยืดหยุ่น (flexibility) เสถียร (stability) และ ทำซ้ำได้ (reproducibility)

https://venturebeat.com/wp-content/uploads/2018/08/testtesttest1.png?w=800&resize=800%2C460&strip=all
ตัวอย่างภาพการ visualize AI agent ที่ใช้ reinforcement learning

 

ในตอนจบ มันจะมีเซ็ตของโค้ดที่มีการเขียน document ไว้อย่างดี (เป็นไฟล์ Python 15 ไฟล์) ที่มุ่งเน้นไปที่การทำ Arcade Learning Environment ซึ่งเป็นแพลตฟอร์มที่ใช้วัดผลเทคโนโลยี AI กับวีดีโอเกมส์ รวมไปถึงการทำโมเดลการเรียนรู้ของเครื่อง (Machine Learning) ที่แตกต่างกัน 4 บบ คือ DQN, C51, Rainbow ที่ simplify แบบต่างๆ และ Implicit Quantile Network โดยในส่วนของการทำซ้ำนั้น โค้ดได้ให้ออกมาพร้อมกับการทำทดสอบแบบครอบคลุมเต็มรูปแบบ (full test coverage) และข้อมูลสำหรับเทรน (ในรูปแบบของ JSON และ Python pickle) ครอบคลุม 60 เกมที่รองรับใน Arcade Learning Environment และทำตาม best practice บนมาตรฐานการวัดผลของผลลัพธ์ที่เป็นลักษณะตามประสบการณ์ ไม่ได้เป็นไปตามทฤษฎี

สิ่งที่ควบคู่กันกับการเปิดตัวเฟรมเวิร์ก reinforcement นี้ก็คือ Google กำลังเปิดตัวเว็บไซต์ที่จะทำให้นักพัฒนาระบบสามารถ visualize ผลการเทรนได้สำหรับ agent หลายๆ ตัว ซึ่งทำให้รับโมเดลที่เทรน หรือข้อมูล log สถิติ และไฟล์ event ใน TensorFlow ในการนำมาพล็อตบน TensorBoard ได้

“ความหวังของพวกเรานั้นคือความยืดหยุ่นและการใช้งานง่ายของเฟรมเวิร์กเรานั้นจะช่วยทำให้นักวิจัยต่างๆ มีพลังในการลองไอเดียใหม่ๆ ทั้งแบบเพิ่มเติมจากเดิมและแบบสุดโต่ง” คุณ Bellemare และ Castro เขียน “พวกเราได้นำเฟรมเวิร์กนี้ไปใช้งานกันแล้วในงานวิจัยของพวกเราและค้นพบว่ามันทำให้พวกเรานั้นทำงานได้อย่างยืดหยุ่นและต่อยอดได้อย่างรวดเร็วกับไอเดียที่หลากหลาย พวกเรารู้สึกตื่นเต้นที่จะเห็น community ที่ใหญ่ขึ้นที่จะใช้งานเฟรมเวิร์กนี้”

Source : https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/