ถ้าคุณสอนหุ่นยนต์ให้ตกปลา มันก็อาจจะตกปลา แต่ถ้าคุณสอนให้มันอยากรู้อยากเห็น ผลลัพธ์ที่ได้คือมันจะดูทีวีและเล่นวีดีโอเกมทั้งวัน
เมื่อเร็วๆ นี้ นักวิจัยจาก Open AI ที่ร่วมก่อตั้งโดย Elon Musk ได้ตีพิมพ์งานวิจัยเกี่ยวกับการศึกษาขนาดใหญ่เรื่องการเรียนรู้โดยขับเคลื่อนด้วยความอยากรู้ ในงานวิจัยนี้ นักวิจัยได้แสดงวิธีที่โมเดล AI ที่ถูกฝึกโดยไม่ได้รับรางวัลตอบแทนภายนอก (extrinsic reward) นั้นสามารถพัฒนาและเรียนรู้ทักษะต่างๆ
เบื้องต้นคือ ทีมนักวิจัยค้นพบวิธีการที่ทำให้ AI นั้นทำภารกิจต่างๆ โดยผู้พัฒนาไม่ได้ระบุเป้าหมายไปตรงๆ ในงานวิจัยนั้นเผยว่า สิ่งนี้ไม่ใช่เรื่องแปลกอย่างที่คิด นักจิตวิทยาพัฒนาการได้กล่าวถึงแรงจูงใจภายในอย่างความอยากรู้อยากเห็นว่าเป็นแรงขับเคลื่อนหลักในขั้นของพัฒนาการในช่วงต้น เหมือนที่ทารกเริ่มสำรวจอย่างไร้จุดหมายเพื่อเรียนรู้ทักษะต่างๆ ที่มีประโยชน์ในภายหลัง มีตัวอย่างมากมาย ตั้งแต่การเล่นเกม Minecraft ไปจนถึงการไปเยี่ยมชมสวนสัตว์ ซึ่งกิจกรรมเหล่านี้ไม่ต้องใช้รางวัลตอบแทนภายนอกใดๆ
แนวคิดตรงจุดนี้คือ ถ้าเราให้จักรกลสำรวจสิ่งแวดล้อมเองโดยที่ไม่มีรางวัลที่มนุษย์ตั้งค่า built-in ไว้ เราก็จะเข้าใกล้จักรกลที่ทำงานด้วยตัวเองได้อย่างแท้จริง และนี่อาจนำไปปรับใช้กับสิ่งที่ไม่น่าเชื่อได้หลายอย่าง เช่น การพัฒนาหุ่นยนต์กู้ภัย หรือการสำรวจอวกาศ
เพื่อศึกษาผลของระบบการเรียนรู้เชิงลึกที่ขับเคลื่อนจากแรงจูงใจภายใน นักวิจัยหันมาทดลองกับวีดีโอเกม เพราะสภาพแวดล้อมนี้เหมาะสำหรับการทำวิจัย AI อย่างยิ่งเนื่องจากในเกมนั้นมีกฎกติกาและรางวัลอยู่แล้ว ตัวอย่างเช่น เกม Pong เมื่อนักพัฒนาตั้งค่าให้ AI เล่นเกมนี้และกำหนดเงื่อนไขว่า “ห้ามแพ้” ในทางทฤษฎีนั้นก็จะทำให้ตัว AI นั้นให้ความสำคัญกับการทำคะแนนเป็นอันดับต้น
เมื่อนักวิจัยทำการทดลองในชุดข้อมูล Atari ในเกม Super Mario Bros. และ Pong ก็พบว่า AI ที่ไม่ได้ถูกกำหนดเป้าหมายไว้นั้นสามารถพัฒนาทักษะและการเรียนรู้ได้ เนื่องจากมันถูกขับเคลื่อนด้วยความอยากรู้ ตัว AI จึงกำหนดกฎของตัวเอง และมีแรงกระตุ้นที่จะค้นพบสิ่งใหม่ๆ อย่างเวลาเล่นเกม Breakout ทลายกำแพงนั้น AI ก็ทำแต้มได้ดีเพราะมันไม่อยากจะรู้สึกเบื่อ มันจึงพยายามผ่านแต่ละด่านไปให้ได้เพื่อไปสู่ด่านที่ท้าทายขึ้นต่อๆ ไป
จากการทดลอง พบว่า AI สามารถเล่นเกม Super Mario Bros. ผ่านไปได้ 11 ด่าน เพียงเพราะความอยากรู้ ซึ่งชี้ให้เห็นว่า เมื่อ AI ได้รับการฝึกฝนแบบไร้เป้าหมายอย่างเพียงพอ ก็สามารถทำภารกิจได้ค่อนข้างดีเลยทีเดียว