ชุดข้อมูล CodeNet จาก IBM ใช้สอน AI ให้แปลภาษาคอมพิวเตอร์ได้

0
https://s.yimg.com/uu/api/res/1.2/Vn6ETDxqvHaXIYYmkEetQA--~B/Zmk9ZmlsbDtoPTQ1MDt3PTY3NTthcHBpZD15dGFjaHlvbg--/https://s.yimg.com/os/creatr-uploaded-images/2021-05/e5dfa070-b1e4-11eb-8ffd-c77387193c53.cf.webp

ระบบ AI และ Machine Learning ได้มีความสามารถเพิ่มขึ้นมามากมายในช่วงไม่กี่ปีที่ผ่านมา ซึ่งไม่ใช่แค่สามารถเข้าใจคำที่เขียนเพียงเท่านั้น แต่ยังสามารถเขียนขึ้นมาได้อีกด้วย และไม่ใช่แค่ภาษาอังกฤษเพียงภาษาเดียว ภาษาอื่นๆ ก็กำลังจะมีความเชี่ยวชาญเพิ่มขึ้นมาเรื่อยๆ ด้วยเช่นกัน และล่าสุด IBM ได้เปิดตัวในงานสัมมนา Think 2021 ว่าทีมนักวิจัยของบริษัทได้สร้างเสมือนศิลาโรเซตตาสำหรับโค้ดการเขียนโปรแกรมขึ้นมาแล้วภายใน Project CodeNet

ในช่วงทศวรรษที่ผ่านมา ความก้าวหน้าในด้าน AI มักจะขับเคลื่อนโดย Deep Neural Network ซึ่งจะมี 3 ปัจจัยที่ช่วยผลักดัน ได้แก่ ข้อมูล data set ที่มีขนาดใหญ่พอสำหรับการเทรน นวัตกรรมของอัลกอริทึมใหม่ๆ และฮาร์ดแวร์ที่มีความเร็วสูงขึ้นประสิทธิภาพดีขึ้นกว่าเดิมมากๆ ที่ขับเคลื่อนโดย GPU” IBM Fellow และ Chief Scientist แห่ง IBM Research คุณ Ruchir Puri กล่าวในงาน ซึ่งได้พูดถึงชุดข้อมูล ImageNet ที่ทำให้เกิดความก้าวหน้าในงาน Computer Vision ขึ้นมาอย่างมหาศาลอีกด้วย

สิ่งที่เกิดขึ้น พวกเราได้สอนให้คอมพิวเตอร์สามารถพูดได้เหมือนมนุษย์แล้วทำไมเราไม่สอนให้คอมพิวเตอร์พูดภาษาคอมพิวเตอร์ได้มากขึ้น? นั่นคือสิ่งที่ Project CodeNet ของ IBM พยายามจะทำให้สำเร็จ “พวกเราต้องการมี ImageNet ที่จะสามารถสร้างนวัตกรรมใหม่ๆ และทำให้นวัตกรรมเหล่านั้นไปอยู่ในอัลกอริทึมได้” คุณ Puri กล่าว โดย CodeNet นั้นจะเป็นเสมือน ImageNet ของคอมพิวเตอร์ ซึ่งจะเป็น dataset ที่ออกแบบมาเพื่อใช้สอนระบบ AI/ML ในการแปลภาษาโค้ดโปรแกรมได้ ภายในชุดข้อมูลจะมีข้อมูลโค้ดตัวอย่าง 14 ล้านชุดราว 500 ล้านบรรทัดในภาษาการเขียนโปรแกรมแบบดั้งเดิมจนถึงภาษาที่ยังใช้งานกันอยู่กว่า 55 ภาษา ตัวอย่างเช่น ภาษา COBOL หรือ FORTRAN และมีภาษา Java, C++ และ Python ด้วย

ด้วยชุดข้อมูลดังกล่าวที่ถูกสร้างขึ้นมาด้วยลักษณะที่จะทำให้สามารถแปลแบบ bidirectional ดังนั้นผู้ใช้จะสามารถนำข้อมูไปแปลงจากโค้ดภาษาหนึ่งไปเป็นอีกภาษาหนึ่งได้เลย อย่างเช่น ภาษา COBOL ที่อาจจะค่อนข้างเก่าแต่ยังมีการใช้งานในระบบธนาคารของประเทศอยู่ ให้กลายมาเป็นภาษา Java ได้โดยง่ายเหมือนกับที่สามารถแปลงภาษา Java ให้กลายเป็น COBOL ได้ เป็นต้น

Source : https://www.engadget.com/ibm-codenet-dataset-can-teach-ai-to-translate-computer-languages-020052618.html