เพราะข้อมูลดิจิทัลที่เกิดขึ้นบนโลกกำลังเพิ่มมากขึ้นเรื่อย ๆ การใช้ประโยชน์จากข้อมูลจะเป็นสิ่งที่จะช่วยให้องค์กรธุรกิจรักษาความสามารถในการแข่งขันไว้ได้ และนี่คือ 5 เครื่องมือที่ Data Scientist จะต้องรู้ในปี 2024 เป็นอย่างน้อย พร้อมแนะนำคอร์สเรียนบางส่วนที่สามารถเริ่มต้นอัปสกิลได้ทันที เพื่อให้สามารถจัดการกับข้อมูลที่มีอยู่ให้ได้อย่างมีประสิทธิภาพมากที่สุด
1. ภาษา Python
การเขียนโปรแกรมยังคงเป็นสิ่งที่สำคัญ และถ้าหากต้องเลือกสักภาษาสำหรับการทำงานของ Data Scientist ภาษา Python คือภาษาที่หลีกเลี่ยงไม่ได้แต่อย่างใด ด้วยเครื่องมือ Library ที่มีอยู่มากมาย และเฟรมเวิร์กที่มีให้เลือกใช้งานได้อย่างหลากหลาย จึงทำให้ Python คือสิ่งแรกที่ Data Scientist ทุกคนต้องมี ณ วินาทีนี้
หากต้องการเริ่มต้นเรียน Python มีคอร์สฟรีให้เรียนไดัเยอะมาก เช่น “เริ่มเรียนเขียนโปรแกรม Python ๑๐๑” โดย รศ. ดร. สมชาย ประสิทธิจูตระกูล ภาควิชาวิศวกรรมคอมพิวเตอร์ จุฬาลงกรณ์มหาวิทยาลัย หรือ Python for Data Science, AI & Development บน Coursera โดย IBM
2. คณิตศาสตร์และวิทยาศาสตร์
การทำงานของ Data Scientist หลีกหนีไม่พ้นเรื่องการคำนวณ ซึ่งคณิตศาสตร์และวิทยาศาสตร์คือสิ่งที่ทำให้งานมีเหตุมีผล รวมทั้งการต่อยอดในการทำ Machine Learning ที่จะทำให้เข้าใจในอัลกอริทึม ปัญหาอุปสรรคที่มี เพื่อค้นหาโซลูชันแก้ไข และการจัดการกับข้อมูลที่ซับซ้อน หาข้อมูลเชิงลึกออกมาได้ โดยอาจเลือกเรียนคอร์ส DeepLearning.AI ผ่าน Coursera นี้เพื่อเข้าใจในคณิตศาสตร์สำหรับการทำ ML และ Data Science มากขึ้น
3. เครื่องมือ Data Visualization
หลังจากจัดการข้อมูลและหาข้อมูลเชิงลึกได้มาแล้ว การนำเสนอข้อมูลให้เกิดความเข้าใจได้ง่ายและตรงกับสิ่งที่ต้องการสื่อสารนั้นเป็นเรื่องที่สำคัญ ดังนั้น Data Scientist ควรจะต้องมีเครื่องมือที่ช่วยนำเสนอ สร้างกราฟ หรือ Dashboard ที่สามารถวิเคราะห์ได้ด้วยตัวเอง โดยอาจจะเป็นผลิตภัณฑ์ชั้นนำอย่าง Tableau, PowerBI หรือจะเขียนโค้ดด้วย Matplotlib ด้วย Python เป็นต้น
4. SQL
Structured Query Language หรือ SQL คือภาษาสำหรับค้นในข้อมูลที่มีโครงสร้าง (Structured Data) หรือข้อมูลที่มีลักษณะเป็นตาราง ซึ่ง Data Scientist ควรจะต้องรู้ภาษานี้ด้วยเช่นกัน ในการจัดการกับข้อมูลที่มีลักษณะดังกล่าว เพื่อให้สามารถจัดการกับข้อมูลที่อาจจะถูกจัดเก็บไว้อย่างเป็นไซโล ทำความสะอาดข้อมูลจากหลายที่หลายฐานข้อมูลได้เร็วขึ้น เพื่อส่งต่อไปที่กระบวนการวิเคราะห์ข้อมูลต่อไปได้อย่างถูกต้อง ซึ่งสามารถรู้จักพื้นฐาน SQL ได้ในคอร์ส Introduction to Structured Query Language บน Coursera
5. Framework
งานด้าน Data Science จะง่ายขึ้น ทำงานได้เร็วขึ้น ถ้าหากเลือกปรับใช้เฟรมเวิร์ก (Framework) ที่น่าเชื่อถือ มั่นใจในความถูกต้องได้ ซึ่งปัจจุบันในโลกมีเฟรมเวิร์กมากมายให้เลือกใช้ อาทิ TensorFlow, PyTorch, Pandas, Keras เป็นต้น และการเลือกใช้เฟรมเวิร์กยอดนิยมเหล่านี้จะทำให้ Data Scientist ต่อยอดงานได้ง่ายขึ้นกว่าเดิม โดยถ้าหากไม่รู้ว่าจะเลือกใช้อะไร อาจเริ่มต้นที่ TensorFlow ที่สามารถเรียนได้ผ่านคอร์ส DeepLearning.AI TensorFlow Developer Professional Certificate
ที่มา: https://www.kdnuggets.com/5-tools-every-data-scientist-needs-in-their-toolbox-in-2024