ETL (Extract, Transform, Load) คืออะไร ?

0

ETL คือกระบวนการประมวลผลข้อมูล ซึ่งมักเป็นคำศัพท์ที่มักจะพบในการทำงานด้านข้อมูลหรือวิทยาศาสตร์ข้อมูล (Data Science) โดยประกอบไปด้วยคำสามคำ ได้แก่ Extract, Transform, Load อันเป็นขั้นตอนในการจัดการกับข้อมูลดิบ (Raw Data) ให้พร้อมใช้งานสำหรับขั้นตอนต่อ ๆ ไป

โดย ETL เป็นกระบวนการจัดการข้อมูลจากหลาย ๆ แหล่งให้กลายเป็นข้อมูลกลางที่พร้อมใช้งานต่อไปใน Data Warehouse, Data Lakehouse หรือระบบอื่น ๆ ที่เป็นเป้าหมายปลายทาง เพื่อนำข้อมูลไปใช้วิเคราะห์หาข้อมูลเชิงลึก (Insight) หรือใช้ฝึกฝน AI/ML ต่อไปได้ ซึ่ง ETL หมายถึง 3 ขั้นตอนที่องค์กรมักดำเนินการ ได้แก่

  • Extract สกัดข้อมูลออกมาจากแหล่งข้อมูลต่าง ๆ เช่น ระบบฐานข้อมูลเก่า ระบบ CRM หรือข้อมูลที่ดึงจากหน้าเว็บไซต์ต่าง ๆ เป็นต้น
  • Transform คือชุดกฎการแปลงข้อมูลที่มาจากแหล่งที่แตกต่างกันให้พร้อมใช้งานต่อได้เหมาะสมกับระบบปลายทางในการใช้งานต่อ อาจเรียกว่าเป็นขั้นตอนการทำความสะอาดข้อมูล (Data Cleansing) หรือการปรับปรุงคุณภาพข้อมูล (Data Quality) เช่น การแปลงค่าในระบบที่ 1 แปลว่า Male หรือ 2 แปลว่า Female ให้กลายเป็นรูปแบบเดียวกัน เป็นต้น
  • Load การนำข้อมูลที่ได้ไปใส่ไว้ในระบบเป้าหมายปลายทางเพื่อดำเนินการในขั้นตอนต่อ ๆ ไป

ทั้งนี้ หากกรณีที่ชุดข้อมูลมีขนาดใหญ่ และต้องการจัดการทั้งข้อมูลที่เป็น Structured Data และ Unstructured Data ได้อย่างยืดหยุ่น รวมทั้งความเร็วคือสิ่งสำคัญ การทำ ETL อาจช้าจนเกินไป ซึ่งการสลับขั้นตอน Transform กับ Load หรือการทำ “ELT” แทน จะเหมาะสมกับกรณีดังกล่าวมากกว่า

ที่มา: