ETL คือกระบวนการประมวลผลข้อมูล ซึ่งมักเป็นคำศัพท์ที่มักจะพบในการทำงานด้านข้อมูลหรือวิทยาศาสตร์ข้อมูล (Data Science) โดยประกอบไปด้วยคำสามคำ ได้แก่ Extract, Transform, Load อันเป็นขั้นตอนในการจัดการกับข้อมูลดิบ (Raw Data) ให้พร้อมใช้งานสำหรับขั้นตอนต่อ ๆ ไป
โดย ETL เป็นกระบวนการจัดการข้อมูลจากหลาย ๆ แหล่งให้กลายเป็นข้อมูลกลางที่พร้อมใช้งานต่อไปใน Data Warehouse, Data Lakehouse หรือระบบอื่น ๆ ที่เป็นเป้าหมายปลายทาง เพื่อนำข้อมูลไปใช้วิเคราะห์หาข้อมูลเชิงลึก (Insight) หรือใช้ฝึกฝน AI/ML ต่อไปได้ ซึ่ง ETL หมายถึง 3 ขั้นตอนที่องค์กรมักดำเนินการ ได้แก่
- Extract สกัดข้อมูลออกมาจากแหล่งข้อมูลต่าง ๆ เช่น ระบบฐานข้อมูลเก่า ระบบ CRM หรือข้อมูลที่ดึงจากหน้าเว็บไซต์ต่าง ๆ เป็นต้น
- Transform คือชุดกฎการแปลงข้อมูลที่มาจากแหล่งที่แตกต่างกันให้พร้อมใช้งานต่อได้เหมาะสมกับระบบปลายทางในการใช้งานต่อ อาจเรียกว่าเป็นขั้นตอนการทำความสะอาดข้อมูล (Data Cleansing) หรือการปรับปรุงคุณภาพข้อมูล (Data Quality) เช่น การแปลงค่าในระบบที่ 1 แปลว่า Male หรือ 2 แปลว่า Female ให้กลายเป็นรูปแบบเดียวกัน เป็นต้น
- Load การนำข้อมูลที่ได้ไปใส่ไว้ในระบบเป้าหมายปลายทางเพื่อดำเนินการในขั้นตอนต่อ ๆ ไป
ทั้งนี้ หากกรณีที่ชุดข้อมูลมีขนาดใหญ่ และต้องการจัดการทั้งข้อมูลที่เป็น Structured Data และ Unstructured Data ได้อย่างยืดหยุ่น รวมทั้งความเร็วคือสิ่งสำคัญ การทำ ETL อาจช้าจนเกินไป ซึ่งการสลับขั้นตอน Transform กับ Load หรือการทำ “ELT” แทน จะเหมาะสมกับกรณีดังกล่าวมากกว่า
- https://www.ibm.com/topics/etl
- https://aws.amazon.com/what-is/etl/
- https://www.qlik.com/us/etl
- https://en.wikipedia.org/wiki/Extract,_transform,_load
ที่มา: