Data Lakehouse คือสถาปัตยกรรมข้อมูลที่เป็นการผสมผสานข้อดีของ Data Lake และ Data Warehouse ร่วมกัน ซึ่งจะทำให้องค์กรสามารถใช้ประโยชน์ทั้งพื้นที่จัดเก็บที่จัดการได้ทั้งแบบมีโครงสร้าง (Structured Data) และไร้โครงสร้าง (Unstructured Data) ได้ในราคาประหยัด และสามารถวิเคราะห์ข้อมูลรวมศูนย์ได้ในบนแพลตฟอร์มเดียวกัน
โดย Data Lake คือพื้นที่จัดเก็บข้อมูลขนาดใหญ่ที่สามารถเก็บได้ทั้ง Structured Data และ Unstructured Data ที่สามารถนำข้อมูลไปประมวลผลและวิเคราะห์ต่อได้ หากแต่จะต้องมีความเชี่ยวชาญในการใช้ข้อมูล เนื่องจากข้อมูลจะถูกประมวลผลในระหว่างการวิเคราะห์เพื่อให้เกิดความเร็วในการโหลดข้อมูล
ส่วน Data Warehouse คือการทำให้ Business User สามารถเข้าถึงข้อมูลได้อย่างรวดเร็ว เพื่อที่จะนำไปวิเคราะห์ จัดทำรายงานหรือข้อมูลเชิงลึกเพื่อนำไปประกอบการตัดสินใจต่อได้ โดยทุกข้อมูลจะต้องผ่านการประมวลผล ETL (Extract, Transform, Load) ก่อนแล้ว เพื่อให้มีความพร้อมใช้ในการประมวลผลต่อไปได้ในแต่ละกรณี ซึ่งวิธีการนี้ก็จะทำให้มีข้อจำกัดในการเข้าถึงข้อมูล และส่งผลให้มีค่าใช้จ่ายเพิ่มเติมในอนาคตได้
ด้วยเหตุนี้ จึงทำให้เกิดเป็น Data Lakehouse ที่นำเอาความยืดหยุ่น ความคุ้มทุน และการขยายขนาดที่ง่ายของ Data Lake ในการจัดเก็บข้อมูลต่าง ๆ มาผสมผสานกับการจัดการข้อมูล และการประมวลผลของ Data Warehouse เพื่อทำให้เกิดการทำกระบวนการ Business Intelligence (BI) หรือ Machine Learning (ML) ได้กับข้อมูลทุกชนิดขององค์กรผ่านแพลตฟอร์มเดียวกันทั้งหมด
Data Lakehouse จึงทำให้องค์กรไม่จำเป็นจะต้องมีการจัดเก็บแยกเป็น 2 ส่วนคือเป็น Data Lake หนึ่งแห่ง และ Data Warehouse อีกหนึ่งแห่ง รวมทั้งยังช่วยให้องค์กรสามารถมีธรรมมาภิบาล (Data Governance) ได้แบบรวมศูนย์ ทำให้ทุกคนในองค์กรสามารถใช้ประโยชน์จากข้อมูลได้ทั้งหมดอีกด้วย
ที่มา: