Contactez-nous

[Ebook] 7 étapes pour valoriser votre projet IoT - En savoir plus

✖︎
Définitions Datalake, Dataware house, Lakehouse

Qu'est-ce qu'un Data Lake ? Data Warehouse ? Lakehouse ?

27/04/2021
Big Data

Le terme Big Data cache beaucoup de réalités. Démystifions quelques concepts sous-jacents que sont le Data warehouse, le Datalake et le Lakehouse.

Simon

Simon

Architecte Big Data

Du début des années 90 à aujourd’hui, les données et les analyses faisables sur celles-ci ont évolué vous vous en doutez. Les architectures possibles ont à leur tour changé, donnant naissance à 3 grands concepts : le data warehouse, le data lake et le data lakehouse.

Datawarehouse vs Datalake vs Lakehouse

Définition du Data Warehouse

Les données stockées dans les bases relationnelles pour les charges OLTP (Online Transaction Processing) sont archivées dans un Data Warehouse (une autre base de données relationnelle) pour pouvoir les analyser (OLAP / OnLine Analytical Processing) et générer des rapports compilant différentes métriques. La mise à disposition de la donnée se fait en général dans des Datamarts (RDBMS).

Qu'est-ce qu'un Data Lake ?

Ce concept apparaît après la naissance d’Hadoop en 2006 et a pour principe de stocker les données dans leur format RAW. On réplique tout simplement toutes les données intéressantes du SI : de la donnée relationnelle et donc structurée, des données semi-structurées comme des CSV, des logs ou des JSON, des données non-structurées comme des emails, des documents PDFs, ou des données binaires comme des images, des vidéos ou des fichiers audios. La technologie se cachant le plus souvent derrière ce terme c’est Hadoop.

Et le Lakehouse ?

Avec l’apparition du Serverless amené par les CSPs (Cloud Service Providers) est né un nouveau type d’architecture : le data lakehouse. Les analyses sont maintenant faisables sans gérer les infrastructures sous-jacentes. Les problématiques de gestion des serveurs sont mises de côté. Ici, l’idée est de stocker les données dans du stockage distribué (Amazon S3, Azure Blob Storage, Google Cloud Storage) et d’effectuer les analyses avec des infrastructures gérées par les CSPs (Amazon Athena, Amazon EMR, Databricks, Azure HDInsight, Google Dataproc).

Datalake dans le cloud

Webinar Pourquoi & comment créer un datalake dans le Cloud ?

Le Big Data cache beaucoup de réalités derrière un terme générique. Attardons-nous et démystifions un de ces concepts sous-jacent : le datalake.

Je m'inscris