Les concepts, outils et architectures incontournables pour comprendre et pratiquer le Data Engineering en 2026.
- Airflow
- Orchestrateur open-source Apache pour la planification et la surveillance des pipelines data — le standard du marché pour gérer les DAGs de transformation.
- Bronze / Silver / Gold layers
- Architecture Medallion : Bronze = données brutes ingérées sans transformation, Silver = données nettoyées et validées, Gold = données agrégées prêtes pour la BI et l'analytics.
- CDC
- Change Data Capture — technique d'ingestion incrémentale qui capture uniquement les modifications apportées aux données source, réduisant la charge et la latence des pipelines.
- Catalogage données
- Inventaire structuré des datasets d'une organisation : métadonnées, ownership, lineage, glossaire métier. Outils : DataHub, Apache Atlas, Collibra, Amundsen.
- Data Contract
- Accord formel entre une équipe productrice de données et ses consommateurs, définissant le schéma, la qualité attendue, les SLA de fraîcheur et les modalités d'évolution.
- Data Lakehouse
- Architecture combinant la flexibilité et le coût du data lake avec les capacités de gouvernance et de requêtage du data warehouse. Implementations : Delta Lake (Databricks), Apache Iceberg, Apache Hudi.
- Data Lineage
- Traçabilité de l'origine et des transformations d'une donnée de sa source jusqu'à son utilisation finale. Indispensable pour le débogage, l'audit RGPD et la confiance dans les rapports.
- Data Mesh
- Architecture organisationnelle décentralisée où chaque domaine métier est responsable de ses data products. Principe fondateur de Zhamak Dehghani (2019), encore rare en production complète en France.
- Data Observability
- Capacité à surveiller la santé des données en production : fraîcheur, volume, distribution, schéma, cohérence. Outils : Monte Carlo, Soda, elementary (extension dbt).
- Data Vault 2.0
- Méthodologie de modélisation des data warehouses basée sur des Hubs (entités), Links (relations) et Satellites (attributs historisés). Adaptée aux environnements à forte évolutivité et aux exigences d'audit.
- DataOps
- Ensemble de pratiques inspirées du DevOps appliquées aux pipelines data : CI/CD, tests automatisés, monitoring, collaboration équipe. Objectif : réduire le cycle de mise en production d'un pipeline de semaines à heures.
- dbt
- Data Build Tool — outil de transformation SQL versionné avec tests intégrés, documentation auto-générée et lineage. Standard de facto de l'analytics engineering moderne.
- Delta Lake
- Couche de stockage open-source (Databricks / Linux Foundation) ajoutant les transactions ACID, le time travel et le schema enforcement aux fichiers Parquet sur object storage.
- DuckDB
- Base de données analytique embarquée, ultra-rapide pour les requêtes OLAP locales ou sur fichiers S3/Parquet. Alternative légère à Spark pour les volumes inférieurs à quelques centaines de Go.
- ELT vs ETL
- ETL (Extract-Transform-Load) : transformation avant chargement, logique déportée dans l'outil d'intégration. ELT : transformation après chargement dans le DWH, privilégié avec les cloud warehouses modernes (BigQuery, Snowflake) et dbt.
- Flink
- Framework open-source Apache pour le traitement de flux de données (streaming) en temps réel. Alternative à Spark Streaming avec une latence plus faible et une gestion d'état avancée.
- Great Expectations
- Framework Python open-source de validation et documentation des données. Permet de définir des expectations (tests) sur les datasets et de générer des rapports de qualité automatiques.
- Iceberg
- Format de table open-source (Apache) pour les datasets analytiques massifs sur object storage. Supporte les transactions ACID, l'évolution de schéma et le partitionnement avancé. Adopté par AWS, Google, Snowflake.
- Kafka
- Plateforme de streaming distribuée open-source (Apache). Standard pour l'ingestion de données en temps réel, la décorrélation des systèmes producteurs/consommateurs et les architectures event-driven.
- Medallion Architecture
- Synonyme de Bronze/Silver/Gold layers. Nomenclature popularisée par Databricks pour désigner les trois zones de qualité croissante du lakehouse.
- Parquet
- Format de fichier columnar open-source (Apache) compressé et optimisé pour les requêtes analytiques. Standard de stockage pour les data lakes et lakehouses.
- Polars
- Bibliothèque DataFrame ultra-rapide en Rust avec une API Python/Rust. Alternative à Pandas pour les volumes dépassant la RAM, avant de passer à Spark ou DuckDB.
- Prefect / Dagster
- Orchestrateurs data modernes, alternatives à Airflow. Prefect : API Python native, UI cloud. Dagster : orienté data assets avec lineage et tests intégrés. Tendance forte dans les stacks data modernes.
- PySpark
- API Python pour Apache Spark — le standard pour le traitement distribué de volumes massifs (multi-Go à Po). Utilisé sur Databricks, EMR, Dataproc et HDInsight.
- Soda Core
- Outil open-source de qualité des données permettant de définir des checks YAML sur les datasets et de les intégrer dans les pipelines CI/CD et les orchestrateurs.
- Snowflake
- Cloud data warehouse SaaS multi-cloud (AWS/GCP/Azure) avec séparation compute/storage, partage de données natif et marketplace. Leader du marché DWH en 2026.
- Spark
- Framework open-source Apache pour le traitement distribué de données massives en batch et streaming. Base de la plupart des plateformes big data enterprise (Databricks, EMR, Dataproc).
- Unity Catalog
- Solution de gouvernance unifiée de Databricks : catalogue centralisé, contrôle d'accès fin (row/column level), lineage automatique et audit trail pour tous les assets data du lakehouse.