Les termes techniques incontournables pour naviguer dans l'écosystème Data Engineering en 2026.
- Airflow (Apache)
- Orchestrateur open-source de pipelines de données, basé sur des DAGs Python. Standard de facto pour les workflows batch complexes.
- Bronze / Silver / Gold layers
- Architecture Medallion : Bronze = données brutes ingérées, Silver = données nettoyées et validées, Gold = données agrégées prêtes à l'analyse.
- CDC (Change Data Capture)
- Technique de capture des modifications en base de données (INSERT, UPDATE, DELETE) pour alimenter des pipelines en quasi-temps réel. Outils : Debezium, Fivetran, Airbyte.
- Catalogage de données
- Inventaire centralisé des datasets d'une organisation avec métadonnées, ownership, descriptions et politiques d'accès. Outils : DataHub, Amundsen, Atlan, Collibra.
- Data Contract
- Accord formel entre producteurs et consommateurs de données définissant le schéma, la qualité, la fréquence et la SLA d'un dataset. Tendance forte depuis 2024.
- Data Lakehouse
- Architecture combinant la flexibilité et le coût du Data Lake (stockage objet S3/GCS) avec les capacités transactionnelles et analytiques du DWH. Réalisé via Delta Lake, Apache Iceberg ou Apache Hudi.
- Data Lineage
- Traçabilité complète du cycle de vie d'une donnée : de sa source jusqu'à son consommateur final, en passant par toutes les transformations intermédiaires. Requis par RGPD, BCBS 239.
- Data Mesh
- Paradigme organisationnel et architectural décentralisant la propriété des données : chaque domaine métier est responsable de ses propres data products et de leur qualité.
- Data Observability
- Capacité à comprendre, surveiller et diagnostiquer l'état de santé des pipelines et données en production. Outils : Monte Carlo, Acceldata, Metaplane, Soda Cloud.
- Data Vault 2.0
- Méthodologie de modélisation de DWH orientée auditabilité et historisation, alternative au modèle en étoile de Kimball. Populaire en finance et assurance.
- DataOps
- Application des pratiques DevOps à l'ingénierie des données : CI/CD des pipelines, tests automatisés (Great Expectations, Soda), monitoring, déploiement continu. Réduit le time-to-insight.
- dbt (data build tool)
- Framework SQL-first pour transformer les données dans le DWH. Gère le versioning, les tests, la documentation automatique et le lineage. Standard de la couche Transform en 2026.
- Delta Lake
- Couche de stockage open-source de Databricks apportant ACID, time travel, schema evolution et Z-ordering sur des fichiers Parquet dans S3. Socle du Lakehouse Databricks.
- DuckDB
- Moteur SQL analytique in-process, ultra-rapide pour les petits et moyens volumes. Fonctionne en local sans infra. Remplace souvent Pandas/Spark pour les cas d'usage < 50 Go.
- ELT vs ETL
- ETL (Extract-Transform-Load) : transformation avant chargement, en dehors du DWH. ELT (Extract-Load-Transform) : chargement brut puis transformation dans le DWH cloud avec dbt. ELT domine désormais les architectures modernes.
- Flink (Apache)
- Moteur de traitement de flux (streaming) distribué, conçu pour le bas-latence. Concurrent de Spark Structured Streaming pour les cas d'usage streaming-first.
- Great Expectations
- Framework Python open-source de validation de données. Permet de définir des 'expectations' (assertions) sur les datasets et de les exécuter en CI/CD.
- Iceberg (Apache)
- Format de table ouvert pour les grands datasets analytiques stockés en Parquet. Supporte ACID, time travel, schema evolution. Soutenu par Netflix, Apple, Databricks.
- Kafka (Apache)
- Plateforme de streaming distribué à haut débit. Utilisée pour ingérer des événements en temps réel (logs, clics, transactions). Confluent est la distribution cloud managée.
- Medallion Architecture
- Voir Bronze/Silver/Gold layers. Pattern architectural recommandé par Databricks pour structurer un Lakehouse en couches de qualité croissante.
- Parquet
- Format de fichier colonnaire open-source optimisé pour l'analytique. Standard de stockage dans les Data Lakes et Lakehouses. Compressé, vectorisé, très rapide en lecture.
- Polars
- Bibliothèque DataFrame Python/Rust ultra-performante, alternative à Pandas. Exécution lazy, parallèle et vectorisée. 10 à 100x plus rapide que Pandas sur les gros volumes.
- Prefect / Dagster
- Orchestrateurs modernes de pipelines de données, alternatives à Airflow. Prefect privilégie la simplicité de code Python ; Dagster se distingue par son modèle de 'software-defined assets'.
- PySpark
- API Python d'Apache Spark. Permet d'écrire des transformations Spark en Python plutôt qu'en Scala. Indispensable pour les missions Databricks et les traitements big data.
- Redshift
- DWH cloud d'Amazon Web Services (AWS), basé sur PostgreSQL. Concurrent de Snowflake et BigQuery sur les missions AWS-first. Supporte désormais Apache Iceberg.
- Soda Core
- Framework open-source de qualité de données permettant de définir des checks YAML sur les datasets. Alternative légère à Great Expectations pour les pipelines dbt.
- Snowflake
- DWH cloud multi-cloud (AWS, Azure, GCP) séparant le compute du storage. Modèle pay-per-query, scalabilité automatique. Leader du marché DWH cloud avec Databricks.
- Spark (Apache)
- Framework de traitement distribué batch et streaming. Supporte Python (PySpark), Scala, SQL et R. Référence pour les traitements big data > 10 Go dans les environnements Hadoop et cloud.
- Unity Catalog
- Solution de gouvernance des données de Databricks : catalogue centralisé, gestion des permissions, lineage automatique, data sharing sécurisé entre workspaces.
- Z-ordering
- Technique d'optimisation Delta Lake/Iceberg colocalisent les données connexes dans les mêmes fichiers Parquet. Réduit le volume lu lors des requêtes filtrées sur les colonnes indexées.