Press "Enter" to skip to content

Data centric, data driven, data hub, data warehouse, data lake, data fabric, data mesh …. sauriez-vous situer ces différents paradigmes data ?

Plan :

Introduction – motivation

Le mot data est accolé à toutes les sauces. Difficile parfois de s’y retrouver.

  • Les données sont des objets à part entière des entreprises (actifs – patrimonial, régulés, convoités, à valeur, conditionnant le business, les activités, source d’innovation).
  • Bien que intégrées dans les S.I., elles ont pris une certaine forme d’autonomie, en termes de gouvernance et de management.
  • Des paradigmes data leurs sont dédiés pour : les gérer, les utiliser, les valoriser, les structurer.
  • Des solutions techniques (plates-formes data) prolifèrent comme moyens de support (DW/DM, stacks big data, modern data stack, EDW, data lake compatible, data framework…).
  • Qui viennent compléter l’historique (l’existant) des S.I. en termes de supports aux données (données enfouies dans les systèmes, les applications) – voir l’article : https://www.datassence.fr/2023/04/14/frise-chronologique-eres-de-la-place-des-donnees-dans-les-systemes-dinformation/
  • Sans oublier toutes les données et les supports hors S.I. à l’initiative des métiers : équipes locales data, data shadow.

Cet article se concentre sur une revue et la cartographie des principaux paradigmes data : data driven, data centric, data hub, data centralisation, data fabric, data mesh.

Qui sont-ils ?

Comment les données y sont vues ?

Comment ils interviennent vis-à-vis d’une organisation, de son activité, de son système d’information ?

Qu’est-ce qu’ils apportent ?

Comment ils se complètent ?

Comment se projeter à l’échelle, d’un domaine métier, d’un processus ?

Cartographie des paradigmes data

Source : © Datassence 2023 – https://www.datassence.fr/2023/06/01/data-centric-data-driven-data-hub-data-warehouse-data-lake-data-fabric-data-mesh-sauriez-vous-situer-ces-differents-paradigmes-data/

Synthèse

Zoom sur les paradigmes data

1) Données enfouies et data centric(1) : Place des données dans le modèle d’activité (business model, finalité)

Données enfouies :

Les données sont des instruments des processus, produits, activités, services, canaux… Elles concourent à leur performance, elles peuvent être parfois incontournables, mais ne sont pas le cœur du business model, de la finalité. Elles interviennent dans un second temps.

Leur valeur est indirecte.

Exemples : tout type de processus d’entreprise, relation-parcours client, traçabilité d’une chaîne logistique…

Data centric1 :

Le business model ou la finalité de l’activité est intrinsèque aux données. ils n’existent pas sans les données. Ils sont pensés en fonction des données.

Les produits sont des données, les processus, activités, offres sont au service des données.

La valeur des données est directe.

Exemples : Google, Waze, Facebook – réseaux sociaux, marketplace data, ubérisation, centrale publicitaire web.

2) Data driven : Rôle d’appui des données au modèle d’activité

Les données sont au service :

  • De la métrologie d’entreprise (mesures, indicateurs – KPI – OKR…)
  • Des processus de décision (qu’est-ce qu’il se passe, quelle est la situation – descriptif, qu’est-ce qu’il l’explique – explicatif, quelles sont les perspectives – prédictif, qu’est-il possible de faire – prescriptif ?)
  • De la connaissance (catégorisations, reconnaissance de patterns, contribution DICS, vues 360°-orientées)

Les données sont la matière première de tableaux de bord, de data visualisations, de moteurs d’alertes, d’enquêtes-audits-revues, de moteurs de calcul de data science, d’IA… data analytics avancées.

Elles sont soit extraites (cas des données enfouies), soit directement exploitées (cas des données centrales – data centric).

Elles font l’objet d’un cycle de vie : préparation, utilisation, mise à jour, obsolescence.

KPI : Key Performance Indicators. OKR : Objectives and Key Results. DICS : Pyramide Données-Informations-Connaissances-Sagesse

3) Application centric et data centric(2) : Place des données dans la construction du S.I.

La façon de penser le S.I. est historiquement basée sur la logique de projets / systèmesa / applications.

Application centric :

En général tout part d’un besoin, d’un projet et on y répond par une application, avec sa façon de considérer les données (périmètre, modèles, cycle de vie, modes de supports).

Dans le temps, on multiplie les projets / applications et donc les façons de considérer les données. Les données sont en silos, sous une chape complexe de plus en plus difficile à faire évoluer, les coûts d’intégration, de conversion, d’overlap  (technique et sémantique) croissent.

Cette façon de penser encore majoritaire, est concurrencée par un renversement de logique : la pensée data centric. En transition on encadre le traitement des données par des normes, des référentiels.

Data centric2 :

On pense d’abord données (modèles). Elles forment un noyau stable logique (core model métier / sémantique). Sur lequel vient se greffer les services / applicationsb / systèmes / procédures réponses à des demande de capacités (besoins). Avec l’idée des données pour tous (vision programme) versus des données pour mon problème (vision projet).

a) Avec historiquement les 1er systèmes transactionnels (années 60-70), puis l’arrivée des ERP, des systèmes clients-serveurs avec l’utilisation des SGBD (années 80-90), jusqu’à l’arrivée d’Internet et les sites puis applications web…

b) Dans ce cas la définition d’une application est différente.

4) Data hub, data warehouse, data lake, data fabric, data mesh : Supports aux données (plates-formes dédiées, gouvernance, management)

Face :

Différents styles d’architecture de données, d’organisation autour des données ont émergé.

Data huba : les données doivent circuler entre les silos, pour pallier les faiblesses d’une circulation point à point, des data hub sont mis en place – avec l’apport : de capacité de découplage, de conversion, de garantie de service (SLA), de monitoring, d’administration, de sécurité.

Data warehouse, data lake : l’ambition data driven, pousse à extraire les données pour les regrouper. La structure ODS/DW/DM forme un socle pour les systèmes décisionnels (business intelligence). Face au flot de données de toutes natures, des socles Big Data, Data lake se mettent en place pour aller plus loin dans l’exploitation analytique des données (nature des données prises en compte, data science, 3V – volume, vitesse, variété).

a) Se rappeler les solutions EAI (Enterprise Application Integration), ESB (Enterprise Service Bus)

Data fabric : Il faut faire avec l’existant en termes de support des données – sources – plates-formes… (voir l’équation). L’intégration est clé : comment accéder aux différentes sources de données en toute connaissance (métadonnées), en reconstituant une vue homogène de sources hétérogènes-fragmentées, en limitant les freins/frictions (exemple immédiateté), de façon flexible, sécurisée, pour les exploiter – les mettre à disposition de besoins analytiques (data driven), de besoins transverses (vision de bout en bout d’un processus, d’un parcours).

La réponse passe par des solutions orientées intégration de données : data virtualisation, data pipelines, api-isation, sémantisation…

Data mesh : La centralisation atteint ses limites, les sources et les usages des données se multiplient, les silos continuent d’exister … il est nécessaire de penser autrement le support aux données au travers de 4 piliers :

1) Gouverner, administrer, exploiter les données au plus près des domaines métier et de leur responsabilité comme propriétaires de données

2) Voir les données comme des produits (data as a product) et contributives à des data products

3) Disposer d’une infrastructure de données en libre-service pour l’IT et les métiers (self data)

4) Mettre en place une gouvernance fédérée des données et des architectures de données (sources – data platforms – infrastructure data partagée)

Exemples de data products : datasets, rapports, cube dimensionnel, vue360°…

Références :

Comment ces paradigmes data s’articulent, se positionnent les uns par rapport aux autres, se complètent ?

La logique data driven par essence va chercher à exploiter au maximum les données, leur potentiel.

L’approche data centric est destinée à cette logique. Quand pour les données enfouies un effort important doit être mené pour les « extraire ».

Pour cela et pour exploiter le potentiel des données des moyens techniques et organisationnels sont mis en place : faciliter la circulation des données (data hub), les centraliser pour mieux les traiter (data warehouse, data lake), offrir une couche intégrée des données à partir des sources (data fabric).

Avec pour finir, un pas de plus en termes d’ambition sur les données, en les considérant comme des produits, sous la responsabilité métier en autonomie tout en respectant un cadre commun sous une gouvernance fédérée (data mesh).

Comment cela se déploie à l’échelle d’une organisation, d’un domaine métier, d’un processus, d’une activité, d’un acteur

La prise en compte de ces paradigmes peut être pensée à tous les échelons de l’organisation : des architectes d’entreprise pour une vision d’ensemble au responsable d’un domaine métier avec ses enjeux.

La transition data marche très mal dès lors qu’elle cherche à révolutionner la situation existante : décider une infrastructure big data sans penser profondément ses enjeux et sa conformité métier, mettre en place une organisation data à coté – comme troisième acteur sur les données entre le métier et l’IT, chercher à imposer la data comme une quasi mantra d’entreprise – la data literacy à outrance et ses dérives (voir l’article : https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/).

La transition peut être progressive, se rejoindre entre une approche par le haut – globale et les approches locales (au sein de domaines métier), et équilibrée dans le sens cohabiter avec un existant sans le déséquilibrer.

Penser data centric, être data driven1 peut se faire à tous les niveaux.

Les moyens supports aux données sont à regarder par rapport à la facilité qu’ils offrent à suivre les évolutions métier dans le temps.

Pour l’angle data (voir une nouvelle fois l’évolution vers l’autonomie des données : https://www.datassence.fr/2023/04/14/frise-chronologique-eres-de-la-place-des-donnees-dans-les-systemes-dinformation/#_ftn4 ), le data mesh est la meilleure approche, quand le data hub ne considère que la data sous l’angle des flux, quand les centralisations data warehouse et data lake sont dans une logique de vue figée des données à un instant T (même si des moyens « temps réel » peuvent s’y inscrire) et quand la data fabric rajoute une couche d’intégration comme réponse au besoin d’évolution mais aussi comme contrainte.

Le data mesh est aussi un bon candidat pour penser les données dans leur ensemble au travers de l’idée de data product et de gouvernance fédérée (vision asset – holistique).

La clé d’entrée pour un domaine métier est d’abord une logique de pensée data driven, data product, data asset avant d’être une logique de moyens.

On revient alors à la base de la base du génie logiciel (on pourrait ici parler de » génie data ») avec l’importance de la proximité métier – cela semble enfoncer une porte ouverte, mais visiblement il faut le répéter, répéter… (voir article : https://towardsdatascience.com/the-next-big-crisis-for-data-teams-58ac2bd856e8?source=rss—-7f60cf5620c9—4 ).

(1) Data driven – moins de la moitié des organisations savent exploiter efficacement les données – https://www.gartner.com/en/newsroom/press-releases/03-21-2023-gartner-survey-reveals-less-than-half-of-data-and-analytics-teams-effectively-provide-value-to-the-organization


Tous droits réservés – datassence.fr. Cet article a été publié originellement sur www.datassence.fr.

L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.