Press "Enter" to skip to content

Frise chronologique : Ères de la place des données dans les Systèmes d’Information

Dernière mise à jour le 7 décembre 2023

Plan :

Introduction – motivation

L’idée de cet article est de prendre du recul sur la place des données dans les S.I. et de proposer une structuration dans le temps de cette place.

Avec pourquoi pas, l’idée de se situer à date et dans une vision future : quelles places occupent mes données ? avec quels moyens ?

Pour cela, je vous propose une frise chronologique, présentant les différentes ères de la place des données dans les Systèmes d’Information.

Cette frise chronologique vise à illustrer dans le temps : comment les données sont vues au travers d’ères marquantes, comment l’autonomie des données progresse dans le temps, quelles plates-formes (data platforms) entrent en jeu au cours du temps et le tout au regard d’événements remarquables qui vont avoir un impact sur le volume de données et la place des données.

NB : on s’intéresse à l’histoire des données dans le cadre des systèmes d’information (internes, étendus, d’écosystèmes… sociétaux).

A chaque ère correspond des capacités, des usages, des contraintes, des couts différents et cela bien entendu par rapport aux données.

Cette vision peut s’appliquer à différentes échelles : à l’échelle d’un domaine métier, d’un système d’information, de plusieurs systèmes d’information d’un écosystème de partenaires … voire à des échelles plus larges – comme l’initiative Data spaces au niveau Européen (https://internationaldataspaces.org/discover-the-latest-issue-of-data-spaces_now-exploring-the-most-crucial-stories-in-the-data-economy/ et https://www.datassence.fr/2023/04/12/revue-data-du-mois-mars-2023/#_ftn1 – § 6) Les « data spaces »)

La frise chronologique

Frise chronologique : Ères de la place des données dans les Systèmes d’Information

Source : © Datassence 2023 – https://www.datassence.fr/2023/04/14/frise-chronologique-eres-de-la-place-des-donnees-dans-les-systemes-dinformation/

Les ères se conjuguent dans le temps, la nouvelle ère n’efface pas la suivante : l’ère des données enfouies et l’ère des données centralisées sont toujours une réalité et une nécessité. Les données restent au service des processus. Et en étant capable de centraliser logiquement ou physiquement les données, on peut alors les croiser (corréler, projeter, comparer, consolider) pour en tirer de la valeur. De plus, il est absolument nécessaire de tenir compte de l’historique de construction des systèmes data dans le temps. Rare sont les situations de mise en place d’une plate-forme data à partir d’une page blanche ou d’une situation où on peut tout effacer. Le poids de l’existant (services rendus, investissements, maintenance) est prépondérant.

NB : cette frise n’engage que son auteur … au travers de son expérience vécue tout au long de plus de 35 ans dans la vie de nombreux Systèmes d’Information. N’hésitez pas à me contacter, si votre vision est différente de ma proposition, complémentaire … Un recul collectif aura d’autant plus de valeur.

J’ai hésité entre le terme ère et le terme étape. Mais au final, j’ai préféré le terme ère pour un clin d’œil appuyé à tous ceux qui dans leur quotidien data, participent à des efforts archéologiques de fouille sur comment les données sont traitées (modélisées, exposées, mises en circulation, transformées, consommées, réutilisées). Pas un moment sans un effort de retro engineering avant d’attaquer un projet décisionnel, une question d’architecture data, une question métier à la recherche de données.

Les différentes ères des données par ordre d’apparition

1) Ère des données enfouies

Les données sont enfermées dans des traitements. Elles sont uniquement connues au travers des processus qui font appel aux traitements. On les retrouve dans les progiciels d’entreprise, dans des développements ad hoc d’applications. Les données sont majoritairement gérées dans des bases de données associées aux applications. Les suites bureautiques (avec excel principalement) embarquent avec un faible statut officiel une partie des données (shadow data). Hormis les aspects qualité, les données ne sont pas gérées en tant que tel et elles peuvent être « oubliées » (dark data).

2) Ère des données centralisées

Les données sortent des applications pour être regroupées dans des infocentres puis des systèmes décisionnels (datawarehouse). Elles sont transformées pour produire des indicateurs, des tableaux de bord. Elles sont prises en main par des équipes BI (Business Intelligence) dédiées.

Avec l’arrivée d’Internet, de la multiplication des capacités de captures, de récupération de traces, de saisies de données, les grands acteurs d’Internet conçoivent des systèmes de gestion de données adaptés à leur problématique – les 3V : Volume, Variété, Vitesse -> naissance des plates-formes Big Data.

Dans les entreprises les systèmes décisionnels historiques sont challengés par les plates-formes Big Data, par la prolifération de données issues de multiples canaux, par l’opportunité d’exploiter des jeux de données externes, par de nouvelles capacités d’exploitation des données (data visualisation, data science) en réponses à de nouvelles attentes qui sortent des fonctions classiques des datawarehouse (traitement de données non structurées par exemple). Le concept de data lake émerge pour regrouper toutes les données des entreprises et être en mesure de les exploiter en dehors de leur environnement d’origine.

Les offres cloud viennent renforcer l’effet de centralisation par des offres technologiques packagées qui rivalisent dans la capacité de centralisation, de scalabilité (jusqu’à dernièrement imaginer – Google – des solutions de type One Big Table … une table unique qui peut être étendue à des milliards de lignes et des milliers de colonnes pour permettre de stocker plusieurs téraoctets, voire pétaoctets, de données).

L’arrivée de l’IA nouvelle vague amène à constituer et gérer des gigantesques jeux de données.

3) Ère des données maillées

Les systèmes de centralisation de données n’arrivent pas à suivre la prolifération des données, l’amplitude de personnes confrontés aux données, à répondre à toutes les attentes sur les données. Les data lake deviennent des data swamp. Les séparations données opérationnelles, données analytiques, données pour la data science, pour l’IA, données exposées sont difficiles à gérer.

Les données voyagent, elles ont plusieurs vies – lieux de vie (réutilisation).

Les systèmes d’information hébergent de plus en plus de plates-formes data : historiques, nouvelles, centrales, locales, dédiées (exemple des plates-formes de type CDP – Customer Data Platform), transverses (type Master Data Management). L’enchevêtrement menace.

Le contrôle, la cohérence de toutes les vies des données, des plates-formes data demandent des efforts d’intégration et de management (data gouvernance – data management).

Les paradigmes de data mesh, data fabric (au sens tissus) émergent pour répondre à cette situation. Avec pour le data mesh quatre piliers : 1) Un maillage au niveau des domaines métier pour : la propriété des données, la gestion d’architectures de données décentralisées -intra-domaines 2) Un maillage au niveau des données en tant que produit – data as a product – data product 3) Le support d’une infrastructure de données en libre-service pour l’IT et les métiers pour exploiter le maillage et 4) Un maillage sous gouvernance fédérée : des données et des architectures de données (données communes, standards, interopérabilité, compliance) – voir référence Data mesh 2020. Et pour le paradigme data fabric, des préoccupations similaires avec l’accent mis sur la maîtrise de l’effort d’intégration des données (sources et produits) … le point dur numéro 1 de toutes les architectures de données (complexité liée à la répartition des données, intégration de multiples composants pour former une architecture / un stack data, compétences rares).

Le paradigme de maillage de données permet de suivre le changement d’échelle des données (volumes, circulations, silos, couvertures) tout en tenant compte de l’existant constitué au fil du temps.

Il vient en réaction à ce que certains appellent le chaos data où les données sont : enfouies, dispersées, dupliquées, multi-versionnées, mélangées, cachées, évaporées dans les nuages, transférées sans contrôle, oubliées, qui resurgissent même si elles ont été détruites (à l’image d’un horcrux dans l’univers d’Harry Potter !).

Les données deviennent des produits. L’idée des données comme produit pousse à adopter un nouveau point de vue par rapport aux données : à savoir PENSER PRODUIT. C’est-à-dire voir les données au travers du prisme : de leur packaging, de leur cycle de vie – de production, de leur étiquetage, de leur qualité, de leur traçabilité, de leur exposition et distribution, de leur consommateurs, etc.

Des plates-formes data (notées data framework dans la frise chronologique) en support au maillage, émergent ou se réorientent sur ce paradigme. Le maillage est d’abord une problématique d’intégration que l’on trouve au cœur de ces plates-formes (voir les solutions liées au paradigme de data fabric), intégration : de flux de données – datahub, des sources de données par API – par virtualisation – pas connecteurs, de traitements de données – pipelines ETL/ELT, d’exposition de data products. Le maillage c’est aussi, les relations entre data products (de construction, de composition, d’enrichissement, de contexte), entre producteurs et consommateurs des data products. Ces plates-formes portent des services transverses au maillage (catalogage, étiquetage des données / des data products, lineage, orchestration, monitoring, data observability). Ces plates-formes adoptent une logique de framework data (pour avoir prévu à l’avance, la capacité à intégrer des nouvelles sources de données, le support et l’exposition de data products en self data).

4) Et tentative prospective : ère des données liquides, immersives

Les données sont partout. Quel que soit le point de contact avec les données, on souhaite en disposer en temps réel, la prolifération continue, leur consommation se fait en flux continu (gestion, traitements, diffusion – streaming).

La course à la meilleure IA générative, pousse à disposer des nouvelles données en temps réel. Le data streaming est obligatoire pour une contextualisation en temps réel des productions génératives.

Le point de bascule – à partir de 2005-2010 : changement de paradigme, nouveau statut des données, autonomie des données … changement d’état d’esprit

Dans cette frise chronologique à partir de 2005-2010 s’opère progressivement un changement de paradigme par rapport aux données.

Comme tout changement de paradigme il signifie également un changement d’état d’esprit (façon de penser les données).

Ce changement de paradigme se concrétise par les points suivants :

1) Avec l’arrivée des Big Data, les données deviennent centrales, le rapport avec les traitements s’inverse

On passe du « traitement centrique » : Les données sont dans des silos de traitements (elles appartiennent à des applications pour un usage donné). Elles vont vers les traitements. Chaque besoin inter-application amène à s’échanger les données.

Au « données centriques » : Les données ne dépendent plus des applications. On transporte les traitements vers les données. On conjugue les traitements pour les besoins transverses, de croisements de données.

2) De la logique data driven au renversement data centric

On parle de plus en plus de pilotage par les données (data driven) dans les entreprises : pilotage d’activités, de processus, de produits, de canaux clients, de services, de relations partenaires… La business intelligence traditionnelle (appui décisionnel) étend sa portée d’action et touche à toutes les activités des entreprises.

Et pour certaines entreprises la logique devient renversante, on parle alors d’approche data centric. Les données deviennent les fondations : des Systèmes d’Information, jusqu’aux business model et processus / services délivrés (Uber, Waze … et bien entendu les GAFAM).

3) Les données acquièrent un nouveau statut

Les données deviennent un actif (asset), on parle de gestion patrimoniale des données.

Les données deviennent valorisables (prolifération des data market place).

Elles deviennent un objet de convoitise : tout est fait pour en capturer un maximum (trackers – cf https://exodus-privacy.eu.org/fr/ ), elles sont volées, monnayées dans le dark web, objet de rançons.

Des politiques publiques autour de l’open data se mettent en place.

On attribue des licences aux données.

Elles font l’objet de régulations : RGPD, Data act…

4) Les données deviennent autonomes

On se les échange, on les partage, on les réutilise.

Les données sont vues comme un produit : data as a product.

Elles constituent de nouveaux produits : data products, de jeux de données (datasets) aux tableaux de bord en data visualisation en passant par des agrégats résultats d’analytiques avancées, de vues 360°…

Elles ont alors leur propre cycle de vie en fonction de leur qualité comme produit, de leurs usages (exemple, les données vont être : collectées, préparées, consommées, certifiées, diffusées, archivées, oubliées, supprimées).

On les étiquette (via des métadonnées : données sur les données), on les catalogue (data catalog) : définitions (que signifient-elles ? quelles nomenclatures sont impliquées ?), lineage (d’où elles viennent, comment elles sont produites, par qui, avec quelles transformations), historique, qualité (quel niveau de qualité pour tel usage), traces des usages, statuts par rapport à des choix de gouvernance (sensibilité, contraintes réglementaires), responsabilités (data owner, data office de contrôle), valeurs…

On les « emballe » pour faciliter leur gestion, leur déploiement dans les plates-formes de données, dans les Systèmes d’Information (data product containerisation – cf. www.nextdata.com , dataops).

5) Les données s’ancrent de plus en plus dans le langage commun métier

Pas une réunion de travail, de débats argumentés, de négociations sans faire appel aux données. Pas de revue d’activité, de processus, de service sans un volet données. Pas de traitements de crises (on ne reviendra pas sur l’exemple emblématique du COVID !) sans données…

En faisant partie du langage commun, les données sont poussées à se mettre au même niveau d’usage, de fluidité, de facilité d’accès. Il faut pouvoir parler data couramment : y avoir accès immédiatement, les interroger et les visualiser à la demande, les manipuler sans frictions, en toute confiance.

6) Les données bénéficient de tout un nouvel écosystème

Nouvelles disciplines (data science), et interactions entre disciplines autour de la data.

Nouveaux métiers, nouveaux rôles : data analyst, data steward, data manager, chief data officer, data scientist, data protection officer, data miner, data journalist, data engineer, data broker, data owner, data custodian… et nouvelles problématiques RH.

2013 : source https://www.hervekabla.com/wordpress/datajob-2013-le-premier-salon-du-recrutement-pour-les-data-scientists/

Nouvelles compétences, formations.

Nouveaux environnements de travail (self data).

Nouvelles plates-formes de données.

Nouvelles formes de gouvernances : politiques des données, fiducie des données, réglementations, gouvernance fédérée (data mesh).

7) Et le tout sous un déluge de données

(25/02/2010) Source https://www.economist.com/leaders/2010/02/25/the-data-deluge

Plus de dispositifs de captures, plus de capteurs, plus d’objets connectés, plus de moments d’interaction amenant à récolter des données, une portée toujours de plus en plus étendue des points de contacts avec les données (dans son travail, dans sa vie courante, dans ses relations sociales, dans son éducation, dans son intimité, dans ses loisirs…).

Des besoins conduisant à produire des données « hors sol » – synthétiques.

Les données appellent les données. Plus on a de données, plus on va définir des moyens (Data science, Internet of Things, Intelligence Artificielle) qui vont permettre de répondre à de nouveaux besoins et nécessiter encore plus de données, ainsi de suite.

Avec plus en plus de bruits, de buzz sur les données :

2008 – Nature Big Data – science in the petabyte era (NB : on parle de zettabyte 15 ans après !) – https://www.nature.com/nature/volumes/455/issues/7209

2011 – Popular Science : Data is power – https://www.popsci.com/announcements/article/2011-10/november-2011-data-power/

2012 – HBR : getting control of Big Data

2014 – Data room canal plus (https://www.sportbuzzbusiness.fr/data-room-canal-nouveau-rendez-foot-100-geek-100-stats.html )

Data emballement

2022-2023 – Data emballement. Un tournant dans l’humanité ? Les vrais historiens le diront, en tout état de cause, jamais autant de moyens et d’investissements ont été réunis pour constituer les plus grands jeux de données de l’histoire, la conséquence de l’IA et en particulier du phénomène des IA génératives.

  • Des milliers de bots scannent (« scrapent ») le web entier en permanence bientôt en temps réel pour récupérer les données qui constituent les gigantesque datasets que les IA vont ingérer,
  • Des dizaines de millions de personnes (comme sous-traitants des sociétés IA, dans les entreprises pour leur besoin, par crowdsourcing – certains évoquent le chiffre de 150 millions de personnes – voir références A. Casilli en fin d’article), labélisent les données que les IA vont utiliser pour leur phase d’apprentissage et des milliards de $ financent tout cela,
  • Des dizaines de milliers de scripts et d’IA produisent des données synthétiques utilisées par les IA,
  • Des milliers de plates-formes dédiées à la production de données pour l’IA sont construites, des centaines de sociétés se spécialisent dans la production de données pour les IA.

Le tout constituant un nombre exponentiel de datasets qui vont appeler d’autres datasets (rappel : les données appellent les données).

Références bibliographiques (dates et volumes de données)

Les dates indiquées sur la ligne de temps, correspondent à des dates repères d’événements majeurs ou de cristallisation (et non forcément une date d’apparition). Dates ayant un impact sur le volume de données, la place des données dans les systèmes d’information :

Volumes de données : ce qui est intéressant pour les volumes indiqués se sont les ordres de grandeurs et la progression dans le temps (la précision des chiffres est difficile à estimer). Sources :

Source Statista – Évolution du volume de données (en zettaoctets) – https://www.statista.com/statistics/871513/worldwide-data-created/

Quelques sources – data emballement :


Tous droits réservés – datassence.fr. Cet article a été publié originellement sur www.datassence.fr.

L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.