Press "Enter" to skip to content

Revue data du mois (mars 2023)

Dernière mise à jour le 16 juin 2023

Cette revue est basée sur un ensemble de publications du mois de mars 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Sommaire :

Actualités du mois sur le sujet des architectures de données, des plates-formes data et de la convergence vers le paradigme data mesh

1) La vision centralisée des données :

L’idée de sémantique lakehouse (NB : après les datalake house, les datawerahouse actif…) – comme combinaison de l’esprit datalake (ici pour les données brutes – raw data), d’analytic warehouse (pour les données préparées aux analyses – cubes) et de couche sémantique. Avec l’idée de pallier la duplication de données source de friction (obsolescence, filtres ne permettant pas d’avoir accès à toutes les données, complexité opérationnelle – sécurité), de ralentissement. D’être en mesure d’interroger directement le datalake -> data lakehouse (via un moteur de requêtes performant). L’approche permet de limiter la duplication de données mais n’est pas suffisante. D’où l’idée d’y associer une couche sémantique pour construire à la volée les bonnes requêtes (exprimées sémantiquement et non plus uniquement via SQL) avec la bonne gouvernance (droits). Source : https://www.dataversity.net/the-semantic-lakehouse-explained/

2) Le sujet clé de la capacité d’évolution des plates-formes de données : les sources évoluent (nouvelles données, données obsolètes, changement de schéma), de nouvelles sources sont à intégrer, de nouveaux besoins exigent de nouvelles données. Comment être réactif ? L’article illustre l’évolution automatique de schémas de données pour l’offre Databricks. Source : https://towardsdatascience.com/delta-lake-automatic-schema-evolution-11d32bd1aa99

3) La dérive des big data : des données sous contrôle d’une instance centrale pour les garantir (qualité, intégrité, sécurité), une frustration des utilisateurs qui par des extraits « shadow » dupliquent chez eux les données qui les intéressent en cassant la garantie. L’idée est alors de proposer une capacité self data pour construire logiquement (sans duplication, dans le respect des garanties) des small data pour les besoins des utilisateurs … des domaines métier. Source : https://www.dataversity.net/zero-copy-integration-how-small-data-practices-will-replace-big-data/

4) Adapter les entrepôts de données (big data, data lake…) au besoin de l’IA. Source : https://www.dataversity.net/a-powerful-pair-modern-data-warehouses-and-machine-learning/ https://www.dataversity.net/a-powerful-pair-modern-data-warehouses-and-machine-learning/

Quand l’IA pousse à aller plus loin avec les données :

5) Vers la vision maillage des données (data mesh) : le maillage par domaines métier (Domain Driven Design le retour), la mentalité data products (l’esprit SOA le retour et étendu en regard au monde des données), la gouvernance fédérée (les CoPs – Communautés de Pratique le retour). Source : https://www.dataversity.net/innovating-with-data-mesh-and-data-governance/

Zoom sur la mentalité data products : une valeur qui dépasse mon besoin, une logique produit qui traverse l’organisation, un étiquetage, un cycle de vie pensé dans ce sens :

« 1. Énoncé du problème — que résolvons-nous ?

2. La valeur ajoutée — pourquoi résolvons-nous ?

3. Cartographie des données — où obtenir les données ?

4. Hypothèses — scénarios qui seront testés

5. Clients et parties prenantes — qui est impliqué ?

6. Dépendances et risques encourus

7. Actions stratégiques qui seront développées

8. KPI à surveiller

9. La performance et/ou les impacts du produit sur l’entreprise »

Source : https://towardsdatascience.com/how-to-create-high-performance-data-products-717ff3a47d38

Voir aussi l’idée de Data Product Canvas https://www.datamesh-architecture.com/data-product-canvas

The Data Product Canvas is free to use under the CC BY 4.0 license.

6) Les « data spaces »

L’idée Européenne : définir un ensemble d’espaces de données en fonction de finalités, capables de communiquer entre eux, interopérables, gardiens de règles de conformités, souverains, disponibles via des infrastructures partagées.

L’ambition : favoriser l’utilisation des données par le partage sous le contrôle d’une gouvernance souveraine (cf. data act). Idée de marché unique des données ouvert mais souverain.

Source : http://dataspaces.info/common-european-data-spaces/#page-content

La situation à date :

Source : https://internationaldataspaces.org/adopt/data-space-radar/

En mars :

6.1) Publication du guide des règles de l’IDSA (International Data Spaces Association) – comment mettre en place un data space ? Source : https://internationaldataspaces.org/build-trustworthy-data-spaces-with-the-new-idsa-rulebook/ . Le guide est ici : https://docs.internationaldataspaces.org/idsa-rulebook-v2/front-matter/frontmatter (Plan : Introduction, Guiding principles, Functional Requirements, Technical Agreements, Organizational Agreements, Legal Dimension.

6 .2) Exemple de data space : gestion de l’éolien https://internationaldataspaces.org/blowin-in-the-wind-data-spaces-for-windy-places/

6.3) Avec le dernier rapport du mois de mars sur les connecteurs de données (moyens pour partager les données entre data spaces dans le respect de la souveraineté de chaque data space). Le rapport présente une revue des connecteurs en fonction de la problématique adressée – IoT, jumeaux numérique, plate-forme cloud data, place de marché de données, IA… 23 solutions de connecteurs de données sont passées en revue : https://internationaldataspaces.org/wp-content/uploads/dlm_uploads/IDSA-Data-Connector-Report-5_March-2023.pdf

Conclusion) A suivre les « data spaces » … et l’idée de data mesh à l’échelle de l’Europe !

Source : https://www.onecub.com/what-is-a-data-space/

7) Dataops un point de situation par le site lebigdata.fr :

https://www.lebigdata.fr/dataops-gestion-donnees

A rejoindre avec les sujets de data products, de containerisation.

Les données face au temps réel, à un monde qui évolue sans cesse, à la capacité de capter les flux d’actualités (du présent … et du passé)

1) Temps réel … time to market : The Future of Data is Real-Time … habitués à l’attente à la minute avec Waze, Uber…pourquoi amener ses données juste à temps. Source : https://www.datasciencecentral.com/the-future-of-data-is-real-time/

2) Le concept de data drift (déjà évoqué le mois dernier : https://www.datassence.fr/2023/03/10/revue-data-du-mois-fevrier-2023/#_ftn1 ). Comment détecter les changements de comportements qui se traduisent au travers des données ? Impact sur les moteurs d’IA : https://towardsdatascience.com/how-to-understand-and-use-jensen-shannon-divergence-b10e11b03fd6

3) La capacité de capter et traduire un vaste flux de chaînes TV – avec le toujours fascinant projet GDELT (Global Database of Events, Language and Tone – https://www.gdeltproject.org/). En mars en complément de la capture des flux d’actualité, récupération via Internet Archives des actualités du passé : https://blog.gdeltproject.org/brookings-television-as-data-opening-the-internet-archives-two-decade-archive-of-global-television-news-spanning-50-countries-to-journalists-scholars-through-ai-analytics-search-visua/

La description des données et de leurs contextes de traitement (lineages) est indispensable. Maintenant comment maintenir cette description à jour ? L’exercice est sensible du fait de la masse de données, des évolutions permanentes des données. J’ai vu beaucoup de solutions via des outils de description maintenu à la main par un data steward, s’épuiser jusqu’à dans certain cas devenir un futur fantôme excel oublié après une opération de catalogage one shot  (rôle fastidieux et ingrat de stewardship du catalogue, descriptions jamais à jour, si on se concentre sur les données transverses … la transversalité consomme trop d’énergie…).

Mesures de la data literacy – de l’usages des données

(sujet récurrent : https://www.datassence.fr/category/data-literacy/ )

1) Le dernier rapport du Gartner : « Une enquête de Gartner révèle que moins de la moitié des équipes de données et d’analyse fournissent efficacement de la valeur à l’organisation »

https://www.gartner.com/en/newsroom/press-releases/03-21-2023-gartner-survey-reveals-less-than-half-of-data-and-analytics-teams-effectively-provide-value-to-the-organization

2) Idée de mesures et KPI sur la data literacy : https://www.dataversity.net/data-literacy-assessment-how-to-measure-success/

Application des principes de l’agile à la data gouvernance

Les idées clés : intérioriser la gouvernance dans l’organisation en place et non pas construire une organisation dédiée (au plus près de la compréhension des données), instaurer l’esprit d’une communauté de pratique de la gouvernance (favoriser les interactions, idée de réseau d’acteurs et de graphe de connaissance sur les données), intégrer les éléments de gouvernance de façon agile dans le quotidien (exemple daily point)

https://data.world/blog/agile-data-governance-short-story/ . Voir dans ce sens : https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/

Arrêtons la data « à côté »

D’une façon générale, arrêtons de penser la data (data management, data office, data fabric, data gouvernance, data literacy) « à côté », autrement dit avec une nouvelle organisation dédiée data « à côté » des organisations métier… et le risque de frictions entre organisations, de difficultés de partage de responsabilité sur un même bien (les données), la peur de perte de maîtrise d’une part de ses activités (concurrence), des outils séparés dans le quotidien de chacun…avec le cout de la multiplication des échanges (entre entités, entre systèmes).

L’analytics, la gouvernance – data au cœur du business (et non plus à côté) :

Les données sont un actif, un produit, sensibles, elles voyagent… de fait leur sécurité est cruciale

« Où vont vos données : dans le monde du stockage blockchain ? »

Avantages et risques de stockage dans la blockchain : (les avantages) sécurité, transparence, immuabilité, décentralisation, efficacité, traçabilité, (les risques) limitation du stockage, consommation énergétique, défis réglementaires, manque de confidentialité, utilisation abusive de la technologie. Source : https://dataconomy.com/2023/03/where-is-the-blockchain-stored/

Data observability

(sujet récurrent : https://www.datassence.fr/category/data-observability/ ) :

Les données factices : fausses (fake data), contrefaites, fabriquées – fictives (synthetic data)

Données et IA

A lire le volet données du rapport de l’UNESCO et MILA (https://mila.quebec/ ) « Angles morts de la gouvernance de l’IA ». Volet écrit par Kate Crawford auteure de l’ouvrage « Atlas of AI » (2021) – https://www.zulma.fr/livre/contre-atlas-de-lintelligence-artificielle/.

Source : https://unesdoc.unesco.org/ark:/48223/pf0000384801

Données et identité : un couple incontournable

Les données pour identifier les bons objets (les bonnes personnes ici), l’identité pour associer les bonnes données aux bons objets (toujours les bonnes personnes ici) :

« Angles morts du numérique ubiquitaire – Un glossaire critique et amoureux »

Un point d’attention sur un ouvrage atypique mais extrêmement intéressant (un volume collectif issu du colloque éponyme de Cerisy en 2020 – avec Y Citton en contributeur – coordinateur) : « Angles morts du numérique ubiquitaire – Un glossaire critique et amoureux ». Avec des entrées en lien avec les données qui apportent une vision décalée et enrichissante : https://www.lespressesdureel.com/ouvrage.php?id=9848&menu=1

Et commenté ici : https://hubertguillaud.wordpress.com/2023/03/06/dans-les-angles-morts-du-numerique/

A lire absolument, le changement de lunette fait du bien !

En vrac (data modeling tools, le format de stockage Parquet, data et sport, open data, réglementaire et données, la donnée est partout – cas d’usage)

Data modeling tools : https://www.kdnuggets.com/2023/03/list-7-best-data-modeling-tools-2023.html (voir aussi https://www.datassence.fr/2022/12/08/revue-data-du-mois-novembre-2022/#_ftn5b )

A suivre le format de stockage Parquet https://fr.wikipedia.org/wiki/Apache_Parquet  – dans le but d’optimiser les performances de traitement des données en même temps que le stockage -> approche de stockage en colonne (usages Big data, IA) https://towardsdatascience.com/4-ways-to-write-data-to-parquet-with-python-a-comparison-3c4f54ee5fec

Pour les amateurs de sport : un article dans l’Equipe sur les data chez footballeurs amateurs : https://www.lequipe.fr/France-Football/Article/L-explosion-des-datas-chez-les-footballeurs-amateurs/1384699 (et dans la lignée de : https://www.datassence.fr/2022/12/08/revue-data-du-mois-novembre-2022/#_ftn5a – data et rugby)

La toujours très intéressante revue open data du mois : https://www.opendatafrance.net/2023/03/30/lactualite-opendata-du-mois-11/ 

Mais aussi, le paradoxe de la défiance vis-à-vis du partage de données au détriment du bien commun alors qu’elles bénéficient aux GAFAM. Source : https://www.lemonde.fr/idees/article/2023/03/09/le-paradoxe-de-l-indisponibilite-des-donnees-au-service-de-l-interet-general-et-de-leur-abondance-au-benefice-d-interets-commerciaux-n-est-plus-acceptable_6164803_3232.html

Le sujet récurrent du réglementaire

La donnée est partout, transforme tout ce qu’elle touche. Et souvent, on retrouve les mêmes cas d’usage : appui au pilotage, traçabilité des process – chaînes logistiques, détection de fraude, optimisation marketing, https://www.smartdatacollective.com/how-big-data-transforming-maritime-industry/


RDV maintenant en mai pour la revue et les actualités d’avril !


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.