Dernière modification le 16 juin 2023
Cette revue est basée sur un ensemble de publications du mois de mars 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.
Sommaire :
- Actualités du mois sur le sujet des architectures de données, des plates-formes data et de la convergence vers le paradigme data mesh
- Les données face au temps réel, à un monde qui évolue sans cesse, à la capacité de capter les flux d’actualités (du présent … et du passé)
- Mesures de la data literacy – de l’usages des données
- Application des principes de l’agile à la data gouvernance
- Arrêtons la data « à côté »
- Les données sont un actif, un produit, sensibles, elles voyagent… de fait leur sécurité est cruciale
- « Où vont vos données : dans le monde du stockage blockchain ? »
- Data observability
- Les données factices : fausses (fake data), contrefaites, fabriquées – fictives (synthetic data)
- Données et IA
- Données et identité : un couple incontournable
- « Angles morts du numérique ubiquitaire – Un glossaire critique et amoureux »
- En vrac (data modeling tools, le format de stockage Parquet, data et sport, open data, réglementaire et données, la donnée est partout – cas d’usage)
Actualités du mois sur le sujet des architectures de données, des plates-formes data et de la convergence vers le paradigme data mesh
1) La vision centralisée des données :
L’idée de sémantique lakehouse (NB : après les datalake house, les datawerahouse actif…) – comme combinaison de l’esprit datalake (ici pour les données brutes – raw data), d’analytic warehouse (pour les données préparées aux analyses – cubes) et de couche sémantique. Avec l’idée de pallier la duplication de données source de friction (obsolescence, filtres ne permettant pas d’avoir accès à toutes les données, complexité opérationnelle – sécurité), de ralentissement. D’être en mesure d’interroger directement le datalake -> data lakehouse (via un moteur de requêtes performant). L’approche permet de limiter la duplication de données mais n’est pas suffisante. D’où l’idée d’y associer une couche sémantique pour construire à la volée les bonnes requêtes (exprimées sémantiquement et non plus uniquement via SQL) avec la bonne gouvernance (droits). Source : https://www.dataversity.net/the-semantic-lakehouse-explained/
2) Le sujet clé de la capacité d’évolution des plates-formes de données : les sources évoluent (nouvelles données, données obsolètes, changement de schéma), de nouvelles sources sont à intégrer, de nouveaux besoins exigent de nouvelles données. Comment être réactif ? L’article illustre l’évolution automatique de schémas de données pour l’offre Databricks. Source : https://towardsdatascience.com/delta-lake-automatic-schema-evolution-11d32bd1aa99
3) La dérive des big data : des données sous contrôle d’une instance centrale pour les garantir (qualité, intégrité, sécurité), une frustration des utilisateurs qui par des extraits « shadow » dupliquent chez eux les données qui les intéressent en cassant la garantie. L’idée est alors de proposer une capacité self data pour construire logiquement (sans duplication, dans le respect des garanties) des small data pour les besoins des utilisateurs … des domaines métier. Source : https://www.dataversity.net/zero-copy-integration-how-small-data-practices-will-replace-big-data/
4) Adapter les entrepôts de données (big data, data lake…) au besoin de l’IA. Source : https://www.dataversity.net/a-powerful-pair-modern-data-warehouses-and-machine-learning/ https://www.dataversity.net/a-powerful-pair-modern-data-warehouses-and-machine-learning/
Quand l’IA pousse à aller plus loin avec les données :
- Containerisation (portabilité, maintien de la consistance, isolation, scalabilité, monitoring) https://dataconomy.com/2023/03/what-is-containers-as-a-service-caas/
- Versioning, gestion de variantes de jeux de données https://towardsdatascience.com/8-best-data-version-control-tools-in-2023-cc9045d37bb8
5) Vers la vision maillage des données (data mesh) : le maillage par domaines métier (Domain Driven Design le retour), la mentalité data products (l’esprit SOA le retour et étendu en regard au monde des données), la gouvernance fédérée (les CoPs – Communautés de Pratique le retour). Source : https://www.dataversity.net/innovating-with-data-mesh-and-data-governance/
Zoom sur la mentalité data products : une valeur qui dépasse mon besoin, une logique produit qui traverse l’organisation, un étiquetage, un cycle de vie pensé dans ce sens :
« 1. Énoncé du problème — que résolvons-nous ?
2. La valeur ajoutée — pourquoi résolvons-nous ?
3. Cartographie des données — où obtenir les données ?
4. Hypothèses — scénarios qui seront testés
5. Clients et parties prenantes — qui est impliqué ?
6. Dépendances et risques encourus
7. Actions stratégiques qui seront développées
8. KPI à surveiller
9. La performance et/ou les impacts du produit sur l’entreprise »
Source : https://towardsdatascience.com/how-to-create-high-performance-data-products-717ff3a47d38
Voir aussi l’idée de Data Product Canvas https://www.datamesh-architecture.com/data-product-canvas
The Data Product Canvas is free to use under the CC BY 4.0 license.
6) Les « data spaces »
L’idée Européenne : définir un ensemble d’espaces de données en fonction de finalités, capables de communiquer entre eux, interopérables, gardiens de règles de conformités, souverains, disponibles via des infrastructures partagées.
L’ambition : favoriser l’utilisation des données par le partage sous le contrôle d’une gouvernance souveraine (cf. data act). Idée de marché unique des données ouvert mais souverain.
Source : http://dataspaces.info/common-european-data-spaces/#page-content
La situation à date :
Source : https://internationaldataspaces.org/adopt/data-space-radar/
En mars :
6.1) Publication du guide des règles de l’IDSA (International Data Spaces Association) – comment mettre en place un data space ? Source : https://internationaldataspaces.org/build-trustworthy-data-spaces-with-the-new-idsa-rulebook/ . Le guide est ici : https://docs.internationaldataspaces.org/idsa-rulebook-v2/front-matter/frontmatter (Plan : Introduction, Guiding principles, Functional Requirements, Technical Agreements, Organizational Agreements, Legal Dimension.
6 .2) Exemple de data space : gestion de l’éolien https://internationaldataspaces.org/blowin-in-the-wind-data-spaces-for-windy-places/
6.3) Avec le dernier rapport du mois de mars sur les connecteurs de données (moyens pour partager les données entre data spaces dans le respect de la souveraineté de chaque data space). Le rapport présente une revue des connecteurs en fonction de la problématique adressée – IoT, jumeaux numérique, plate-forme cloud data, place de marché de données, IA… 23 solutions de connecteurs de données sont passées en revue : https://internationaldataspaces.org/wp-content/uploads/dlm_uploads/IDSA-Data-Connector-Report-5_March-2023.pdf
Conclusion) A suivre les « data spaces » … et l’idée de data mesh à l’échelle de l’Europe !
Source : https://www.onecub.com/what-is-a-data-space/
7) Dataops un point de situation par le site lebigdata.fr :
https://www.lebigdata.fr/dataops-gestion-donnees
A rejoindre avec les sujets de data products, de containerisation.
Les données face au temps réel, à un monde qui évolue sans cesse, à la capacité de capter les flux d’actualités (du présent … et du passé)
1) Temps réel … time to market : The Future of Data is Real-Time … habitués à l’attente à la minute avec Waze, Uber…pourquoi amener ses données juste à temps. Source : https://www.datasciencecentral.com/the-future-of-data-is-real-time/
2) Le concept de data drift (déjà évoqué le mois dernier : https://www.datassence.fr/2023/03/10/revue-data-du-mois-fevrier-2023/#_ftn1 ). Comment détecter les changements de comportements qui se traduisent au travers des données ? Impact sur les moteurs d’IA : https://towardsdatascience.com/how-to-understand-and-use-jensen-shannon-divergence-b10e11b03fd6
3) La capacité de capter et traduire un vaste flux de chaînes TV – avec le toujours fascinant projet GDELT (Global Database of Events, Language and Tone – https://www.gdeltproject.org/). En mars en complément de la capture des flux d’actualité, récupération via Internet Archives des actualités du passé : https://blog.gdeltproject.org/brookings-television-as-data-opening-the-internet-archives-two-decade-archive-of-global-television-news-spanning-50-countries-to-journalists-scholars-through-ai-analytics-search-visua/
La description des données et de leurs contextes de traitement (lineages) est indispensable. Maintenant comment maintenir cette description à jour ? L’exercice est sensible du fait de la masse de données, des évolutions permanentes des données. J’ai vu beaucoup de solutions via des outils de description maintenu à la main par un data steward, s’épuiser jusqu’à dans certain cas devenir un futur fantôme excel oublié après une opération de catalogage one shot (rôle fastidieux et ingrat de stewardship du catalogue, descriptions jamais à jour, si on se concentre sur les données transverses … la transversalité consomme trop d’énergie…).
Mesures de la data literacy – de l’usages des données
(sujet récurrent : https://www.datassence.fr/category/data-literacy/ )
1) Le dernier rapport du Gartner : « Une enquête de Gartner révèle que moins de la moitié des équipes de données et d’analyse fournissent efficacement de la valeur à l’organisation »
2) Idée de mesures et KPI sur la data literacy : https://www.dataversity.net/data-literacy-assessment-how-to-measure-success/
Application des principes de l’agile à la data gouvernance
Les idées clés : intérioriser la gouvernance dans l’organisation en place et non pas construire une organisation dédiée (au plus près de la compréhension des données), instaurer l’esprit d’une communauté de pratique de la gouvernance (favoriser les interactions, idée de réseau d’acteurs et de graphe de connaissance sur les données), intégrer les éléments de gouvernance de façon agile dans le quotidien (exemple daily point)
https://data.world/blog/agile-data-governance-short-story/ . Voir dans ce sens : https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/
Arrêtons la data « à côté »
D’une façon générale, arrêtons de penser la data (data management, data office, data fabric, data gouvernance, data literacy) « à côté », autrement dit avec une nouvelle organisation dédiée data « à côté » des organisations métier… et le risque de frictions entre organisations, de difficultés de partage de responsabilité sur un même bien (les données), la peur de perte de maîtrise d’une part de ses activités (concurrence), des outils séparés dans le quotidien de chacun…avec le cout de la multiplication des échanges (entre entités, entre systèmes).
L’analytics, la gouvernance – data au cœur du business (et non plus à côté) :
- Self data métier : par https://www.savantlabs.io/ via https://techcrunch.com/2023/03/01/savant-labs-aims-to-bring-analytics-directly-to-line-of-business-users/ (NB dans le même esprit voir en France https://orkestra-data.com/ – https://krialys.com/ )
- La suppression du « à côté » est à tous les niveaux, y compris et surtout au niveau stratégique, business model – « Mapper la gouvernance des données à la valeur métier » https://www.precisely.com/blog/datagovernance/linking-data-governance-to-business-goals
Les données sont un actif, un produit, sensibles, elles voyagent… de fait leur sécurité est cruciale
- Revue des outils de sécurisation des données en environnement cloud : Sentra, Piiano, Polar Security, Sysdig, JupiterOne, AuthO. Source : https://www.smartdatacollective.com/top-tools-cloud-data-security-stack/
- La revue du Forrester : « The Forrester Wave™: Data Security Platforms, Q1 2023 » https://reprints2.forrester.com/#/assets/2/1646/RES178465/report
« Où vont vos données : dans le monde du stockage blockchain ? »
Avantages et risques de stockage dans la blockchain : (les avantages) sécurité, transparence, immuabilité, décentralisation, efficacité, traçabilité, (les risques) limitation du stockage, consommation énergétique, défis réglementaires, manque de confidentialité, utilisation abusive de la technologie. Source : https://dataconomy.com/2023/03/where-is-the-blockchain-stored/
Data observability
(sujet récurrent : https://www.datassence.fr/category/data-observability/ ) :
- 7 cas d’utilisation inhabituels de l’observabilité des données pour améliorer votre gouvernance des données. Les données d’observation pour les données : 1) Analyse prédictive des problématiques de qualité de données 2) Catégoriser les problèmes de qualité de données 3) Rationaliser les pipelines de données 4) Résolution automatique (via IA, système de règles) de problème de qualité de données 5) Analytique, alerte, surveillance des accès aux données 6) Suivi de conformité des données à une politique, réglementation, 7) Analyse d’incident – audit (exemple sur des données privées). https://towardsdatascience.com/the-7-unusual-data-observability-use-cases-to-improve-your-data-governance-33f7bf4d5f7a?source=rss—-7f60cf5620c9—4
- Data Observability (vue holistique) vs. Monitoring (supervision de la bonne exécution de pipelines de données) vs. Testing (contrôle de la qualité des données) https://www.dataversity.net/data-observability-vs-monitoring-vs-testing/
- Après Cribl, Monte Carlo et Coralogix, Sifflet (https://www.siffletdata.com/ ) lève 12 M€ pour renforcer sa plate-forme data observability (avec Carrefour comme client) https://techcrunch.com/2023/03/21/sifflet-raises-cash-to-expand-its-data-observability-platform/
Les données factices : fausses (fake data), contrefaites, fabriquées – fictives (synthetic data)
- Comment créer de fausses données pour illustrer une analyse data (data visualisation) rapidement sans avoir à préparer et nettoyer un jeu de données réelles. The faker package en python https://towardsdatascience.com/generating-fake-data-for-data-analytics-19cd5ed82a1
- Un guide pour générer des données synthétiques en imitant les propriétés statistiques des événements observés : https://towardsdatascience.com/step-by-step-guide-to-generate-synthetic-data-by-sampling-from-univariate-distributions-6b0be4221cb1
- Enquêtes à suivre sur les données synthétiques : https://www.kdnuggets.com/2023/03/synthetic-data-survey-know-about.html
- 7 cas d’utilisation inhabituels de l’observabilité des données pour améliorer votre gouvernance des données. Les données d’observation pour les données : 1) Analyse prédictive des problématiques de qualité de données 2) Catégoriser les problèmes de qualité de données 3) Rationaliser les pipelines de données 4) Résolution automatique (via IA, système de règles) de problème de qualité de données 5) Analytique, alerte, surveillance des accès aux données 6) Suivi de conformité des données à une politique, réglementation, 7) Analyse d’incident – audit (exemple sur des données privées). https://towardsdatascience.com/the-7-unusual-data-observability-use-cases-to-improve-your-data-governance-33f7bf4d5f7a?source=rss—-7f60cf5620c9—4
- Data Observability (vue holistique) vs. Monitoring (supervision de la bonne exécution de pipelines de données) vs. Testing (contrôle de la qualité des données) https://www.dataversity.net/data-observability-vs-monitoring-vs-testing/
- Après Cribl, Monte Carlo et Coralogix, Sifflet (https://www.siffletdata.com/ ) lève 12 M€ pour renforcer sa plate-forme data observability (avec Carrefour comme client) https://techcrunch.com/2023/03/21/sifflet-raises-cash-to-expand-its-data-observability-platform/
Données et IA
A lire le volet données du rapport de l’UNESCO et MILA (https://mila.quebec/ ) « Angles morts de la gouvernance de l’IA ». Volet écrit par Kate Crawford auteure de l’ouvrage « Atlas of AI » (2021) – https://www.zulma.fr/livre/contre-atlas-de-lintelligence-artificielle/.
Source : https://unesdoc.unesco.org/ark:/48223/pf0000384801
Données et identité : un couple incontournable
Les données pour identifier les bons objets (les bonnes personnes ici), l’identité pour associer les bonnes données aux bons objets (toujours les bonnes personnes ici) :
- La vérification d’identité : https://www.lebigdata.fr/id-verification-quest-ce-que-cest-et-pourquoi-leffectuer
- L’évolution de la gestion des identifiants publicitaires et l’identification des utilisateurs … des personnes et la collecte de données : https://fredcavazza.net/2023/03/10/enjeux-et-solutions-face-au-blocage-des-identifiants-publicitaires/
- La vérification de l’âge – retour sur l’avis de la CNIL sur l’absence de solution et la législation obligeant à vérifier l’âge réel de l’utilisateur pour l’accès à certains sites https://www.techdirt.com/2023/03/01/even-after-its-own-data-protection-agency-said-theres-no-safe-way-to-do-age-verification-france-wants-to-do-age-verification-for-the-internet/
- Et pour finir le lancement de France Identité : notre nouvelle identité numérique – ID digital pour être reconnu dans le monde digital : https://www.lebigdata.fr/france-identite
« Angles morts du numérique ubiquitaire – Un glossaire critique et amoureux »
Un point d’attention sur un ouvrage atypique mais extrêmement intéressant (un volume collectif issu du colloque éponyme de Cerisy en 2020 – avec Y Citton en contributeur – coordinateur) : « Angles morts du numérique ubiquitaire – Un glossaire critique et amoureux ». Avec des entrées en lien avec les données qui apportent une vision décalée et enrichissante : https://www.lespressesdureel.com/ouvrage.php?id=9848&menu=1
Et commenté ici : https://hubertguillaud.wordpress.com/2023/03/06/dans-les-angles-morts-du-numerique/
A lire absolument, le changement de lunette fait du bien !
En vrac (data modeling tools, le format de stockage Parquet, data et sport, open data, réglementaire et données, la donnée est partout – cas d’usage)
Data modeling tools : https://www.kdnuggets.com/2023/03/list-7-best-data-modeling-tools-2023.html (voir aussi https://www.datassence.fr/2022/12/08/revue-data-du-mois-novembre-2022/#_ftn5b )
A suivre le format de stockage Parquet https://fr.wikipedia.org/wiki/Apache_Parquet – dans le but d’optimiser les performances de traitement des données en même temps que le stockage -> approche de stockage en colonne (usages Big data, IA) https://towardsdatascience.com/4-ways-to-write-data-to-parquet-with-python-a-comparison-3c4f54ee5fec
Pour les amateurs de sport : un article dans l’Equipe sur les data chez footballeurs amateurs : https://www.lequipe.fr/France-Football/Article/L-explosion-des-datas-chez-les-footballeurs-amateurs/1384699 (et dans la lignée de : https://www.datassence.fr/2022/12/08/revue-data-du-mois-novembre-2022/#_ftn5a – data et rugby)
La toujours très intéressante revue open data du mois : https://www.opendatafrance.net/2023/03/30/lactualite-opendata-du-mois-11/
Mais aussi, le paradoxe de la défiance vis-à-vis du partage de données au détriment du bien commun alors qu’elles bénéficient aux GAFAM. Source : https://www.lemonde.fr/idees/article/2023/03/09/le-paradoxe-de-l-indisponibilite-des-donnees-au-service-de-l-interet-general-et-de-leur-abondance-au-benefice-d-interets-commerciaux-n-est-plus-acceptable_6164803_3232.html
Le sujet récurrent du réglementaire :
- Rôle des données dans la loi Anti Gaspillage pour une Economie Circulaire (AGEC) https://www.journaldunet.com/ebusiness/commerce/1519643-loi-agec-pim-et-dam-facilitent-votre-mise-en-conformite/
- Consultation de la CNIL sur la conformité vis-à-vis des données personnelles dans le cas des voitures connectées https://www.presse-citron.net/donnees-des-voitures-connectees-la-seance-est-ouverte/
- Nouvelle agence centrale en Chine pour gérer les flux de données internes et externes https://finance.yahoo.com/news/china-create-agency-regulate-data-094303116.html?_guc_consent_skip=1678568941 (voir aussi : https://www.datassence.fr/2022/12/08/revue-data-du-mois-novembre-2022/#_ftn2 )
- L’utilisation d’outils de suivi Meta enfreint les règles de l’UE sur les transferts de données https://techcrunch.com/2023/03/16/meta-tracking-gdpr-data-transfer-breach/
La donnée est partout, transforme tout ce qu’elle touche. Et souvent, on retrouve les mêmes cas d’usage : appui au pilotage, traçabilité des process – chaînes logistiques, détection de fraude, optimisation marketing, https://www.smartdatacollective.com/how-big-data-transforming-maritime-industry/
RDV maintenant en mai pour la revue et les actualités d’avril !
Les commentaires sont fermés.