Cette revue est basée sur un ensemble de publications du mois d’avril 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.
Sommaire :
- Le stress data : chief data officer, data engineer, data scientist … personne n’y échappe
- Le changement de mindset sur les données : penser produit (data product)
- Le back office des data products – plats de spaghetti de data pipeline, environnement industriel ?
- Sens, valeur et confiance : les trois dimensions auxquelles les données sont associées et dont dépend le besoin en qualité de données
- La fin de vie des données
- Données et IA (impossible d’y échapper !)
- Quand les données peuvent se faire rare – que peut-on faire ?
- L’environnement des données : data portabilité, changement d’environnement, lien données – objet
- En vrac (green data, British data awards, open data, métrologie, capture de données à partir de données non structurées, data physicalisation, encore des tendances data 2023)
- Et pour terminer – un cadeau science-fiction – Le rôle de « Data » dans star trek
Le stress data : chief data officer, data engineer, data scientist … personne n’y échappe
Les promesses de l’ère des Big data, plus de valeur, plus d’efficacité ont poussé les entreprises à investir dans des environnements complexes, coûteux, faisant appel à de nouvelles compétences, manipulant l’objet « données » d’une façon différente et qui viennent s’ajouter aux silos de données qui perdurent, sans oublier l’activité data shadow qui n’a jamais été aussi active.
Pour des résultats (retour sur investissement) « délicats » en étant politiquement correct (voir aussi dans la revue de février « Big data is dead » https://www.datassence.fr/2023/03/10/revue-data-du-mois-fevrier-2023/#_ftn6).
Les CDO sont mis à l’épreuve et doivent rendre des comptes sur la mise en place de data lake.
Les data scientist passent toujours plus de temps sur la préparation des données et perdent le sens réel qu’ils peuvent tirer des données.
Enfin les data engineer doivent résoudre les problèmes data de tout le monde face à une prolifération gigantesque de solutions – plates-formes – technologies data.
A lire :
- L’idée de Data OS pour faciliter l’usage et la gestion des données : https://www.datasciencecentral.com/enterprise-data-is-broken-heres-how-to-fix-it/
- La prochaine crise data est déjà là – des années d’investissement, pour quoi ? Pour imiter les GAFAM !? Mais quid pour notre business ? La solution (retour vers le passé … bon sens !) : reprendre son bâton de pèlerin et retourner voir les métiers (cahier des charges, recueil des exigences, analyse, écouter les retours métier) … coller au métier … voire lui laisser la responsabilité des données : https://towardsdatascience.com/the-next-big-crisis-for-data-teams-58ac2bd856e8 (extrait qui fait mal au bon sens génie logiciel de base : « It is virtually impossible to create a semantic layer, sometimes referred to as a metrics layer, without having deep conversations about how the business thinks about and uses data. »)
- Les tableaux de bord sont morts, les data analysts sont en crise … 3 ans après la renaissance est possible (données comme produit, data mesh seraient la solution ? Mais aussi encore un retour vers le passé … revenir à la rigueur portée par les environnements décisionnels historiques) : https://towardsdatascience.com/dashboards-are-dead-3-years-later-72347757bfa6 (extraits : « I’ve met too many data analysts over the last 5 years that were so cynical, and so let down by their time as an analyst that they were giving up their data careers entirely », « Today the main objective seems to be building trust through reliability and accuracy »)
- Quand le rôle de data engineer déjà difficile se percute chaque jour à de nouvelles idées et approches technologiques pour traiter les données : Zero ETL, data product container, One Big Table strategy et IA… https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c
Le changement de mindset sur les données : penser produit (data product)
A lire :
- Dans le cadre data mesh : https://www.innoq.com/en/articles/2023/04/creating-data-products-with-terraform-on-aws/ (une définition de ce qu’est un data product, le lien vers le data product canvas https://www.datamesh-architecture.com/data-product-canvas (déjà évoqué dans la revue du mois de mars https://www.datassence.fr/2023/04/12/revue-data-du-mois-mars-2023/#_ftnref1 ), le développement d’un data product sur AWS avec la mise en œuvre d’une logique infrastructure as a code avec Terraform, l’usage de Parquet comme format de données) . Et aussi l’article https://www.innoq.com/en/blog/warum-dein-team-data-products-braucht/ avec l’art de penser produit par rapport à une problématique (et penser à les intégrer en vision agile, dans le backlog).
- Illustration de la mise en œuvre de data products (cadre data mesh et event-driven architecture) : https://www.confluent.io/blog/benefits-of-event-driven-architecture-and-data-mesh/ utilisation du langage de description Data Product Descriptor Specification (DPDS) https://dpds.opendatamesh.org/resources/specifications/1.0.0-DRAFT/# et illustration au travers de la plate-forme Open Data Mesh (ODM) https://dpds.opendatamesh.org/resources/tools/
- Une fois que l’on a bien travaillé sur les données que deviennent-elles ? Comment sont-elles connues ? Comment les utiliser ? Quelle valeur ont-elles à l’instant T ? Comment penser clients de ces données ? Leur contexte nécessaire à leur bonne interprétation est-il connu ? – un tour d’horizon éclairant sur le changement d’état d’esprit qu’impose l’idée de data product : https://towardsdatascience.com/data-as-a-product-from-concept-to-reality-b2a853712250?source=rss—-7f60cf5620c9—4
- Et aussi la containerisation des data products : https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c
Le back office des data products – plats de spaghetti de data pipeline, environnement industriel ?
Cela commence toujours par un traitement en pipeline rapidement mis en place et efficace. Et cela se termine souvent par des plats de spaghetti formant un écosystèmes de pipelines interconnectés et de calendriers d’orchestration se recoupant.
Cet environnement back office évolue et doit évoluer.
A lire :
- Deux articles sur les data pipelines de towardsdatasience.com : https://towardsdatascience.com/data-pipeline-orchestration-9887e1b5eb7a (s’appuyer sur des modèles de conception, s’appuyer sur les concepts d’infrastructure as a code pour la description, le déploiement des pipelines et le contrôle des dépendances) et https://towardsdatascience.com/a-lean-data-pipeline-by-example-e08bfce58133 (adopter une démarche Lean pour la mise en place des pipelines – minimiser les couts pour le plus de valeur potentielle et par petit pas … L’article n’est pas spécialement Lean, mais pose le problème de bien découper ses pipelines par produits intermédiaires à valeur).
- Sur les challenge de la data integration : https://www.dataversity.net/4-common-data-integration-challenges/ (rien de nouveau mais de fait à prendre en compte : trouver la bonne source de données, le « temps réel » – ou time to market, le traitement des données non structurées et la qualité des données).
- Disposer d’une vue (graphique) des traitements de données – data lineage visuel (aussi bien pour l’IT que pour le métier) : https://towardsdatascience.com/creating-a-transparent-data-environment-with-data-lineage-12e449597f6
- Rester synchronisé avec les sources : https://techcrunch.com/2023/04/19/ditto-raises-45m-to-help-companies-keep-their-data-in-sync/
- Assurer la continuité d’intégration et de déploiement à chaque évolution (Continuous integration and continuous delivery (CI/CD)) : https://towardsdatascience.com/continuous-integration-and-deployment-for-data-platforms-817bf1b6bed1
- DBT (data build tool) l’outil open source de création et gestion de pipelines en vogue : https://towardsdatascience.com/what-is-dbt-data-build-tool-and-when-should-you-use-it-9dc1566d960d
- Et encore : https://towardsdatascience.com/5-helpful-extract-load-practices-for-high-quality-raw-data-65b9a59a8721?source=rss—-7f60cf5620c9—4
Sens, valeur et confiance : les trois dimensions auxquelles les données sont associées et dont dépend le besoin en qualité de données
1) Sur la valeur :
- Quand la valeur des données déteint sur la valeur des emplois des spécialistes data : https://www.smartdatacollective.com/ways-data-monetization-changing-information-technology-job-market/
- L’exemple historique de la valorisation de données par Bloomberg : https://www.presse-citron.net/le-terminal-bloomberg-survit-a-toutes-les-crises-meme-a-26-000-par-an/
2) Sur le sens :
- Du data driven à l’insight driven : https://www.forrester.com/blogs/where-to-start-with-insights-driven-strategy/
- Le rôle d’une vision holistique sur les données : l’observability … à rapprocher de l’idée de data observability https://www.dataversity.net/elevate-your-decision-making-the-impact-of-observability-on-business-success/
3) Sur la confiance :
Volet data security :
- La revue Q1 2023 du Forrester sur les plates-formes de data security https://reprints2.forrester.com/#/assets/2/1646/RES178465/report
- Les données pour les données : l’idée de SIEM (Security Information & Event Management) nouvelle génération … basé sur l’IA. Lien : https://www.smartdatacollective.com/how-does-next-gen-siem-prevent-data-overload-for-security-analysts/
- Un tour d’horizon synthétique sur la sensibilité des données https://www.dataversity.net/what-is-sensitive-data-exposure-and-how-can-it-be-avoided/
Volet data trust : la confiance passe par la certification
L’idée d’IDS (International data spaces) certification des espaces de données dans le cadre de l’initiative Européenne data spaces : https://internationaldataspaces.org/hannover-messe-2023-building-trust-in-data-spaces/ et https://internationaldataspaces.org/offers/certification/
4) Qualité de données (et intégration)
- « La fiabilité des données nécessite une observabilité continue des données … des pipelines de données, permettant aux organisations de détecter et de résoudre les problèmes tôt dans le parcours des données. » – ici dans le cadre de la solution Snowflake https://www.datasciencecentral.com/data-reliability-improves-snowflake-data-quality/
- Evolution des façons de traiter la qualité des données par la convergence de différentes approches : data observability – monitoring continu, responsabilité qualité des data products, validité et continuité sémantique… https://www.datasciencecentral.com/what-is-modern-data-quality/ et https://www.datasciencecentral.com/4-pillars-of-modern-data-quality/
La fin de vie des données
Souvent négligée la fin du cycle de vie des données – deux situations évoquées :
– Les données orphelines et qui finissent oubliées. Lien https://www.dataversity.net/the-looming-threat-of-orphaned-data-how-abandoned-files-could-destroy-your-business/
– La mort violente de données. Lien https://www.numerama.com/tech/1349832-la-bibliotheque-dimgur-brule-tout-nest-pas-permanent-sur-internet.html
Données et IA (impossible d’y échapper !)
De fait les données sont le carburant des moteurs d’IA. Et ce carburant ou plutôt cette multitude de carburants est clé (voir déjà dans la revue de mars https://www.datassence.fr/2023/04/12/revue-data-du-mois-mars-2023/#_ftn10).
Vaste sujet qui mérite un approfondissement.
Quelques liens du mois :
- Le rôle des IA génératives dans la production de données issues des environnements collaboratifs – voir aussi dans le § en vrac – production de données structurées à partir de données non structurées https://fredcavazza.net/2023/04/03/quel-modele-de-collaboration-a-lheure-des-ia-generatives/
- La face cachée des données pour les IA – le rôle du travail humain : https://legrandcontinent.eu/fr/2023/04/07/lia-potemkine-et-le-futur-du-travail-une-conversation-avec-antonio-casilli/
- Un tour d’horizon du rôle des données pour les systèmes d’IA : https://www.datasciencecentral.com/an-overview-of-the-role-data-plays-in-ai-development/
- Les pipelines de données pour les spécificités de l’IA https://towardsdatascience.com/how-to-prepare-data-for-machine-learning-eb9d9973832f
- Le sujet délicat du drift (décalage et dérive – dus à un changement du contexte data pour les IA entraînées ou encore, comment traiter l’évolution naturelle d’un contexte ayant fait l’objet d’une capture figée à un instant T de données et utilisée pour l’apprentissage IA) https://towardsdatascience.com/applying-large-language-models-to-tabular-data-to-identify-drift-54c9fa59255f
- Et aussi la fuite des données de test dans les données d’apprentissage et ses conséquences (surapprentissage) https://towardsdatascience.com/five-hidden-causes-of-data-leakage-you-should-be-aware-of-e44df654f185?source=rss—-7f60cf5620c9—4
Quand les données peuvent se faire rare – que peut-on faire ?
- En générer via les IA génératives : l’article suivant n’apporte pas grand-chose, mais l’idée est là https://www.dataversity.net/data-scarcity-challenges-enter-generative-ai/. Beaucoup plus approfondi, le défi de la génération de données structurées (comment reproduire l’hétérogénéité). NB « à la différence des données non structurées (vidéo, images, sons) où les valeurs de pixel (par exemple) suivent normalement une distribution de type gaussienne, dans le cas des données structurées la distribution est souvent non gaussiennes. Voir comment les solutions de type CTGAN (Conditional Tabular Generative Adversarial Network) abordent le problème » : https://towardsdatascience.com/how-to-generate-real-world-synthetic-data-with-ctgan-af41b4d60fde. Voir aussi l’ouverture d’un marché de ces données : https://techcrunch.com/2023/04/20/betterdata/?guccounter=1 et https://www.betterdata.ai/
- Respecter la rareté – cas des données personnelles et s’imposer des règles de minimisation de collecte https://ainowinstitute.org/spotlight/data-minimization
- Et à l’opposé, convaincre les clients de partager plus de données https://www.forrester.com/blogs/marketing-data-strategy-cx-na-sneek-peak/
L’environnement des données : data portabilité, changement d’environnement, lien données – objet
L’environnement de naissance des données est clé (origine, chaîne d’acquisition, défauts, objets concernés). Il est partie prenante du sens des données. Il est lié à une finalité, des usages. Lorsqu’on réutilise des données, s’il y a changement d’environnement, celui n’est pas neutre. Comment s’extraire de l’environnement d’origine, comment s’intégrer dans le nouvel environnement ?
A noter sur ce sujet, la brillante réflexion déjà citée dans la revue de décembre 2022 – d’Antoine Courmont : Quand la donnée arrive en ville – Open data et gouvernance urbaine – Antoine Courmont (EAN13 : 9782706147357) | PUG : livres papiers et numériques en ligne, avec l’idée de détachement er rattachement des données.
Liens du mois :
Sur la portabilité des données : https://www.techdirt.com/2023/04/11/techdirt-podcast-episode-350-the-data-transfer-initiative/ (et sur ce sujet à revenir sur l’actualité récente des annonces du gouvernement sur les directives de la future loi sur le numérique avec un volet portabilité des données personnelles)
Une analyse détaillée de la problématique de réutilisation de données de santé en fonction de leur origine, par rapport aux aspects éthiques, légaux et de consentement. Lien https://journals.sagepub.com/doi/abs/10.1177/20539517231163174?ai=2b4&mi=ehikzz&af=R
Un sujet clé de l’environnement des données est la capacité à les associer aux bons objets.
- Le code barre bien connu en passe d’être remplacé : https://www.presse-citron.net/le-code-barres-cest-bientot-fini-voici-ce-qui-le-remplace/
- Quand l’erreur d’association coute cher : https://www.presse-citron.net/il-passe-pour-un-criminel-sur-google-lentreprise-est-condamnee-a-lui-verser-un-demi-million-de-dollars/
Voir aussi le sujet du drift des données du § précédent sur les données et l’IA.
En vrac (green data, British data awards, open data, métrologie, capture de données à partir de données non structurées, data physicalisation, encore des tendances data 2023)
1) Green data : impact des données sur l’environnement – deux articles dans le journal du net
- https://www.journaldunet.com/solutions/dsi/1521131-comment-stocker-nos-donnees-avec-le-moindre-impact-environnemental/
- https://www.journaldunet.com/web-tech/cloud/1520645-alerte-pour-notre-planete-quand-la-data-prend-trop-de-place/
2) British Data Awards : toujours intéressant les palmarès data (voir les catégories dans le lien. Extrait : Innovation of the Year, Data Transformation of the Year, Start-Up of the Year, Education Initiative of the Year, Data Vendor of the Year). A suivre les vainqueurs ce mois de mai.
https://predatech.co.uk/british-data-awards-2023-finalists-announced/
3) Open data : lancement d’une enquête nationale pour identifier et valoriser les cas d’usages de la donnée à fort impact déployés par les collectivités territoriales. Enquête ouverte jusqu’au 15 mai. A suivre les résultats. Lien : https://www.opendatafrance.net/2023/04/12/data-impact-identifions-ensemble-les-cas-dusages-territoriaux-de-donnees/
4) Métrologie : un grand classique sur la mesure – en lien avec la loi de Goodhart « « Lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure » – https://www.radiofrance.fr/franceculture/podcasts/le-pourquoi-du-comment-science/pourquoi-toute-mesure-appauvrit-elle-ce-qu-elle-mesure-9170481
5) Capture de données : extraction de données structurées à partir de données non structurées
- Cas de l’exploitation d’images de CV – OCR https://towardsdatascience.com/effective-data-augmentation-for-ocr-8013080aa9fa?source=rss—-7f60cf5620c9—4
- Exploitation des vidéos pour en extraire tout types de données – reconnaissance de textes, d’étiquettes, de personnes, de logos …présentation de Azure Video Indexer https://learn.microsoft.com/fr-fr/azure/azure-video-indexer/video-indexer-overview
- Cas des espaces collaboratifs comme sources de données (conversations, email, visios, calendriers, tâches, documents bureautiques). Lien https://fredcavazza.net/2023/04/03/quel-modele-de-collaboration-a-lheure-des-ia-generatives/ « Extraire des données ou informations-clés de conversations ou de fichiers pour les capitaliser dans une base de connaissances » – voir aussi ce même lien de référence dans le § sur données et IA.
6) Data physicalisation : l’exercice de rendre physique les données pour interpeller nos sens https://dataliteracy.com/making-data-physical/
7) Le sujet récurrent de la data literacy :
- Comme rôle évident dans la data démocratisation https://dataconomy.com/2023/04/how-to-democratize-data/?utm_content=cmp-true
- Comme rôle évident dans la capacité de décision –savoir décider avant de parler data… https://www.dataversity.net/forget-data-literacy-think-decision-making-literacy/
- Une présentation de Wendy D. Lynch – https://www.analytic-translator.com/ https://www.dataversity.net/eedl-slides-exploring-levels-of-data-literacy-whats-needed-by-whom/
8) Encore un article sur les tendances data 2023 : https://www.itpro.fr/les-8-tendances-de-la-data-et-de-lia-en-2023/ Data Productization, Data Low Code Platform, Data Protection in SecNumCloud, Data Insights, Data Ecosystem Simplicity, Data RESET (Responsabilité Environnementale, Sociétale, Économique et Technologique en matière de Données)…
Et pour terminer – un cadeau science-fiction – Le rôle de « Data » dans star trek
Source image : https://en.wikipedia.org/wiki/Data_%28Star_Trek%29
https://fr.wikipedia.org/wiki/Data_(Star_Trek)
RDV maintenant en juin pour la revue et les actualités de mai !
Les commentaires sont fermés.