Dernière modification le 7 décembre 2023
Cette revue est basée sur un ensemble de publications du mois de novembre 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.
Pour ce mois de novembre, pour démarrer un clin d’oeil retour dans le passé en novembre 1979 avec un dossier du Monde diplomatique sur la guerre des données. Ensuite retour dans le présent avec l’actualité des data platforms (dans la suite de la revue d’octobre : https://www.datassence.fr/2023/11/13/revue-data-du-mois-octobre-2023/#_ftn2), les sujets récurrents data et IA, culture data. Un retour sur les travailleurs de la données. Un sujet à développer : Le coût et la valeur des données. Un sujet vieux comme le génie logiciel : Contrat d’interface, relation producteurs / consommateurs de données. Les data products sont de plus en plus sur le devant de scène.
Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.
Sommaire :
- La guerre des données 44 ans plus tôt … vue en novembre 1979 !
- Actualité des data platforms : tension accès- sécurité, migration de données vers Snowflake, self serve data, migration vers l’IA
- Données et IA : récupérer les données d’entraînement, pénurie de données pour alimenter les IA, un projet d’IA est avant tout un projet data
- Culture data
- Les travailleurs de la donnée
- Le coût et la valeur des données
- Contrat d’interface, relation producteurs / consommateurs de données
- Data product : modèle de données et data product, la gouvernance des métadonnées
- En vrac (Open data, droit à l’oubli, data equity, modern data engineering, data observability, analytique temps réel, le digital gouvernance act)
La guerre des données 44 ans plus tôt … vue en novembre 1979 !
Un dossier du monde diplomatique daté de novembre 1979.
Avec les prémisses, d’un marché des données, du risque d’hégémonie des grandes firmes américaines et le sujet de la souveraineté européenne, de la régulation de la circulation des données, des données comme marchandises, etc.
Je ne résiste pas à quelques extraits :
« Avec les données c’est la pensée qui est mise en banque. Au Japon le projet Jacudi (aujourd’hui abandonné) prévoyait la mise en place d’une immense banque de données baptisée « réservoir central de pensée ». »
« L’Europe représente un important réservoir de données pour les Américains. »
« Avec quatre cent cinquante banques et bases de données les Etats-Unis détiennent 90% du stock mondial de données on line. »
« Par rapport à l’information stockée sur papier, dispersée, inaccessible à distance, les données extraites et transmises en temps réel représentent une information d’un ordre supérieur. On n’achète pas une certaine quantité de papier, une certaine qualité d’impression ou de brochage, mais l’information elle-même, référence ou donnée brute. En fait, cette information n’est pas non plus dissociable du support informatique qui la restitue, a fortiori quand la restitution se complique d’un traitement graphique ou mathématique.
Ce sont, à la fois, un service et un produit qui sont vendus et, suivant les cas, incorporés au produit final, plus ou moins de temps machine (puissance informatique), plus ou moins de temps humain. Dans une banque de données, on peut acquérir une donnée brute (combien de tonnes de café ont été produites au Brésil en 1976), mais aussi une série statistique (sur dix ans), un agrégat (production agro-alimentaire), une estimation prospective (combien de tonnes seront produites en 1985), une stratégie de pénétration. »
Source : les archives du Monde Diplomatique – https://www.monde-diplomatique.fr/1979/11/LEFEBURE/35321
Actualité des data platforms : tension accès- sécurité, migration de données vers Snowflake, self serve data, migration vers l’IA
1) Le challenge : accès aux données tout en sécurité
Intégration de Smartfiles de Cohesity dans Snowflake : exploitation et accès sécurisés aux données non structurées. Source : https://www.lebigdata.fr/cohesity-snowflake-union-analyse-donnees-2023
Avec aussi l’annonce de Snowflake Horizon, pour le pilotage d’ensemble des données (sécurité, certifications, lineage, classification des données, qualité des données) : https://www.lebigdata.fr/revolution-snowflake-2023-gouvernance-data-cloud
Comment résoudre LA TENSION entre ouvrir les données, les rendre accessibles en self service et la dimension sécurité ? Source : https://tdan.com/self-service-data-access-best-practices/31280
Et c’est aussi dans les plans de Denodo – qui vient de lever 336 millions de dollars pour faciliter l’accès aux données tout en sécurité.
Avec aussi de l’IA (interrogation en langage naturel des sources de données), renforcer la capacité par les métiers de créer leurs produits de données, le renforcement de la fonction data catalog (workflow de demandes d’accès), la gestion de politiques d’accès.
Sources : https://www.dataversity.net/denodo-announces-platform-enhancements-to-help-organizations-democratize-data/ et https://www.lebigdata.fr/denodo-ia-securite-libre-service
Et voir aussi l’apport de la famille technologique PET « privacy-enhancing technologies » – extraire des informations sans exposer les données brutes. Fonctions à savoir intégrer dans ses data platforms. Voir par exemple l’offre de https://dateligens.com/
Source : https://www.dataversity.net/unlocking-the-full-potential-of-data-collaboration-through-pets/
2) Un retour d’expérience de migration de données vers Snowflake : par domaines métier, en identifiant des data products, en ouvrant les données en self service (via une solution tiers open source – Streamlit)
« In the past, only between five percent and 10% of Solaris employees had access to data. Today, 40% of the organization has direct access to Snowflake and these professionals use the platform regularly »
Source : https://diginomica.com/how-solaris-using-snowflake-decentralize-data-and-encourage-innovation
3) Self serve data
La pyramide de Maslow appliquée au self service data.
Retour sur les débuts de la self BI et de son faible succès.
La raison (classique), l’approche solutionniste ne suffit pas. Les différents niveaux de besoins en self service (suivant la logique de la pyramide de Maslow). Le 1er niveau la collecte et l’accès aux données, le 2ème niveau la préparation des données et leur appariement à une modélisation business, le 3ème niveau la mise en place d’une couche sémantique et du catalogue de données associé, le 4ème niveau la réalisation d’analyses / tableaux de bord en self service et par domaine métier (au sens data mesh – au plus près de la connaissance et des responsabilités) et le 5ème niveau l’analyse avancée des données – prédictif, prescriptif.
Self-Service Hierarchy of Needs (image by author) – Towards Data Science/ by Andrew Taft
Et aussi l’accompagnement juste à temps en amélioration continue : « We need to focus on “just-in-time” training that focuses on real data needs at the moment in time when a business user needs to solve real data problems. » avec les outils au bon endroit (par exemple une couche sémantique universelle sur laquelle les outils de BI viennent se brancher).
(Voir aussi dans ce sens la data literacy au quotidien : https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/ )
4) La migration des data platforms vers l’IA
– Databricks : « We’re a Data Intelligence Platform Now » – https://www.datanami.com/2023/11/16/databricks-were-a-data-intelligence-platform-now/
– Annonce de Snowflake Cortex (production d’Apps IA sur la base des données gérées par Snowflake) : https://www.lebigdata.fr/snowflake-cortex-plateforme-ia-data-cloud
Et le complément, l’IA en appui des fonctions data de Snowflake : copilote de codage, recherche intelligente dans les données, extraction de données des documents.
– Data management – évolutions fonctionnelles apportées par l’IA – l’IA pour pallier les compétences en data (intégration, préparation, analyse) : extraction de données structurées des données non structurées, interrogation et extraction en langage nature, appui au mapping des données sources vers un modèle cible, détection automatiques de liens entre données de différentes sources, appui à la qualité des données (détection, correction), appui à l’analyse des données, https://www.datasciencecentral.com/from-confusion-to-clarity-how-ai-simplifies-data-management-for-enterprises/
Données et IA : récupérer les données d’entraînement, pénurie de données pour alimenter les IA, un projet d’IA est avant tout un projet data
1) Danger on peut récupérer les données d’entraînement
A noter et surveiller, l’inversion des rôles, avec l’extraction des données qui ont permis l’apprentissage des moteurs d’IA. Des chercheurs expérimentent des techniques (prompts) permettant d’extraire des données d’entraînement (avec les risques de confidentialités associés).
Source : Source : https://www.zdnet.com/article/the-data-skills-gap-keeps-getting-bigger-heres-how-one-company-is-filling-it/
2) Pénurie de données, on va manquer de données pour alimenter les IA
Source : https://www.lebigdata.fr/ia-donnees et la publication de référence – https://arxiv.org/pdf/2211.04325.pdf
La solution à la pénurie en données « naturelle » (du monde, humaine) : passer à des données synthétique (artificielle).
Et l’idée- extrait : « Une alternative au contenu synthétique serait de mettre en place une ferme de données naturelles. Des centaines de personnes, voire des milliers, se retrouveraient alors dans un gigantesque hangar avec un smartphone ou un ordinateur pour chacune d’elles. Leurs activités quotidiennes généreraient alors des données naturelles. » !!!
NB : peu crédible l’idée de pénurie, dans un monde qui bouge de façon continue, de plus en plus digitalisé, liquide, temps réel, flux IoT en croissance et continus. Et les données appellent les données (réf : http://files.technologyreview.com/whitepapers/MIT_Oracle+Report-The_Rise_of_Data_Capital.pdf). Quant à la solution des données synthétiques, elle n’est pas forcément la meilleure sauf à pousser à l’enfermement.
3) Chaque projet d’IA commence comme un projet de données, mais c’est un chemin long et sinueux
Source : https://www.zdnet.com/article/every-ai-project-begins-as-a-data-project-but-its-a-long-winding-road/ et le point de vue des responsables data et IT – https://www.salesforce.com/resources/research-reports/state-of-data-analytics/
Culture data
1) Article curieux sur l’amour des données et pire la « limerence » (l’obsession d’amour) des données : le portrait d’un geek data, les dérives de ceux qui pensent que les données sont parfaites et auxquels il faut ouvrir les yeux !
Source : https://tdan.com/data-speaks-for-itself-data-love-and-data-limerence/31323
2) De la difficulté d’être data … data driven, data centric…et toujours le mal être des Chief Data Officer qui négligent la data literacy “Yet it would appear that too much of the focus of data executives is on non-human issues — data modernization, data products, AI and ML, data quality, and various data architectures. Less than 2% of respondents ranked “data literacy” as their top investment priority. Could it be that we are leading the horse to water, but it isn’t drinking? Perhaps this accounts for the low level of overall success of the CDO/CDAO function found in the survey.”
Source : https://www.datasciencecentral.com/your-data-to-value-journey-starts-with-ai-and-data-literacy/
Et une proposition intéressante et de raison pour les CDO par Opendatasoft : Comment les Chief Data Officers peuvent-ils transformer leur organisation grâce aux portails de données ? Avec une introduction sur les défis des CDO.
Data shop, portail data, data marketplace … c’est le même combat, et la même valeur indispensable de toute gestion des données. Toute data platform digne de ce nom intègre cette fonction. Le sujet ici concerne le passage à l’échelle … lorsque les données ne sont pas couvertes par la data platform. La bataille d’hégémonie sur les données est lancée, entre des solutions d’intégration qui vont chercher à sourcer un maximum de données (par exemple en virtualisation), des solutions qui vont chercher à centraliser toutes les données et des solutions extérieurs comme Opendatasoft. Chacune proposant un portail data suivant sa couverture.
Sur les difficultés des CDO – voir aussi : https://www.datassence.fr/2023/07/17/revue-data-du-mois-juin-2023/#_ftn3 et https://www.datassence.fr/2023/05/11/revue-data-du-mois-avril-2023/#_ftn1.
3) Les 5 piliers de la data démocratisation selon HBR
Source : https://hbr.org/2023/11/5-pillars-for-democratizing-data-at-your-organization
Pilier 1 (qui va dans le sens du § précédent) : « Broaden data access by rolling-out data catalogs and marketplaces. »
Pilier 2 : « Stimulate the generation of data-driven insights through self-service »
Pilier 3 : « Level up data literacy with specific curricula for personas or role families. ». Le self service n’est pas miraculeux et demande de l’investissement. De plus tout le monde n’a pas vocation à avoir un niveau de maîtrise élevé des données (jusqu’à être data scientist). Il faut donc prévoir des filières d’accompagnement, de formation suivant différents niveaux de profils data.
Pilier 4 : « Advance data practices by creating communities. ». Le retour des communautés de pratique pour ceux qui ont connus leur foisonnement à la fin des années 90 et le début des années 2000.
Pilier 5 : « Promote data through various corporate communication channels. ». Le volet communication avec l’idée d’ambassadeurs des données
4) Forrester : Votre culture data est morte à l’arrivée (Dead on arrival) – les 4 points saillants
Source : https://www.forrester.com/blogs/your-data-culture-is-doa/
La promesse data par et pour tous tourne à la lettre morte :
Point 1 et 2 : l’accès aux données est difficile … où trouver les bonnes données, à qui s’adresser ?
Point 3 : savoir parler data, s’appuyer dessus, les contester est porteur de frein, de peur, de réticences
Point 4 : il n’y pas de personne identifiée comme interlocuteur data literacy vers laquelle se tourner
5) Et du côté de Dataversity – les 7 tendances en data démocratisation
Source : https://www.dataversity.net/7-data-democratization-trends-to-watch/
Tendance 1 : sensibiliser au danger de ChatGPT dans la divulgation de données sensibles
Tendance 2 : se focaliser sur la découverte (l’accès) aux données. Avec la difficulté des silos, de la multiplication des data shops, du shadow data – « The data discovery process combines these individual data sources to create a central virtual data repository that can be accessed centrally to manage data access. » – voir aussi le dernière partie du point n°3 de cette rubrique.
Tendance 3 : la programmatique des politiques de données devient de plus en plus obligatoire au vu de la prolifération des réglementations et de la complexité du paysage législatif.
Tendance 4 : en lien avec la tendance 2 – centraliser l’accès aux données
Tendance 5 : mettre à disposition des moyens self serve analytic data
Tendance 6 : prendre l’orientation data mesh
Tendance 7 : adopter l’IA pour votre gouvernance des données (qualité des données).
6) L’instillation d’une culture des données commence par le haut
De l’intuition aux hypothèses structurées : « Make OKRs the north star for orienting efforts »
7) Le déficit en compétence data ne cesse de se creuser. Le retour d’expérience de Bentley Motors sur comment le combler. Cela passe par introduire un volet data dans la filière d’apprentissage à laquelle Bentley Motors fait appel. Avec comme résultat la construction d’une culture data au fil des promotions. Et associée à l’idée d’un programme data dojo, permettant d’accompagner de la ceinture blanche (je comprends l’importance des données) à la ceinture noire (je maîtrise des concepts de data science) – inscrite dans une logique de progression de carrière.
Tout cela sous la directive d’un CDO … heureux !
« More generally, he’s created an enterprise-wide data strategy at Bentley, which is built around four core pillars: governance; the data cloud, which is the technology stack that’s required to use data effectively; the data dojo, which is his internal data literacy program; and enablement, which focuses on helping the data team to work with the rest of the business. »
« From the people joining Bentley as apprentices all the way up to senior managers, Moore’s aim is to help people across the company make the most of data. »
Les travailleurs de la donnée
Article dans Libération : « IA : trois mesures urgentes pour protéger les travailleurs de la donnée » – A . Casilli
Exemple : « nulle automatisation des caisses d’une restauration collective sans découpage de milliers de photos de plateaux où l’on aura distingué, pour l’algorithme, la banane du pot de yaourt »
Et dans le même esprit : « Les entreprises d’étiquetage des données augmentent leurs prix face au boom de l’IA »
« Labeling audio and visual recording is complex. It’s not just data scrapped from the Internet. Human annotators work on assessing people’s emotions, for example—and as that work gets more nuanced, it means paying the annotators more. »
https://qz.com/data-labeling-companies-are-raising-prices-in-the-ai-bo-1851007837
Source : https://readwrite.com/new-method-extracts-massive-training-data-from-ai-models/
Une autre forme de travailleurs des données – les « IT human middleware » (voir une définition ici https://www.datassence.fr/2023/11/13/revue-data-du-mois-octobre-2023/#_ftn4)
Les tâches de données en shadow data – excel, excel…excel encore « Spreadsheets Continue to Rule the Day ». Avec les défauts connus, dont la facilité de corriger les données non dans les sources mais dans l’excel support au reporting.
Et aussi « The Added Cost of Manual Data Reconciliations » … « business units must often re-run their reporting, underwriting analysis, or modeling caused by bad data. To protect themselves, they reconcile the data often back to an official set of numbers like the general ledger. They also might reconcile to another system, like customer invoicing, that should also have the same set of data. Again, the spreadsheet is the tool of choice. ».
Le gaspillage IT human middleware : « Why do highly skilled people have to dump data from multiple systems into spreadsheets to see if it agrees? ».
Source : https://tdan.com/the-art-of-lean-governance-walking-the-data-factory/31289
Voir aussi sur ce sujet : https://www.datassence.fr/2023/11/13/revue-data-du-mois-octobre-2023/#_ftn6 et https://www.datassence.fr/2023/04/14/frise-chronologique-eres-de-la-place-des-donnees-dans-les-systemes-dinformation/#_ftn5
Le coût et la valeur des données
Le ROI de la data observability en formules (voir l’article pour les formules) :
– Coût de sa mise en place
– Les gains en réduction des coûts d’infrastructure
– Gains dans la résolution des incidents
– Augmentation business par l’amélioration de la qualité des données
– Augmentation de la valeur des data products par la réduction des problèmes de données contributives
Les coûts de violation de données. Source : https://www.lebigdata.fr/cout-violation-donnees
Généralités sur la monétisation des données. Source : https://www.actian.com/blog/data-analytics/data-monetization-analytics/
Contrat d’interface, relation producteurs / consommateurs de données
Les contrats d’interface entre systèmes pour échanger des données existent depuis très longtemps. Avec dans le meilleur des cas, en plus de la partie technique (définition de l’interface et de son niveau de service), une partie métier – fonctionnelle.
Avec les données vues comme produit, la contractualisation bascule vers une logique producteur / consommateur. L’article s’intéresse à la responsabilité du consommateur, à ses obligations : respect des conditions d’utilisation, des éléments de sécurité, du maintien de l’intégrité des données, de la continuité réglementaire, du devoir de feedback sur l’utilisation, renseigner leur partie dans les lineages de bout en bout, traiter la fin d’utilisation.
Data product : modèle de données et data product, la gouvernance des métadonnées
Un rappel de ce qu’est un produit de données – Extrait :
« A data product is more than just data; it encompasses not only the data itself but also the tools and capabilities that empower its use.
Data Product = Data & Metadata + Code + Infrastructure »
Le rôle central d’un modèle de données pour les produits de données :
– s’assurer que le produit répond aux requêtes métier (questions)
– produire les données en conformité à la sémantique et à la représentation métier du métier producteur
– mise en contexte des données (relations entre entités)
– concevoir des KPI
– gérer les accès et contrôler l’intégrité
Le problème clé concerne l’évolutivité du modèle et les tensions associées : pour les besoins du producteur de données, par les demandes des consommateurs.
La solution est de découpler la logique de production de la logique de consommation (NB : rôle d’une conception en ½ interfaces). Le découplage passe par la mise en place d’une couche sémantique (NB : et attention aussi au cauchemar – cout-dépendances à gérer – de la maintenance des multiples pipelines déployés -> le point de fragilité – d’instabilité de toute architecture data).
Source : https://www.datanami.com/2023/11/27/mastering-data-modeling-insights-from-a-data-product-developer/
A noter l’initiative des auteurs dans la définition d’une « data developer platform » : https://datadeveloperplatform.org/why_ddp_for_data/
Les métadonnées doivent être gouvernées, encore plus avec l’idée de data product.
Le rôle clé d’un référentiel des métadonnées (rejoint l’idée de data catalogage). Description de l’actif data : définition, terminologie, domaine propriétaire, processus métier concernés, sources support, règles de sécurité.
Ensuite se pose le problème d’alimentation d’un tel référentiel, entre intégration et saisies manuels.
Source : https://tdan.com/metadata-governance-an-outline-for-success-part-one/31327
Et en surcroît – l’automatisation des lineages (qui font partie des métadonnées) : https://blog.masterdata.co.za/2023/11/10/the-power-of-automated-data-lineage-validating-data-pipelines-with-confidence/
En vrac (Open data, droit à l’oubli, data equity, modern data engineering, data observability, analytique temps réel, le digital gouvernance act)
1) Toujours riche l’actualité open data :
Avec
L’actualité vue d’Opendatafrance : https://opendatafrance.fr/lactualite-opendata-du-mois-15/
Un dossier complet sur « les données au service de la transition environnementale et énergétique » : https://opendatafrance.fr/dataimpact-nouvelle-edition-de-letude-sur-les-cas-de-reutilisation-des-donnees-environnementales/ – le dossier https://opendatafrance.gitbook.io/dataimpact-usages-des-donnees-environnementales/mise-en-perspective-et-synthese/en-synthese – et l’effort d’inventaire des cas d’usage https://opendatafrance.gitbook.io/dataimpact-usages-des-donnees-environnementales/ressources/inventaire-des-cas-dusage
Et Dijon qui ouvre ses données https://www.usine-digitale.fr/article/dijon-metropole-ouvre-ses-donnees-au-plus-grand-nombre.N2198568
2) Comment le droit à l’oubli fonctionne
Source : https://www.weforum.org/agenda/2023/11/eu-right-to-be-forgotten-online-data/
3) Data Equity: Foundational Concepts for Generative AI
Un rapport du Forum économique mondial sur l’impact des données dans l’équité des systèmes d’IA.
Plan :
1 Classes of data equity
2 Data equity across the data lifecycle
3 Data equity challenges in foundation models
4 Focus areas for key stakeholders
https://www3.weforum.org/docs/WEF_Data_Equity_Concepts_Generative_AI_2023.pdf
4) Modern data engineering – tendances
Modern data engineering trends
ETL vs ELT
Simplified data connectors and API integrations
ETL frameworks explosion
Data infrastructure as code
Data Mesh and decentralized data management
Democratization of Business intelligence pipelines using AI
Focus on data literacy
Source : https://towardsdatascience.com/modern-data-engineering-e202776fb9a9?source=rss—-7f60cf5620c9—4
Et un retour d’expérience de modernisation des données chez T-Mobile : les limites d’une data platform historique Hadoop vers une infrastructure data cloud (perfomance, scalabilité, adaptation IA) mais dont les coûts deviennent immaîtrisable -> la mise en observabilité des données pour les rendre maîtrisables (solution Acceldata – https://www.acceldata.io/ )
5) Cas d’usage de data observability
Source : https://www.dataversity.net/data-observability-use-cases/
6) L’analytique temps réel prend de plus en plus d’ampleur
https://www.zdnet.com/article/real-time-data-has-become-democratized-but-its-only-a-start/
7) A creuser « The International Data Spaces Association has released a new position paper titled “Reflections on the DGA and Data Intermediaries,” shedding light on the impact of the Data Governance Act (DGA) on the evolving landscape of data intermediaries and data spaces within the European Union. » Source : https://internationaldataspaces.org/idsa-position-paper-explores-data-governance-act-and-data-intermediaries/
RDV maintenant en janvier 2024 pour la revue et les actualités de décembre
Les commentaires sont fermés.