Press "Enter" to skip to content

Revue data du mois (mai 2024)

Cette revue est basée sur un ensemble de publications du mois de mai 2024, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Pour ce mois de mai des sujets récurrents (Data platforms, Data et IA, Données synthétiques, Data mesh), des sujets aussi que l’on retrouve souvent (Ingestion/intégration des données, Métadonnées, Data literacy). Et un sujet à suivre, l’idée de vue data unifiée.

Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.

Sommaire :

Rôles des métadonnées

Rappel une donnée sans ses métadonnées n’a pas de sens, pas de valeur.

Maintenant à voir jusqu’où aller dans l’expression de ces métadonnées : en termes de couverture, de réflexivité (les métadonnées sont des données … qui peuvent être défaillante, à l’exemple d’un système qui marche bien mais avec une alerte suite à un capteur défaillant).

1) Un article sur les métadonnées liées à la qualité des données. Source : https://tdan.com/data-speaks-for-itself-is-metadata-data/31776

2) Un article sur les métadonnées qui peuvent être recueillies via les pipelines de données (ETL) et que les développeurs doivent prendre en compte (qualifications : des sources, du moment d’extraction, transformations apportées …, les règles appliquées … le code comme métadonnées, les éléments de catalogage, le schéma appliqué, le moment de chargement…). Reste à bien attacher ces métadonnées aux données (voir l’idée de sidecar attaché à un data product par exemple). Se pose aussi la question de la standardisation (voir par exemple l’initiative open data product). Source : https://www.datasciencecentral.com/metadata-management-in-data-lakes/

3) Voir aussi le rôle des métadonnées dans la valorisation des données. Source : https://medium.com/exploring-the-frontier-of-data-products/introduction-to-data-product-blueprint-model-3db6a3b89254

4) Sur ce sujet je vous livre un slide extrait d’un atelier sur le rôle d’une vue data (via un data catalogue, une couche sémantique par exemple) qui introduit le sujet des métadonnées au travers de l’idée de contexte. Ensuite toujours dans cet atelier nous avons identifié trois briques support aux métadonnées : la partie descriptive d’un data product (métadonnées techniques, métier et de gouvernance, jusqu’à l’idée de licensing), les data contracts (entre un producteur de données et un consommateur) et les métadonnées liées aux ½ interfaces amont et aval d’intégration via des data connecteurs. Avec l’idée de passer de métadonnées passive (documentaire dans un data catalogue) à des métadonnées actives (programmatique). A suivre également les efforts de standardisation de ces métadonnées.

« Rappel : Une donnée sans contexte n’a pas de sens

  • Pour la quasi-totalité des données dans le S.I., le contexte n’est pas explicitement exprimé. Le cadre de vie des données formé par des processus (tâches, rôles, systèmes support, règles métier…) forme de fait ce contexte1 qui permet la bonne interprétation des données : l’interprétation des données est vécue in-situ (en action).
  • Avec les systèmes décisionnels apparaissent les premières difficultés d’embarquer une partie du contexte, d’où la mise en place de moyens : couche sémantique, modèle faits-dimensions, lineages. L’interprétation des données est vécue ex-situ (en observation … forcément réductrice).
  • Dès lors que les données vont sortir de leur cadre de vie (partage de données, open data, 2nde vie des données, logique de data product/consommation), la problématique du contexte se pose :
    • Comment conserver un contexte suffisant lorsqu’on « détache »2 les données ?
    • Comment bien « réattacher »2 les données dans un nouveau contexte ?

Autrement dit, comment fournir assez de contexte pour bien juger de l’intérêt des données (interprétation ex-situ), puis pour bien intégrer les données dans son contexte (interprétation in-situ).

(1) Contexte intrinsèque (agit directement sur le cycle de vie des données), à différencier du contexte extrinsèque (agit sur le processus – ex COVID)

(2) Cf. « Quand la donnée arrive en ville » A. Courmont – concepts de détachement et réattachement des données dans le l’univers de l’open data)

Le défi : exprimer le contexte dans la vue data »

5) Un exemple d’usage des métadonnées dans un data lake (celui de Linkedin) « While Metadata provides the essential information about the data stored in the data lake, data triggers respond to changes in the metadata by signaling that new data is available for processing. ». Source : https://www.datanami.com/2024/05/03/linkedin-implements-new-data-trigger-solution-to-reduce-resource-usage-for-data-lakes/

Et aussi chez Snowflake – Source : https://medium.com/snowflake/snowflake-data-ingestion-include-metadata-583511727b6e

Extrait « Today I am happy to announce the public preview of our latest ingestion copyOption, INCLUDE_METADATA.

Files not only contain content data with columns and rows but also have associated cloud storage metadata such as filename, last_modified_time, content_key and more. A common practice while loading data into tables is to also populate the file metadata into associated columns alongside the content data… »

6) Et pour finir sur ce sujet, un article de réflexion sur la définition d’un système de système (métadonnées sur les données ou métasystème) pour « unifier » les données (cas des données clients). Source : https://www.datasciencecentral.com/contextualize-your-business-data-with-content-orchestration-techniques/. NB : si vous avez du temps, pour aller plus loin, à lire un article de 2011 de référence sur la notion de « data friction » de Paul Edwards appliquée aux métadonnées – https://www.researchgate.net/publication/51874125_Science_Friction_Data_Metadata_and_Collaboration

Données synthétiques

Sujet déjà abordé plusieurs dans les revues précédentes (voir : https://www.datassence.fr/2024/02/10/revue-data-du-mois-janvier-2024/#_ftn6).

1) Source : https://journals.sagepub.com/doi/abs/10.1177/20539517241249390?ai=2b4&mi=ehikzz&af=R

Un article de fond qui s’interroge sur la portée de plus en plus grande prise par les données synthétiques (par exemple dans le recensement US – https://www.census.gov/library/fact-sheets/2021/what-are-synthetic-data.html ), au-delà des usages pour l’IA (apprentissage sur des données sensibles qui ne permet pas l’utilisation des données réelles, labélisation automatique, apprentissage sur des images synthétiques…).

L’utilisation de données synthétiques pose problème, jusqu’où peut-on considérer qu’elles représentent « bien » la réalité (certains disent qu’elles représentent mieux la réalité … en corrigeant les biais des données d’origine). Le sujet est d’importance, certains estiment que la majorité des données utilisées en apprentissage (IA) seront générées (par des IA). Allons-nous vers un monde synthétique contrôlé (expurgé de biais définis par quelques acteurs) par les données générées par l’IA pour l’IA ? Parenthèse : je vous conseille la lecture du dernier livre de Olivier Ertzscheid « Les IA à l’assaut du cyberespace. Vers un web synthétique » – https://affordance.framasoft.org/2024/05/les-ia-a-lassaut-du-cyberespace-vers-un-web-synthetique/

Pour revenir à l’article, celui-ci propose de voir les données synthétique non plus au travers du prisme de l’objet concerné (par exemple une personne), mais au travers du prisme de l’usage (qui les utilisent et quelles fins).

Il fait appel au concept de « data friction » de Paul Edwards, décrit ici https://eprints.whiterose.ac.uk/120075/3/The%20politics%20of%20data%20friction%20-%20final%20(1).pdf et voir aussi son usage dans le cadre des métadonnées.

Le problème des données synthétique : elles imitent mais ne sont pas « le monde » (elles sont le résultat d’un modèle et ses limites, par exemple la disparition des imperfections), elles sont conçus en fonction d’un usage (exemple apprentissage débiaisé) et sont donc orientée au-delà de ce qu’elles sont censés représenter… Elles deviennent une technologie à risque par la circularité de son usage : pour l’IA par l’IA. Et citation fascinante extraite de l’article « An experiment with the crowdworking platform Mechanical Turk showed that roughly half of the crowd-workers used LLMs such as ChatGPT to generate their survey responses (Veselovsky et al., 2023). As a result, it will become even more difficult to observe human behavior and public sentiments online. ». Quand les travailleurs humains au service de l’IA (cf. A Casilli – https://www.casilli.fr/) utilisent l’IA pour répondre à la demande de l’IA !

Les auteurs présentent l’idée de continuum entre les données réelles et les données synthétiques (l’enrichissement, le traitement de données manquantes, l’harmonisation de données au sein de classifications/nomenclatures avec les difficultés de faire rentrer certaines données dans les bonnes case, peuvent être considérés comme un premier pas vers des données synthétiques).

L’article est riche en particulier sur la difficulté du traitement des biais (et des conflits entre les corrections possibles).

En conclusion comment gérer la dimension éthique … dans cet univers des données synthétiques ?!

Et pour poursuivre cette réflexion sur la dimension éthique à lire – source : https://journals.sagepub.com/doi/abs/10.1177/20539517241249447?ai=2b4&mi=ehikzz&af=R

Extrait fascinant : « A striking example of this is how IDEMIA employs synthetic data for criminal investigation solutions, where data scarcity is not only and/or primarily caused by the rarity of events but by privacy issues pertaining to the protection of involved third parties (Helm and Hagendorff 2021). To fix this, IDEMIA turns to synthetic data: “In compliance with relevant privacy regulations (…) we create synthetic images (…) that are completely fictional”3. »

Quand après Latour dans l’article précédent, les auteurs mobilise Baudrillard : – traduction d’un extrait de l’article « Ainsi, les données synthétiques peuvent être considérées à la fois comme l’entrée et la sortie d’une économie en évolution vers le simulacre hyperréel (Baudrillard, 1994), dans lequel les données synthétiques sont « présentées comme représentant le monde réel de manière très uniforme, mieux que le monde réel » (Staff 2021, dans Steinhoff 2022 : 11). »

Conclusion « Synthetic data does not actually resolve ethico-political questions but shifts them from the mode of data collection to data production, from problems of representation to problems of design. »

Et retour aux rôles des métadonnées (cf. rubrique précédente) sur les données synthétiques, si vous n’avez pas cette connaissance… comment alors correctement les interpréter ?

2) Actualité sur le sujet, une start up Israélienne (Fairgen – https://www.fairgen.ai/) lance une solution permettant de générer sous forme de données synthétique des résultats d’enquête mieux qu’en menant une enquête réelle ! Et cela pour répondre à la rareté de votre échantillon (nombre de personne sur lesquelles enquêter). « L’entreprise affirme pouvoir garantir une augmentation d’au moins deux fois par rapport à l’échantillon d’origine, mais en moyenne, elle peut obtenir une augmentation de trois fois. » … et cela par exemple pour mieux comprendre leurs segments de clientèle. Et cela va se cacher jusque dans les sondages d’opinion pré-électoraux en France « Fairgen is being used by BVA and French polling and market research firm IFOP, which have already integrated the startup’s tech into their services. IFOP… ». Source : https://techcrunch.com/2024/05/09/fairgen-boosts-survey-results-using-synthetic-data-and-ai-generated-responses

3) Et un article des labs de Microsoft sur l’intégration des données synthétique dans les moteurs d’IA (l’article explore les dernières avancées sur le traitement de la confidentialité des données par les données synthétiques – à rapprocher de l’idée de continuum entre données réelles et données synthétiques).

Source : https://www.microsoft.com/en-us/research/blog/the-crossroads-of-innovation-and-privacy-private-synthetic-data-for-generative-ai/

Ingestion de données

L’ingestion de données est la charge numéro un dans l’univers des données.

Des solutions alternatives à la logique ETL apparaissent (ou réapparaissent).

1) Exemple : l’idée de zero-ETL (origine AWS) – https://lewisdgavin.medium.com/why-zero-etl-is-revolutionizing-data-engineering-a9e0033c47cf … Qui reprend l’idée des techniques d’asservissement, réplication synchrone/asynchrone (pour ceux qui se souviennent des bases Lotus Notes).

Autres ressources : un guide sur l’intégration de données – Source https://www.actian.com/blog/data-integration/reasons-to-consider-hybrid-data-integration/

A voir aussi le guide « Data integration : the definitive guide » https://www.linkedin.com/posts/stephaneheckel_dataintegration-etl-dataquality-activity-7182728739816919040-YjC1/

2) Un article sur CDC (Change Data Capture) et la problématique de couplage fort induite … qui introduit le rôle des data contract … mais sans en préciser réellement comment cela va réduire le couplage : https://andrew-jones.medium.com/avoiding-the-tight-coupling-caused-by-change-data-capture-cdc-26d5200e8e52. Et son ouvrage : https://data-contracts.com/

3) Le zero copie vu par Salesforce. Intégration sans copie. L’idée est de construire des ponts bidirectionnels entre partenaires de stockage (par exemple avec des offreurs cloud data) appuyé par des standards commun de représentation des données (format de table). C’est une option versus copier/centraliser et virtualiser/laisser sur place. La seule contrainte … la dépendance éditeurs (si vous être hors périmètre cela ne marche pas) et formats (pour faciliter la zéro copie).

Source : https://www.lebigdata.fr/salesforce-zero-copy-network

Autre forme de partenariat/ partage des données : « La création d’écosystèmes de données et d’espaces de données sécurisés, de confiance et interopérables est essentielle pour favoriser une intelligence artificielle sûre et instaurer une société numérique pérenne. ». A l’image de ce qui se fait dans les data spaces https://internationaldataspaces.org/

Source : https://list.cea.fr/fr/28-mai-2024-le-cea-et-dawex-creent-un-laboratoire-commun-de-recherche-developpement-pour-accelerer-linnovation-sur-les-espaces-de-donnees-industrielles

Voir aussi sur le sujet le rôle des métadonnées (voir la rubrique précédente).

Data literacy – vivre dans les données et le cadre de vie des données

1) Pourquoi la data science n’est pas faite pour vous : il faut une culture mathématique (retour au stress scolaire pour beaucoup), il faut coder (cela s’apprend, mais si on veut dépasser la macro-excel ou du python de base, il faut maîtriser le génie logiciel), il faut être en veille constante (technologies et IA), il faut accepter de partir d’un désordre parfois complexe pour une longue épreuve de préparation des données (qualité des données, maîtrise des sources…) et je rajouterais qu’il faut de l’empathie métier … autrement dit s’immerger dans le métier que l’on traite, y comprendre le sens des données.

Source : https://towardsdatascience.com/why-data-science-may-not-be-for-you-21686a26cace

2) Quand il serait bien de revenir aux fondamentaux de ce qu’est une donnée pour bien les comprendre, les traiter, les gouverner, les utiliser … Constat d’un manque de progrès dans l’usage des données, voire d’une continuité importante dans les échecs de projets analytiques… et pourtant de plus en plus de ressources data, de technologies, de mentors data …

« Because before we can fully realize the benefits of information management, we must first have a basic understanding of the data. And the most basic understanding requires that we know two things:

     1. What the data element means.

     2. The values that it’s supposed to contain.

In other words, its definition and its expected content. Without those, you can’t do anything else, or at least not easily, sustainably, or at scale. »

Amusez-vous à poser la question de la définition de ce qu’est une donnée … et vous verrez l’embarras quasi général ou des définitions floues, par l’exemple, qui parlent d’information… Alors que le terme donnée a une définition bien précise, formelle dans le monde numérique. Je reviendrai sur cela dans un article à venir !

Source : https://www.dataversity.net/mind-the-gap-the-data-chasm/

3) Le collaboratif autour des données : une évidence, les données faisant partie du langage commun, support aux conversations, elles sont structurellement un objet collaboratif.

Un projet data est forcément collectif : métier, IT, data. Une seule personne ne possède pas toutes les facettes d’un jeu de données. Voir en complément le retour d’expérience d’un data scientist … qui a besoin de commentaires sur son travail (hum l’article n’est pas très profond et pourrait s’appliquer à tout travail … collectif).

Source : https://towardsdatascience.com/the-importance-of-collaboration-in-data-d144a632ffdc?source=rss—-7f60cf5620c9—4

4) Paradoxe : la démocratisation des données n’est pas un sujet prioritaire pour les décideurs (voir source Odoxa citée dans l’article. Mais pour dépasser les cas d’usage entreprise data driven confié à l’IT ou à des équipes data, il faut passer à l’entreprise data centric et cela commence par le management. C’est le rôle du CDO … aidé par une vue data partagée (portail centralisateur data) et par le buzz de l’IA. Commentaire personnel : comment passer d’une entreprise orientée process / applications centric à process / data centric … est-ce vraiment réaliste au vu de l’existant SI. Un portail centralisateur data est-ce réaliste (où sont les métadonnées ?). Casser les silos … plutôt les fédérer (les bons silos) sinon on risque de perdre pas mal de richesse sémantique … bref sujet pas aussi simple que ce qui est dit dans l’article avec le risque de burn out pour le CDO. Source : https://www.journaldunet.com/big-data/1530793-cdo-le-chef-d-orchestre-de-l-entreprise-data-centric/

5) Quand les données servent directement votre objectif … vous apprenez vite. L’exemple des sportifs et de Vincent Luis, un de nos beau palmarès en triathlon (hélas non sélectionné aux JO, la concurrence est sévère en France avec les deux derniers champions du monde Français). Mais le sportif mais tout ce qu’il est possible de mettre en place pour ses objectifs, dont les données – Voir l’interview sur ce sujet : https://www.lequipe.fr/Tous-sports/Actualites/Vincent-luis-le-triathlete-est-accro-a-la-data/1468204. Et la conclusion : « Peut-on gagner sans la data aujourd’hui ? Il y a 20 ans, j’aurais dit qu’on peut gagner sans la data. Aujourd’hui, c’est impossible. ». A modérer bien sûr en fonction de ses ambitions ! Le sujet data et sport est riche d’enseignement (voir aussi l’ouvrage de Y. Nyanga et A. Jean https://www.datassence.fr/2023/09/21/fiche-de-lecture-de-louvrage-data-et-sport-la-revolution-comment-la-data-revolutionne-le-sport-editions-de-lobservatoire-auteurs-yannick-nyanga-et-aurelie-jean/).

Et un article qui pose des limites aux données dans le sport :

« When we look at the greats of the sporting world, they possess qualities that cannot be captured by data alone. They have a deeper understanding that goes beyond what can be represented in numbers. For instance, elite athletes often have exceptional hearing skills to tune in to their teammates’ shouting amidst thousands of cheering fans (Krizman et al., 2020). Proprioceptive abilities are another crucial factor that sets apart elite athletes such as a good grip on the ball or tennis racket, but are incredibly challenging to represent through data (Waddington et al., 2013). »

« These skills are multidimensional, embodied and developed throughout an athlete’s entire career, making them irreplaceable with third-person observational data representation. »

« A study from Oxford University showed that when people received a fake “negative” sleep score, they rated themselves as much sleepier, and their mood was significantly worse than those who were given a fake “positive” score, and vice versa (Gavriloff et al., 2018). This means that we can manipulate our perception based on being hyperfocused on particular metrics. »

Source : https://www.lesswrong.com/posts/GPCjrBWKth8osZeG6/blindspot-in-sport-s-data-driven-age

Et aussi quand les athlètes trichent avec leurs données : https://readwrite.com/cycling-app-strava-employs-ai-for-training-and-anti-cheating-features/

NB : dans ces trois articles, on a toutes les formes de rapport aux données, le bon usage raisonné, les limites et la triche !

5) Sur la data literacy, deux supports de contenus chez Dataversity :

Connecting Data Literacy to Individual Performance (rejoint l’importance de la data literacy au quotidien et non pas à coup de grandes messes, formations).

https://content.dataversity.net/rs/656-WMW-918/images/May24_EEDL_Slides.pdf?version=0

Et l’idée de portail data en support du collaboratif autour des données.

https://content.dataversity.net/rs/656-WMW-918/images/MAY24DVDD-Metaphor.pdf?version=0

La data literacy concerne aussi les équipes data (ou je dirais déjà la culture logicielle dans le cas présent) !

6) La synthèse des discussions qui animent les équipes data – faite par https://www.synq.io/ (« Businesses that rely on data rely on Synq. Our pioneering data reliability platform helps data teams graduate from second-class citizens to trusted owners of business-critical data. ».

Quelques extraits évocateurs de l’article.

Trois thèmes émergent :

« The data warehouse is no longer just for reporting

Data teams (and their stacks) are getting larger

There’s not a one-size-fits-all testing approach »

Et en second plan, déjà dit et vu le retour (arrivée ?!) du génie logiciel dans le monde des données !

« Impact #1–The rise in business-critical data warehouse use cases is causing data teams to operate more like their software engineering colleagues. »

Le deuxième thème va pour moi exploser … cf. syndrome de l’obésité déjà vécu dans les données (data exchange).

« Collaboration becomes harder as no one is familiar with the entire code base. Time spent in meetings goes up relative to time spent getting things done.

Quality becomes harder to enforce over a growing surface area, and user-reported errors increase.

SLA achievement declines as more jobs fail, but no amount of retros seems to reverse this trend.

Impact #2–Data becomes exponentially more difficult with scale. Top data teams invest in ownership and regular cleanups and are intentional about what data is most important. »

« Define interfaces — put in preventative measures such as data contracts and versioning to prevent upstream teams from introducing unintended breaking changes… ». Source :

https://medium.com/@mikldd/data-about-data-from-1-000-conversations-with-data-teams-bf21496dd7ea

7) Quand les données (de mauvaise qualité ou chaotiques) nuisent aux entreprises.

« Inability to accurately describe the most basic facts of our business.

Low trust in dashboards and reporting; low value extracted from data.

High risk of decision processes ignoring data entirely.

Expensive data teams constantly putting out unnecessary fires. »

Il faut mettre les données dans de bonnes conditions (leur offrir un cadre de vie digne de ce nom).

« In summary. Achieving a baseline environment where data is reliable and accurate is an investment that must be made, if we strive to convert data into a value-generating resource for our business. »

(voir le sujet du cadre de vie des données dans le guide de la dynamique des data platforms : https://www.datassence.fr/2024/04/23/dynamique-et-panorama-des-data-platforms/)

Penser data product peut forcer à mieux penser les données. Les données n’échappent pas à une stratégie de test poussée…

Source : https://towardsdatascience.com/is-your-data-lifting-you-up-or-letting-you-down-e2fd7cc75513

Data platforms

1) Quand les développements data (pipelines) redécouvre les principes de génie logiciel (déjà vu, voir ce que fait Dbt https://www.getdbt.com/ par exemple et aussi https://www.datassence.fr/2024/05/02/revue-data-du-mois-avril-2024/#_ftnref1). Un nouvel acteur Dataforge propose une plateforme dans cette logique – https://www.dataforgelabs.com/blog/introducing-dataforge-core-the-first-functional-code-framework-for-data-engineering Source : https://www.datanami.com/2024/05/13/dataforge-sets-new-standard-for-the-future-of-data-platforms/

2) Le futur des bases de données : multi-modèles et une couche GQL (Graph Query Language) au-dessus du modèle relationnel. Source : https://towardsdatascience.com/the-future-of-databases-24a3451571f6

3) L’IA boost les investissements dans les data platforms. Dernier exemple « Weka raises $140M as the AI boom bolsters data platforms »… centraliser les données, les traiter efficacement pour l’IA (pour Weka cela passe par le parallélisme). Source : https://techcrunch.com/2024/05/15/weka-raises-140m-as-the-ai-boom-bolsters-data-platforms/

4) Un exemple de construction et d’emploi d’une data platform au service d’une apps financehttps://tweeq.sa/en . Source : https://engineering.tweeq.sa/tweeq-data-platform-journey-and-lessons-learned-clickhouse-dbt-dagster-and-superset-fa27a4a61904

Dans le même esprit un article sur pourquoi ne pas construire sa data platform ?

5) Et une actualité continue dans les roadmaps des éditeurs de data platform. Trop longue pour tout aborder. Exemple chez Databricks : https://medium.com/@matt_weingarten/databricks-q2-roadmap-w2w4-d6d186580153

A suivre une synthèse dans une prochaine version de notre guide panorama des data platforms : https://www.datassence.fr/2024/04/23/dynamique-et-panorama-des-data-platforms/

Extraits : « And let’s be honest: building a data platform often looks easy at the start. The third party, the governance team, has a more narrow view on a data platform: a data catalog will solve all problems. In the end, it’s the faction with most power in the company that influences its buy vs build mentality. »

« This buy mentality, combined with the desire to keep costs under control, the love for open source, and the preference to avoid vendor lock-in, has led to a modular approach to the data platform at imec. »

« This long-term maintenance might be the most neglected pitfall of building your own data platform: if you build it yourself, you need to maintain it yourself. Often platform teams get bogged down in operational issues after a while and can no longer add any new functionality. »

« Imec is a good example that technically scaling the platform is not the biggest challenge, scaling people is. » NB : attention au syndrome de l’obésité de la data platform (en contenu et en personne / part de responsabilité / connaissance métier … responsabilités).

« Even open source technologies cost money as you need to keep maintaining their installation and keep upgrading them. »

Source : https://medium.com/conveyordata/why-not-to-build-your-own-data-platform-e353e9bad505

Rappel si vous créez votre propre solution, son intégration coute cher, très cher et toujours plus cher.

6) La guerre des formats et la difficulté d’interopérabilité entre platform :

« The feature complements the company’s investment in developing XTable, an open-source offering that delivers read-write interoperability among Hudi, Delta, and Apache Iceberg table formats. »

« So it’s somewhat ironic that a battle has erupted over the table formats in the big data ecosystem, with some vendors and customers standardizing on Iceberg while others back Delta. »

« If you’re in the Databricks ecosystem, you’ll be using Delta. If you’re in the Snowflake ecosystem, you’ll be using Iceberg. You can forget about using query engines, data science notebooks, or even stream processing engines from certain vendors if the table formats are incompatible. ». Source : https://www.datanami.com/2024/05/20/onehouse-breaks-data-catalog-lock-in-with-more-openness

Le data mesh s’installe

Le data mesh fait sa place progressivement. Comme pattern d’évolution des S.I. autour des données, comme fonctions d’appui par les éditeurs de data platforms, comme cible en termes de gouvernance fédérée des données. Avec des retours d’expérience de chemins pris par les entreprises, des bonnes pratiques partagées.

« There is no canonical architecture for Data Mesh — each organization adopts solutions that are unique to them, and these solutions will evolve over time. »

Quelques extraits de différentes sources :

– L’aspect multidisciplinaire des ressources à mobiliser : « The Premium Offices use case illustrates the multidisciplinary team structure required, including a Data Product Owner, Engineers, and Visualization Developer, tailored to the specific domain needs. »

– Le data mesh est forcément collaboratif (autour des data product, le maillage au centre et l’interopérabilité fixée par le collectif)

– Ne pas zapper l’expérience des développeurs data (à la base se sont eux qui vont produire les data product et le maillage résultant) – formation, outils dans le « flow », intégration dans le collectif et le maillage (passage à l’échelle), explication pour automatisation des politiques…

– Le choix de la RATP d’une vue centralisée des données (databricks, data factory, data catalogage pour des premiers data products…).

« De manière générale, le concept de Data Mesh « est complexe à appréhender », juge Stéphane Saretta. « Cela demande de travailler son organisation interne. Il y a beaucoup de questions de propriété et de gouvernance de données. La partie technique est finalement la plus aisée », observe-t-il. »

– Même si certaines ambitions semblent opposées (centralisation, décentralisation – fédération), data fabric et data mesh sont complémentaires.

– L’idée data containerization (JP Morgan) – rejoint l’idée de data product. Pour délivrer des données financières déjà préparées aux analystes (mises en qualité, normées, intégrées dans une vue sémantique, maillées correctement entres-elles) – https://www.jpmorgan.com/about-us/corporate-news/2024/jpmorgan-launches-enhanced-data-normalization-solution-for-institutional-investors et https://fusion.jpmorgan.com/solutions/containerized-data JP. Morgan étend le data mesh à ses clients (exemple investisseurs) /partenaires.

– Les challenges des données vues comme produits. Un article de fond : https://towardsdatascience.com/challenges-and-solutions-in-data-mesh-part-2-7dfe97aa461a

« The current proposal in data mesh lists several characteristics or qualities that data products are supposed to have — they need to be discoverable, addressable, trustworthy, self-describing (understandable), interoperable, natively accessible, valuable (on its own) and secure. In principle, it makes sense to link all these qualities to the use of data products. However, data mesh assigns the responsibility to provide the qualities to the data product itself. Not the IT infrastructure is responsible to ensure them but the data product needs to implement all of this with the help of the self-service data platform. It even comes with its own execution infrastructure, making it entirely self-reliant. » … mettre aussi les traitements, la logique métier dans le data product ? Jusqu’où aller dans l’idée de brique élémentaire autonome d’un data product ? « The data product should not be seen as a new “super object” capable of performing all tasks on its own. ».

Un problème clé : While raw data is easily exchangeable, it lacks the crucial business context that makes it meaningful. Reconstructing this context from raw data can be incredibly challenging, if not impossible. Thus, we should make every effort to maintain the business context alongside the raw data to ensure its usability and understanding. To not loose the context, OOP and the original data mesh propose to encapsulate the logic with the data. DOP or FP and the adapted data mesh, on the other side, separate the logic from the data, but allow the data structures to embed all the information that still allows the data to be interpreted correctly. ». Comment représenter et ne pas perdre le contexte ? Comment limiter le couplage producteur data product / consommateur … Voir aussi la première partie https://medium.com/towards-data-science/challenges-and-solutions-in-data-mesh-part-1-24cd45290805

– Autre article qui met en avant le problème de lier ou non la logique métier à un data product :

« As this business logic is bound to a given business domain, this can result in multiple versions of data products, belonging to multiple business domains. Imagine when your company offers both a subscription model for one service, a one-off payment for another product and a freemium service in a third business domain, you can imagine ending up with three distinct data products about customers. » – https://medium.com/data-mesh-learning/data-mesh-roundtable-data-product-design-d556d4c54dc1

Sources :

https://medium.com/@axel.schwanke/data-mesh-in-practice-recommendations-from-zeeneas-practical-guide-to-data-mesh-a4cdf97f1171

 –https://www.lemagit.fr/etude/Comment-la-RATP-faconne-sa-strategie-Data-Mesh

https://medium.com/@srpantano/two-ways-data-mesh-vs-data-fabric-8ecbc3bea680

https://www.datanami.com/2024/05/28/j-p-morgan-launches-containerized-data-solution-in-the-cloud/

https://towardsdatascience.com/challenges-and-solutions-in-data-mesh-part-2-7dfe97aa461a

https://medium.com/data-mesh-learning/data-mesh-roundtable-data-product-design-d556d4c54dc1

IA et data : impact de l’IA sur la data

1) Quand l’IA pousse à rassembler toutes les données dans une vue data contextualisée (un graal historique des CDO … réaliste ?). « Fivetran CEO George Fraser, a 2023 Datanami Person to Watch, concurs that a strong data foundation is a requirement for GenAI success. »…. « The difficulties in getting all your data tools and techniques onto the same pages are immense. » … l’intégration et toujours l’intégration comme LA difficulté et le cout. Et cela coute cher aussi en moyen de stockage.

2) Toujours l’IA comme copilote des data platforms (voir l’exemple d’Opendatasoft).

3) Quand l’IA cherche à se nourrir de toutes les données possibles : Facebook, Instagram, Windows 11, Reddit…

Avec le problème de la zone grise des IA Copilote à valeur qui ne peuvent fonctionner qu’à partir de vos données. Source : https://diginomica.com/art-super-opting-you-monetize-data-contractize-it

4) Le langage comme donnée … et ses impacts : biais, limites, structure narrative, poids moral/éthique des paroles, nuances … part humaine du langage … comment cela se traduit en termes de données et pour l’IA ? Les données restreignent de fait ce que porte le langage tout en gagnant en capacité de calcul … mais avec quel résultat ? « Don’t go there, because when you do, you’re at risk of being conned, of being taken in by a large language mentalist.

Should we drink from the (possibly) poisoned chalice? Right now, I’m cautiously sipping. ».

Sources :

https://www.datanami.com/2024/05/15/ai-impacting-data-engineering-faster-than-expected-dbt-labs-handy-says/

https://www.opendatasoft.com/fr/blog/comment-lia-transforme-notre-solution-de-portail-de-donnees-et-les-projets-data-de-nos-clients/

https://www.lebigdata.fr/meta-va-nourrir-son-ia-de-donnees-fb-et-insta-pour-quelle-imite-vos-amis

https://www.lebigdata.fr/big-brother-windows-11-va-espionner-votre-pc-pour-nourrir-lia-microsoft

https://www.datanami.com/2024/05/30/data-is-the-foundation-for-genai-mit-tech-review-says/

https://www.dataversity.net/ask-a-data-ethicist-what-happens-when-language-becomes-data/

https://www.dataversity.net/datastax-announces-new-hyper-converged-data-platform-with-vector-search-and-generative-ai/

La vue unifiée des données

Le graal de disposer d’une vue unifiée des données. Réaliste ou pas, en tous les cas, il y a une proposition de moyens de plus en plus riche.

– Couche sémantique (approche par le haut).

– Data product (approche par le bas).

– Et l’idée de schéma fédérateur entre la couche sémantique et les data products.

« …but most importantly, there is the issue of how to connect the data models of different data products and ensure that the potential consumer can do it simply… ». L’idée est d’utiliser la représentation USS (“Unified Star Schema” (USS) by Francesco Puppini and Bill Inmon) comme modélisation au sein des data products.  – https://medium.com/agile-lab-engineering/unified-star-schema-to-model-data-products-872ed0520ae7

Sources :

https://medium.com/@blosher13/data-democracy-with-dbts-semantic-layer-6c160a30530b

https://medium.com/agile-lab-engineering/unified-star-schema-to-model-data-products-872ed0520ae7

https://blog.opendataproducts.org/open-data-product-specification-3-0-released-with-strong-industry-support-0a12c0ce18f2

https://medium.com/@axel.schwanke/semantic-layer-one-layer-to-serve-them-all-d0ef7eff1ffa

En vrac (Quand un physicien fait le lien entre la physique et les données, Quand l’achat et la vente de données de géolocalisation est risqué, EU Data act, Data diplomatie, Statistiques en musique, Echecs des projets analytiques, Green data, Classification des données, Valeurs des données)

1) Quand un physicien fait le lien entre la physique et les données :

« Every data point corresponds to a real physical event that happened in the real world.

So in a sense, data can always be traced to physical phenomena.

This perspective, unfortunately, is rarely discussed in standard statistics or machine learning discourse. ».

Avec : la mise en avant de la nature spatio temporelle des données (time series, localisation), toutes les données comportent du bruit, tout est corrélé

« What is the implication for data science? It means that we can never control for all the variables, and that statistical inferences will always have an irremovable bias based on what we consider as control or independent variables. »

« Physics exposes a fundamental limitation: isolating data or variables as truly independent is impossible. Our very selection of variables introduces bias, and data scientists must be aware of these inherent limitations. ». Source :

https://towardsdatascience.com/the-physics-behind-data-2b2498d70fbf

2) Quand l’achat et la vente de données de géolocalisation est risqué. Source : https://www.forrester.com/blogs/location-data-is-a-problematic-fave-and-its-time-to-break-up

3) Des éclaircissements par le Forrester sur l’EU Data act : accès à ses données de tout système data connecté, pouvoir les transmettre, traiter l’interopérabilité. Source : https://www.forrester.com/blogs/eu-data-quelles-consequences-pour-vous-et-votre-entreprise/

4) Un nième concept data … de bon sens : la data diplomatie « a method he believes can bridge the gap between business and IT, fostering a unified approach to data management. ».

Constat : la gouvernance des données comme contrainte bureaucratique n’est pas efficace.

Il faut « data Diplomacy — a strategy to engage everyone in the organization as data workers, integrating data responsibilities into their business functions seamlessly. »

« Patterns Emerging in Data Diplomacy

1. Hero-Driven Culture vs. Sustainable Practices: Organizations often glorify “firefighters” who address immediate data issues. Edvinsson advocates for a shift towards fire prevention — establishing robust data governance frameworks that prevent issues from arising in the first place. »

Vu souvent des data héros, des enthousiastes, des grandes messes, des don quichotte mais l’épuisement arrive vite.

Les autres patterns sont des portes ouvertes.

Source : https://medium.com/@winfried.etzel/data-diplomacy-enterprise-architecture-and-data-governance-42448fc1500d

5) Une curiosité, des statistiques sous forme de courtes vidéos et en musique !

Source : https://flowingdata.com/2024/05/03/welcome-to-the-future-of-data-reporting-in-musical-format/

6) Plus classique : les échecs des projets analytiques

Les chiffres pour se faire peur (étude commandée par Oracle – introuvable sur le site d’Oracle – met on en parle aussi ici https://www.prnewswire.com/news-releases/global-study-70-of-business-leaders-would-prefer-a-robot-to-make-their-decisions-301799591.html ) :

« In a 2023 survey from Oracle, the majority of business leaders said that they don’t believe their employer’s current approach to data and analytics is addressing their needs. Seventy-seven percent said that the dashboards and charts they get aren’t germane to decisions they need to make, and 72% admit the sheer volume of data — and their lack of trust in that data — has at times stopped them from making decisions altogether. »

Et l’idée de Sigma (https://www.sigmacomputing.com/ ) de défendre la business intelligence collective, massive multi-joueur et ouverte à un maximum de personnes (non réservé aux data analystes)… excel revisité au-dessus des stacks data. Avec une nouvel levée de fonds. Source : https://techcrunch.com/2024/05/16/sigma-is-building-a-suite-of-collaborative-data-analytics-tools/

7) Green data architecture : un article fait le tour du sujet – https://towardsdatascience.com/towards-sustainable-data-engineering-patterns-20cb254c9636

8) Classification des données : comment choisir un outil de classification des données et l’offre Varonis.

https://www.varonis.com/blog/data-classification-buyers-guide

9) Valeur des données :

– Déterminer la valeur marchande des données est un défi (effectivement, la valeur n’est pas intrinsèque mais dépend de l’usage. Et les usages peuvent être simultanés (la donnée n’est pas rivale). Par contre elles ont un cout de base). Les tribunaux ne savent comment considérer les données comme un actif d’entreprise. Mais « « Increasingly, companies that are data rich and cash poor are finding they can get loans for their data assets, » ». Source : https://www.zdnet.com/article/draft-data-not-formally-recognized-as-an-asset-may-be-the-most-valuable-asset/#ftag=RSSbaffb68

– Et Revolut, va vendre les données bancaires pour un usage publicitaire, le tout pour des revenus de plus de 300 M€. Source : https://www.lebigdata.fr/revolut-va-vendre-vos-donnees-faut-il-quitter-la-neobanque-en-urgence


RDV maintenant en juillet pour la revue et les actualités de juin


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.