Ce mois de novembre des thèmes récurrents : collecte de données, data et IA / agents IA, gouvernance des données, self data, data mesh, dictionnaire de données, modélisation, tout se transforme en données.
Des zooms : monétisation des données personnelles (dossier CNIL), couches d’abstraction unifiées des données, le défi de la gestion des données non structurées, lancement d’un référentiel des biens immobiliers en UK – les principes de base mis en place, les données offre juridique et économique de l’Ile de Man.
Toujours le sujet du contexte des données (pas de sens sans cela).
Toujours une liste de pas mal de notes de lectures au fil de l’eau.
A piocher en fonction de vos centres d’intérêt.
Et pour commencer un récit glaçant sur la responsabilité de conception d’un système de données en termes de SLA – avec au bout le décès d’une personne.
D’une façon plus large, notre environnement est maintenant pour partie numérique. Et forcément cela à une influence sur notre vie, nos comportements, notre santé… nos risques. Se pose la question de comment nous allons nous adapter ?!
Source : https://medium.com/@jamauriceholt.com/the-database-that-killed-my-wife-79669f5f0c76
Sommaire :
- Collecte des données sans limites jusqu’à la collecte de sens
- Monétisation des données personnelles : dossier CNIL, impuissance face à la collecte
- Couches d’abstraction des données : objets métier, couche sémantique, ontologie
- Data et Agents IA
- Intégration, partage de données
- Le défi de la gestion des données non structurée en finance
- Dataification des biens immobiliers et du marché immobilier en UK : logique de référentiel de données
- Culture des données et gouvernance des données
- Architecture contextuelle : données et métadonnées
- Reconnaître les données comme un actif économique et juridique : l’initiative conjointe DCAM et l’Ile de Man
- Self-service data : sauvé par les agents data analytics, excel reste le maitre, remise en cause des équipe BI … arrivée de ChatGPT, doute sur les résultats du self data
- Interopérabilité sémantique : l’exemple des data spaces
- Investissement dans une infrastructure nationale de données de recherche : la mission Gemini aux US
- Data mesh
- Recueil des exigences (par un business analyst) – cas de la constitution d’un dictionnaire de données
- Modélisation des données – cas du comptage et de l’agrégation
- Tout peut-il être sous forme de données ?
- Vrac (Evolution du RGPD pour l’IA, Lidl se lance dans la course aux data centers, La roadmap du Health Data Hub européen, critique du DAMA, données d’identité)
Collecte des données sans limites jusqu’à la collecte de sens
Collecte de données : appareils domestiques, en entreprise on garde tout, des comportements des agents IA pour leur post entraînement, données de géolocalisation, la toile vampirique de collecte des données s’étend aux US, collecte de nos données jusqu’à être remplacé, collecte de sens
1) Tout appareil même domestique est susceptible de collecter des données – l’exemple de l’aspirateur qui collecte la cartographie de votre domicile. Sources : https://yro.slashdot.org/story/25/11/02/2241201/manufacturer-remotely-bricks-smart-vacuum-after-its-owner-blocked-it-from-collecting-data
2) Le Data Hoarding qui consiste à archiver ou à ne jamais supprimer les données est très répandu. Pourquoi les entreprises n’effacent-elles pas leurs données même celles jugées inutiles ?
Garder toutes les données, comment savoir quelles données seront utiles à un moment donné ?
La tentation est forte.
Mais il y a un cout, sélectionner les données utiles dans la masse, le bruit.
A voir l’intérêt de l’IA pour une classification automatique, d’une politique des données qui inclus des règles de rétention.
Le mieux s’intéresser au cycle de vie des données jusqu’à la fin de vie : le rôle de la gouvernance.
Et dans l’idée d’une politique dédiée : stop le data hoarding … de façon contrôlée
« A modern data deletion policy is your strategic advantage. Learn how it works with a data retention policy to reduce costs, minimize risk, ensure compliance, and build customer trust. Stop digital hoarding. »
Et aussi, le tri nécessaire des données – toutes les données ne sont pas essentielles.
3) Quand les données de géolocalisation de smartphone permette de réidentifier les individus (lieu de travail, école des enfants…). Sources : https://datanews.levif.be/actualite/belgique/des-donnees-de-smartphones-revelent-lidentite-de-fonctionnaires-de-lue/
https://multimedia.lecho.be/telephone-localisation
4) La toile vampirique de collecte des données s’étend (aux US)
« The Department of Homeland Security has decided that hoarding your Social Security data, passport info, and visa records in their shiny new surveillance system wasn’t quite creepy enough. So now they want your driver’s license information too, because apparently creating a « one-stop shop for citizenship checks » requires knowing where you live, work, and whether you’re an organ donor. »
Source : https://boingboing.net/2025/11/04/homeland-security-builds-orwellian-surveillance-database.html
5) Création de jeux de données d’apprentissage pour les robots par imitation de mouvements
NB : plus largement, nos actions, nos comportements peuvent être recueillis pour former des datasets d’apprentissage d’IA ou de robots … qui viendront nous remplacer Source :
https://arxiv.org/pdf/2510.26236
Voir aussi : https://www.bloodinthemachine.com/p/i-was-forced-to-use-ai-until-the – « I was forced to use AI until the day I was laid off ».
6) De la collecte de données à la collecte du sens : données + contexte + action
La bascule : de préparer les données pour une lecture humaine (KPI, tableaux de bord) à préparer les données pour une lecture par les agents IA.
Cela passe par les data products et le transport de leur contexte (sous forme de métadonnées) dans les pipelines de données.
« But for AI systems, quality examples matter more than volume. Models learn faster and perform better when trained or prompted with representative, complete, and well-labeled data. »…
« When instrumenting events in web or app analytics, product managers should push beyond “event name” and “timestamp.” – Add: Business context (e.g., campaign ID, feature flag, customer type). Technical lineage (source app, environment, schema version). Intent metadata (what user action this represents and what outcome it enables).
By doing this, you make every event self-contained — understandable to both analysts and agents without extra lookup tables or tribal knowledge.
The data product manager’s mantra should shift from “collect data” to “collect meaning.”…
« That means your data product must include both perception (what the agent sees) and actionability (what the agent can do). »…
Et un produit de données n’est pas statique, il apprend, des usages qu’on en fait par les agents.
Avec des déclencheurs codés dans la partie action : « “When event volume deviates >10% from baseline, alert instrumentation team.” ».
NB : des bases de données classiques (tables, métadonnées, triggers – procédures stockées) à des bases de données orientées data products…
Monétisation des données personnelles : dossier CNIL, impuissance face à la collecte
1) Dossier CNIL : « Monétisation des données personnelles : combien valent nos données ? – La CNIL a commandé un sondage sur la perception des Français vis-à-vis de l’utilisation de leurs données personnelles et du consentement à la publicité en ligne. Ce deuxième volet d’une série de trois publications s’intéresse à leur inclination à utiliser leurs données personnelles comme monnaie d’échange. » . Source : https://www.cnil.fr/fr/monetisation-des-donnees-personnelles-combien-valent-nos-donnees
2) Et dans le sens de l’article CNIL : « Why People Don’t Demand Data Privacy, Even As Governments & Corporations Collect More Personal Info ».
Impuissance face à la collecte de données : récits, complexité, discours sur la fin de la vie privée, surveillance concourent à cette idée.
« At the same time, though, 61% expressed skepticism that anything they do makes much difference. This is because people have come to expect that their data will be captured, shared and misused by state and corporate entities alike. ».
On est conditionné à se considérer comme impuissant sur l’usage de nos données, leur vole…
Et aussi « For years, studies have shown that people claim to care about privacy but do not take steps to actively protect it. »…
« The privacy paradox often elicits appeals to transparency: If only people knew that they had a choice, or how the data would be used, or how the technology works, they would opt out. But this logic downplays the fact that options for limiting data collection are often intentionally designed to be convoluted, confusing and inconvenient, and they can leave users feeling discouraged about making these choices…»
Couches d’abstraction des données : objets métier, couche sémantique, ontologie
1) Le nième retour de l’approche objet métier pour les données
Le travail sur les objets métier maintes fois fait dans les entreprises depuis plus de 30 ans (vécu dans le monde bancaire au milieu des années 90, dans l’énergie dans les années 2000, etc).
NB Rappel : une donnée de base à sa partie concept attachée à un objet (caractérisation conceptuelle). La difficulté, les objets métier sont une couche d’abstraction paradoxalement que les métiers ne maîtrisent pas forcément : définition, rôle dans le S.I., gouvernance…
Ce n’est pas nouveau contrairement à ce que dit l’article. Mais c’est une structure de pensée de base pour les données et les systèmes associés (data centric … objet centric).
2) Couche sémantique … magique
Entre les sources et les usages.
Une couche d’intégration sémantico – contextuelle … à construire.
Le tout tiré par l’usage de l’IA – interrogation des sources de données par les LLM.
« This is where the semantic layer comes in—what VentureBeat has called the “$1 trillion AI problem.” Think of it as a universal translator for your data: It’s a single place where you define what your metrics mean, how they’re calculated, and who can access them. »
…
« When your CFO decides next quarter that ARR should exclude trial customers, you update the definition once in the semantic layer. Every dashboard, report, and AI tool that uses ARR gets the update automatically. »
On en est encore loin quand on connait les systèmes existants qui portent les données et la charge d’intégration pour arriver à ce niveau d’automatisation.
Attention au mythe de la vue unifiée des données.
Exemple – l’erreur de penser facilement réalisable – sans obstacles « Single version of truth: Everyone uses the same ARR calculation, whether they’re in finance or sales or they’re pulling it into a machine learning model. ».
Source : https://www.oreilly.com/radar/the-trillion-dollar-problem/
3) Ontologies indispensables pour la gouvernance des données et les LLM
Toujours le contexte nécessaire aux LLM (quand les données sortent de leur environnement pour rejoindre celui des LLM).
« When an LLM retrieves enterprise data, it’s not just reading rows. It’s stepping into a world built on years of accumulated decisions: naming conventions, permissions, business rules, lineage, definitions, exceptions, and tribal knowledge that never made it into documentation. The model doesn’t know any of that. It sees content, not the guardrails you set. »
Et toujours la même solution : une couche unifiée magique, ici sous forme d’ontologie SQL, source unique de vérité combinant sémantique et règles
Source : https://medium.com/timbr-ai/why-ontologies-are-key-for-data-governance-in-the-llm-era-47412f263112
Data et Agents IA
L’évolution de la gestion des données pour satisfaire les besoins agentique
1) Construire le contexte des données – explicabilité
2) Automatiser par l’IA la qualité des données, documenter
3) Distribuer le tout via un serveur MCP
Exemple de l’offre d’Ataccama https://www.ataccama.com/
Un article de référence sur les données des agents pour les agents. Avec : l’idée d’Agent Data Protocol (ADP) pour uniformiser la récupération de données hétérogènes de la façon dont les agents se comportent. ADP se positionne comme une couche intermédiaire entre N façon de collecter des données de comportement d’agent (par API, par web browsing, par curation manuelle, données synthétiques…) pour fournir des données post entraînement à ces mêmes agents. Le tout pour le fine tuning supervisé des agents.
Source : https://arxiv.org/pdf/2510.24702
Intégration, partage de données
1) Cinq frameworks d’intégration de données
1) Metadata-Driven Frameworks: Turning Pipelines Into Autopilots
2) Event-Driven Frameworks: Let Data Trigger the Action
3) Data Contract Frameworks: Trust, but Verify
4) Cross-Cloud Frameworks: The Era of Inter-Cloud Integration
5) AI-Assisted Frameworks: When Integrations Start to Think
NB : éternel sujet technologique, CDC, réplication, CORBA, EAI, Virtualisation de données…
2) Voir aussi le pan inverse : la distribution de données – Data as a service, distribution de data products – https://medium.com/@community_md101/data-product-distribution-framework-38543e5efebb
3) Estuary https://estuary.dev/ tente de résoudre le problème complexe de gérer en même temps le transfert de données par lots et en temps réel avec le choix de basculer de l’un à l’autre.
« Estuary combines batch and streaming into a single platform that solves the AI data bottleneck, powering reliable, right-time data for analytics, operations, and AI. »
A suivre…
NB : ils ne disent pas comment ils font sur la base de quels choix technologiques
Source : https://siliconangle.com/2025/10/21/estuary-raises-14m-try-solve-one-hardest-problems-data-movement/
4) Data Act et contrats de partage des données
Une vue juridique, sur le data act (entré en vigueur en septembre) et son ambition de faciliter le partage de données – cas des produits connectés (et exemple dans le monde de la santé).
5) Data provider : tentative de formalisation / définition
Pour comprendre leurs modèles et ambition, leurs limites, leurs responsabilités, identifier leurs leviers économiques, les régulations associées, leur interopérabilité.
Vue principalement du côté de la Chine mais aussi à l’international (monde de la recherche).
Les recommandations liées aux manques : renforcer la standardisation des infrastructures de partage de données, développer des cadres juridiques et techniques pour la sécurité et la confidentialité, mettre en place des indicateurs d’évaluation des data providers.
Source : https://journalofbigdata.springeropen.com/articles/10.1186/s40537-025-01294-4
Le défi de la gestion des données non structurée en finance
Rappel les données non structurées sont des données structurées en puissance
Les défis : pas de format prédéfinis, un morcellement – une fragmentation, la taille, le contrôle de l’intégrité (conservation stricte, immuabilité et vérifiabilité des enregistrements pour les besoins réglementaires), RGPD (exemple de pdf contenant des données personnelles), sécurité (accès – piste d’audit, chiffrements étendus aux documents), la gestion des métadonnées, quelle forme de stockage dans les stack data (nativement, par index) et quel mode d’ingestion des documents, la gouvernance… bref un énorme chantier !
Source : https://shashankguda.medium.com/unstructured-data-management-in-finance-86e06c190ec5
Dataification des biens immobiliers et du marché immobilier en UK : logique de référentiel de données
Un exemple intéressant de déploiement d’un système référentiel – « The future version of the National Land Information Service (NLIS) ».
Description standardisée : « OSCRE, an open data model with strong governance and sophisticated semantic definitions covering the full property lifecycle; and buildingSMART IFC, a widely adopted schema for describing built assets digitally, supporting interoperability across systems used in construction, planning, and asset management. »
Identifiant unique : unique property reference numbers (UPRNs)
Normes d’échanges et d’interopérabilité : « Property Data Trust Framework and relevant ISO standards such as ISO 20022 for electronic data interchange between financial institutions. »
Services : exemple – validation des adresses / localisation géographiques des UPRNs
Source : https://www.ukauthority.com/articles/data-standards-for-new-national-land-information-service
Culture des données et gouvernance des données
Les deux pré-requis d’une organisation axée sur les données. Le problème on peut concevoir une gouvernance des données, mais quid d’une culture des données ?
L’auteur propose une approche :
« Culture is an emergent property of an organization, not an object of design » … « Yet, turning data into measurable outcomes remains a challenge for many organizations. »
La culture de la données comme partie de la culture organisationnelle d’entreprise.
La culture ne peut pas être décidée intentionnellement. Mais un produit émergent de la communication d’entreprise et de règles tacites.
La culture est alors un symptôme et non un pré-requis. Il faut changer le contexte (de travail) plutôt que les personnes pour induire un changement de comportement.
Application à la culture de données : elle ne peut se concevoir, elle doit émerger.
L’idée : identifier ce qui fait obstacle dans la culture de la donnée actuelle, à la création de valeur par les données.
L’auteur propose six axes d’analyse (traduction) :
1) Sensibilisation aux données : Les dirigeants et les employés comprennent les opportunités et les limites de la création de valeur par les données.
2) Leadership en matière de données : Les dirigeants exigent et promeuvent activement des méthodes de travail fondées sur les données, là où elles apportent une valeur ajoutée.
3) Maîtrise des données : Tous les membres de l’organisation possèdent les compétences interdisciplinaires nécessaires pour utiliser les données de manière à créer de la valeur.
4) Méthode de travail axée sur les données : Chaque membre de l’organisation est disposé à explorer et à exploiter le potentiel des données pour créer de la valeur.
5) Méthode de travail collaborative : Les données et les analyses sont partagées volontairement et proactivement, au-delà des frontières hiérarchiques.
6) Disponibilité des données : Les utilisateurs peuvent accéder aux données qui les concernent facilement, en toute sécurité et en temps voulu.
Culture de la donnée et gouvernance de la donnée vont de pairs. La gouvernance traite du compliqué – le maîtrisé, la culture du complexe – y naviguer.
Exemples : « Data quality — Data governance can define a data quality rule, but a culture of accountability motivates an employee to proactively report an anomaly observation. »
« Metadata management — Data governance can mandate the creation of a data catalog, but only a culture of collaboration can ensure its ongoing curation with the rich, contextual, and up-to-date metadata that makes it truly valuable. »
Architecture contextuelle : données et métadonnées
1) Le sujet : The Collapse of Context in Today’s Data Platforms. The Rise of the Context Architecture
L’idée d’architecture contextuelle – pour l’IA (mais pas que) – le rôle central des métadonnées (« the meta layer that transforms dump characters into meaning. »… « In this new distribution system, metadata is no longer the by-product; it’s THE product. ».
Les plateformes de données actuelles (une évolution laborieuse des systèmes existants) sont conçues pour stocker, traiter et distribuer les données, mais pas pour les comprendre.
Les catalogues ont été introduits pour résoudre cela … mais à côté.
Comment le contexte intervient – par l’auteur :
1) En aidant à la reconnaissance des données sources : schémas de données, structures, relations
2) En aidant au profilage des données : distributions, anomalies, qualités, données sensibles, personnelles
3) En qualifiant les usages : qui, quand, comment
L’ensemble forme le contexte d’analyse de l’IA – par identification de similarités « to see which tables are written often but rarely read, to detect redundancies across pipelines, to identify convergence: where columns and tables begin to resemble each other across systems. ».
Le tout ouvert via un serveur MCP pour un usage par les IA.
Le second support de l’architecture contextuelle : les data products qui bouclent le chemin, de la source, à l’usage augmentés en continu par le contexte et cela en boucle / feedback.
2) Molécules de données, capsules de données … produits de données étiquetés
Toujours le rôle des métadonnées avec différentes métaphores.
L’idée de molécule de données par l’auteur. Une autre façon de voir les étiquettes des données (définition, niveau de qualité, droits, lineage – traçabilité des traitements, règles appliquées, fréquence d’actualisation…) transportées avec les données et support à la gouvernance, l’observabilité.
L’auteur pense que c’est l’avenir. Mais cela existe déjà, déployé dans plusieurs environnement – voir par exemple ce qu’offre l’éditeur Krialys https://krialys.com/ avec sa solution Orkestra data.
Source : https://medium.com/the-future-of-data/data-molecule-future-of-data-9eb7d3413e5b
3) Autre métaphore : capsules de données
Source : https://medium.com/@arrufus/data-capsules-ship-data-and-metadata-as-a-single-unit-7fd3f56f6641
Reconnaître les données comme un actif économique et juridique : l’initiative conjointe DCAM et l’Ile de Man
L’initiative « The Isle of Man’s Data Asset Foundations initiative aims to change that narrative. By establishing the world’s first statutory framework to define data as an asset and embed governance directly into law, the Data Asset Foundations’ program offers a playbook for how jurisdictions can unlock data’s full potential. » – lien https://www.digitalisleofman.com/data-asset-foundations/pilot-foundations/
« Despite trillions of dollars flowing through data-driven business models, data itself remains largely invisible on balance sheets. ».
Les 5 piliers de l’initiative : 1) Un cadre juridique 2) Un registre des actifs de données – intégrant la propriété, la provenance, la qualité, les droits associés aux données 3) Une évaluation standardisée des données 4) Une gouvernance intégrée – modèles DCAM – CDMC 5) Une plate-forme de distribution
Comparaison avec d’autres approches :
Les fiducies de données protègent les intérêts des bénéficiaires, mais ne possèdent pas la personnalité juridique.
Les coopératives sont démocratiques, mais manquent de flexibilité pour les opérations de données à grande échelle.
Les unions de données Web3 sont innovantes, mais se heurtent à d’importants obstacles réglementaires et de protection de la vie privée.
… et si vous vous logiez à l’Ile de Man ?!
Source : https://tdan.com/eyes-on-data-valuing-data-with-data-asset-foundations/33090
Self-service data : sauvé par les agents data analytics, excel reste le maitre, remise en cause des équipe BI … arrivée de ChatGPT, doute sur les résultats du self data
1) Le self-service data a échoué est-ce que les agents data analytiques vont réussir ?
Les obstacles du self-service : le contrôle d’accès, la complexité des outils et l’expertise associée (exemple SQL) – terminologie du décisionnel, compréhension – sens des données.
Les agents IA : « maîtrise » SQL, avec le bon contexte peuvent produire des analyses pertinentes, la complexité d’accès est réduite (chat)
« The Real Bottleneck in Enterprise AI Isn’t the Model, It’s Context » -> usage de MCP
Et toujours la question du contrôle des agents (validité des requêtes SQL – hallucinations).
Source : https://thenewstack.io/self-service-analytics-failed-can-agentic-ai-finally-succeed/
Et aussi : du data mesh à l’agent mesh pour accélérer la réponse aux besoins d’analyse
« From Data Mesh to Agentic Mesh: How Business Questions Become Self-Serve Insights »
« One of the most common frustrations in data-driven organizations is the wait time. ».
Le data mesh comme première étape en proposant des moyens data au plus proches des domaines métier : data product et data contract, gouvernance fédérée (métadonnées), infrastructure commune, outils en self data.
L’idée est de confier l’usage de ces moyens data à des agents IA interrogeables par un mode conversationnel.
2) Quand excel est surboosté par l’IA
L’IA facilite encore plus l’utilisation d’excel en permettant des traitements complexes, auparavant réservés aux experts. La prolifération d’excel s’en trouve accentuée … avec les qualités (le seul outil de self data ayant fait ses preuves) et défauts associés (par exemple de gouvernance).
Un tableau de bord c’est lent ! Excel c’est rapide.
Il faut savoir intégrer excel dans sa stratégie data (a minima dans l’offre BI).
Source : https://seattledataguy.substack.com/p/own-the-spreadsheet-own-the-world
3) Et quand les équipes BI se remettent en cause
La BI efficace : lorsqu’elle est basée sur des processus de décision (explicites) versus la mise à disposition de tableau de bord sans aller plus loin (avec une mesure de succès erronée : le nombre de tableaux de bord déployés).
Le self data se banalise : « ChatGPT écrit du SQL. Claude crée des tableaux de bord. L’IA génère des informations à partir des données en quelques secondes. Toute la couche technique — écriture de SQL, modélisation des données, création de tableaux de bord — est en train de se banaliser. »
Le point critique (on enfonce une porte ouverte) : se soucier des décisions (à qualifier : quelles décisions importantes, quoi mesurer, quelles questions) et non des outils.
4) Quel est le bon tableau de bord ?
Le décisionnel est frappé du problème de multiplication des KPI, reporting et souffre du problème de similarité – plusieurs tableaux de bord sur le même objet avec des logiques différentes, des indicateurs de quasi même nom, des données sources identiques mais issues de copies différentes…
Le résultat un climat de doute, de conflit (qui a les bons chiffres ?) et des décisions mauvaises.
Et la self BI n’a fait qu’accentuer la chose … « chacun fait ce qu’il lui plait… » ! Et l’IA analytique + text to SQL – va en rajouter une couche.
Dans le data management : à prévoir le nettoyage continu des similarités, redondances. Source : https://tdan.com/similar-bi-reports-the-silent-killer-of-analytics/33055
Sur le text-to-SQL : source https://tdan.com/democratizing-data-with-text-to-sql-how-natural-language-is-unlocking-enterprise-intelligence/33039
Interopérabilité sémantique : l’exemple des data spaces
Interopérabilité sémantique dans le cadre des data spaces (https://internationaldataspaces.org/ ).
Publication d’un position paper sur l’interopérabilité sémantique.
Table des matières :

Les types d’interopérabilité vus par l’ISO

Et cela rentre dans un cadre plus large : The European Trusted Data Framework.
L’ensemble des normes est attendu d’ici fin 2027.
Source : https://internationaldataspaces.org/towards-a-trusted-european-data-sharing-framework/
Investissement dans une infrastructure nationale de données de recherche : la mission Gemini aux US
Rappel : l’objectif de Gemini est de mettre en place une infrastructure permettant de connecter les différents espaces de recherche scientifique afin d’accélérer l’accès aux données pour accélérer les innovations par l’IA.
Le défis, ouvrir, interconnecter, tout en protégeant les différents silos de données de la recherche.
Avec toujours comment traiter les données conçues par un centre de recherche pour d’autres centres.
NB : sujet connu – voir l’idée d’infrastructure de connaissance de R. Edwards https://www.tandfonline.com/doi/full/10.1080/17439884.2015.1006131 et la vue infrastructure de données reprise par R. Kitchin et C. Borgman.
A suivre…
Data mesh
1) Le data mesh est mort
Plusieurs articles sur le sujet (à venir j’en ai aussi vu passé en décembre).
A prendre avec précaution. Avec des erreurs d’appropriation et de compréhension du data mesh.
Exemple : une décentralisation, sans langage commun, sans identifiants – référentiels communs, sans normes – politiques communes, voire sans infrastructure commune.
Des produits de données sans les penser au sein d’un maillage (la maillage est souvent le grand oublié dans les démarches data mesh – on crée des briques mais on travaille moins leur interaction – coopération).
Rappel : le data mesh n’est pas une décentralisation pure.
L’adoption du data mesh par Décathlon – source : https://www.lemagit.fr/etude/Decathlon-en-pleine-ascension-Data-Mesh-et-Data-Products
2) Un REX d’Octo : « Du dataset jetable au data product pérenne : comment le data mesh transforme notre rapport à la donnée »
Recueil des exigences (par un business analyst) – cas de la constitution d’un dictionnaire de données
Proposition d’un template d’analyse – Requirements-Friendly Data Dictionary (RFDD) – https://www.modernanalyst.com/Resources/Templates/tabid/146/ID/7116/Requirements-Friendly-Data-Dictionary-Template.aspx
Modélisation des données – cas du comptage et de l’agrégation
Comment modéliser les données de comptage, d’agrégation : définition de l’ensemble compté, comptage continu ou discret, suivant quel contexte (une période par exemple, ou telle définition de ce qu’est un client), en agrégat – quelle données regroupées – choix de regroupement (filtrage, granularité) – maintien de l’intégrité de regroupement – attention aux doubles comptages… NB : à se rappeler nos cours de math sur la théorie des ensembles.
Source : https://practicaldatamodeling.substack.com/p/fundamentals-of-aggregations
Tout peut-il être sous forme de données ?
Dans la suite revue octobre : https://www.datassence.fr/2025/11/20/revue-data-du-mois-octobre-2025/#_ftn5
1) Dataifier la douleur – source : https ://danslesalgorithmes.net/stream/objectiver-la-douleur/
2) Quantification du désir dans le luxe
A la recherche des signaux du désirs dans les données du luxe.
Source : https://www.journalduluxe.fr/fr/business/ia-data-dilemme-luxe-livetrend
3) La confiance est centrale, peut-on la mesurer ?! … et faire aussi confiance à la mesure
L’auteur de l’article propose le Leadership Trust Index (LTI) – « The LTI assesses leadership behaviors linked to trust using a model known as the Nine Habits of Trust, which include traits such as openness, honesty, humility, and the ability to inspire. ». Mesure de la confiance par l’évaluation de comportements de leadership. Source : https://hbr.org/2025/11/if-trust-is-so-important-why-arent-we-measuring-it
Vrac (Evolution du RGPD pour l’IA, Lidl se lance dans la course aux data centers, La roadmap du Health Data Hub européen, critique du DAMA, données d’identité)
1) Evolution ou remise en cause du RGPD au nom de l’IA
Source : https://www.lebigdata.fr/reforme-du-rgpd-votre-vie-privee-sacrifiee-au-nom-de-lia
2) La course aux data center – l’exemple Lidl
3) La roadmap du Health Data Hub européen
Source : https://www.silicon.fr/cloud-1370/health-data-hub-europeen-224557
4) Critique du DAMA
Source : https://medium.com/analysts-corner/whats-wrong-with-the-dama-wheel-b080ccb327ac
Voir aussi – revue d’été https://www.datassence.fr/2025/09/23/revue-data-du-mois-juillet-et-aout-2025/#_ftn33
5) Les données d’identité – les données les plus sensibles
Et avec l’IA générative le danger un grandissant : copie de ses productions sur internet (exemple cas d’artistes, journalistes), mais aussi basiquement copie de pièce d’identité et production de fausse pièce avec une vraie identité volée… Et le RGPD n’apporte rien.
Source : https://danslesalgorithmes.net/stream/de-limpunite-du-vol-didentite/
RDV maintenant en janvier pour la revue et les actualités de décembre.

Les commentaires sont fermés.