Dernière modification le 25 mars 2026
Ce mois de février, la suite des traditionnelles prédictions 2026 et des thèmes récurrents : data et IA, data architecture et analytic, data poisoning, guerre et pouvoir des données, collectes des données, ouverture des données, modélisation, monétisation des données, gouvernance, la course au sens des données et la représentation de leur contexte.
Un zoom sur les données de la vision de nos amis UK.
Un zoom sur les données d’identité (stratégiques).
Une analyse de la couverture de PurView du DMBOK DAMA.
Ce mois de février, s’il y a un seul article de fond à lire c’est celui-ci de Danah Boyd.
Sur le pouvoir des données.
Avec la perspective d’un futur ouvrage : « Data Are Made, Not Found – A Story of Politics, Power, and the Civil Servants Who Saved the US Census ».
Sources : https://made-not-found-by-danah-boyd.ghost.io/fake-data-upcoming-book-and-the-political-economy-of-ai/ et https://arxiv.org/abs/2602.10944 et https://press.uchicago.edu/ucp/books/book/chicago/D/bo277581183.html
Voir aussi sur le pouvoir des données – l’actualité du mois : https://www.datassence.fr/2026/03/24/revue-data-du-mois-fevrier-2026/#_ftn1
Un autre événement intéressant ce mois de février, la publication de la stratégie nationale de lutte contre les manipulations de l’information
Quelques éléments en lien avec les données :
- L’IA comme source d’information (à partir de ses données d’apprentissage) – et des manipulations possibles et comment les contester
- Eduquer aux données
- Le volet data du DSA à l’échelle de l’Europe
- Les données comme outils pour contrer les manipulations
Et ce qui est pour moi le plus important – dans les fondations : « OBJECTIF STRATÉGIQUE 8. TARIR LE FINANCEMENT DES INGÉRENCES NUMÉRIQUES ÉTRANGÈRES EN RENFORÇANT LA TRANSPARENCE DES SYSTÈMES DE PUBLICITÉ ET DE MONÉTISATION DES PLATEFORMES ».
Rendre transparent le modèle économique et son application (qui finance quoi, traçabilité des flux publicitaires…), par le partage des données de monétisation des contenus et publicités associées.
Voir aussi le thème sur la traçabilité des financements (par la pub) des contenus : https://www.datassence.fr/2026/03/24/revue-data-du-mois-fevrier-2026/#_ftn5
Et toujours une liste de pas mal de notes de lectures au fil de l’eau.
A piocher en fonction de vos centres d’intérêt.
Sommaire :
- Guerre et pouvoir des données
- La data de nos amis UK
- Collecte de données (dilemme sur les données privée, automatiser un service c’est ouvrir la vanne des données – cas de la facturation électronique, louer son corps, lifelogging boosté par l’IA, collectivisation des capteurs, Exemple de la collecte des casinos en ligne, la toile de collecte de Tiktok, l’exemple Google Maps, collecte de cas mineurs, collecte à partir de vidéos)
- Les données d’identité (le marché, le problème de la vérification, fin de l’anonymat par les LLM, dérapages des systèmes de vérification, couts de l’usurpation d’identité)
- Traçabilité des financements (par la pub) des contenus
- Data poisoning
- Ouverture des données
- DAMA – Couverture de Purview (Microsoft)
- Data modélisation
- Data et IA : données tabulaires, effondrement des modèles, la sous-estimation des données de feedback pour les moteurs d’I.A., le problème du contexte)
- Data architecture (suite des tendances, le mythe de la centralisation, data product stratégie, techniques de masquage de données, le graal de l’accès aux données, data spaces et intégration des données)
- Gouvernance des données
- La course au sens des données
- Vrac (Souveraineté des données, Zuckenberg ignore le génie logiciel, fragilité des environnements de données, classification des données – cybersécurité, how to Be a Data Shaman, Données virtuelles – synthétiques, monétisation des données)
Guerre et pouvoir des données
1) Gel des données
Dans la guerre des données, le fait de couper les accès, ou les mises à jour de bases de données devient une arme.
Ici l’exemple des données liées à la vaccination aux U.S. et la posture anti vaccinale du Ministre de la Santé.
2) Dans la suite de la guerre des données : L’ICE peut exiger vos données de Google sans mandat
Le Département de la Sécurité intérieure peut exiger des données des entreprises technologiques sans autorisation judiciaire.
Source : https://boingboing.net/2026/02/06/ice-can-demand-your-data-from-google-without-a-warrant.html
3) Sous l’œil des autorités U.S.
Tout email google peut faire l’objet d’une assignation administrative de récupération des données personnelles. A lire l’histoire. Et la question de la souveraineté est posée.
Et aussi chez Meta, Amazon, Discord, Reddit… https://gizmodo.com/reddit-meta-and-google-voluntarily-gave-dhs-info-of-anti-ice-users-report-says-2000722279
4) Le pouvoir de classer
Titre de l’article « Votre vie, notée : comment les indicateurs déforment votre perception du sens
Que représente un chiffre ? Une infime partie de votre vie, en réalité.
Les données rétrécissent la vie »
A propos de l’ouvrage du philosophe – C. Thi Nguyen’s latest book,The Score – https://www.penguinrandomhouse.com/books/735252/the-score-by-c-thi-nguyen/
Une réflexion sur les indicateurs.
Qui prennent de plus en plus de place et nous influencent.
Mais qui effacent une part de l’information (qualitative) : contextuelle, nuances, expérience vécue.
Ils permettent de classer – extraits « The rankings ironed out this complex and multidimensional decision-making and flattened it into a “single dimension”: Which school was “the best”? »
Et cela entraîne une boucle de valeur dont le centre de gravité devient le score permettant le classement.
« In the process, Nyugun writes, students began to outsource their unique needs and “adopt a prefabricated value system.” And to make themselves more appealing to would-be students, law schools followed suit and began prioritizing the ranking’s values as well. The result? Values flattened, losing richness and diversity, and a value monopoly emerged.
“If we depend on metrics to tell us what’s important, then we’re erasing a huge amount of human value and hyper-focusing on a thin slice,” Nguyen says. »
Source : https://bigthink.com/books/the-score/
Et sur les métriques une réflexion technique (métrologie d’entreprise).
« A framework for making sense of metrics in technical organizations ».
Source : https://mbernste.github.io/posts/metrics/
5) Etablir des frontières numériques qui vous suivent partout
« The Seamless Surveillance Machine: Europe’s Biometric Border Vision »
Quand la frontière connait tout de vous, au-delà de votre identité.
Quand la frontière n’est plus que physique, géographique mais se retrouve partout (biométrie mobile).
Jusqu’à en confier le contrôle à l’IA.
« If the border follows you everywhere, have borders disappeared – or become inescapable? ».
NB : le concept de frontière mobile pour de la surveillance globale ?!
Source : https://algorithmwatch.org/en/seamless-surveillance-machine-europes-biometric-border-vision/
La data de nos amis UK
1) Un constat au Royaume Unis, malgré une politique favorable à l’open data, les données ouvertes restent peu utilisables, en particulier pour l’IA : normes incohérentes, faible interopérabilité et documentation lacunaire. Voir le rapport de l’open data institute : https://theodi.org/insights/reports/the-uk-government-as-a-data-provider-for-ai/ qui montre que les données gouvernementale sont peu prises en compte par les moteurs d’IA.
« Par conséquent, les réponses générées par l’IA aux questions des citoyens concernant les services publics pourraient dépendre davantage de données tierces que des sources gouvernementales officielles. »
Avec les risques de fiabilité inhérents (hallucinations du fait de ne pas s’appuyer sur les données sources gouvernementale) et aussi de ne pas apparaître dans les références en réponse à des questions posées aux LLM.
Le rapport préconise : de permettre l’accès aux données via les protocoles du monde de l’IA (exemple MCP non évoqué ou évoqué – le rapport date de 2024, le format Croissant de Google, « a machine-readable metadata format specifically designed for machine learning » https://research.google/blog/croissant-a-metadata-format-for-ml-ready-datasets/ ) ou plus simplement les rendre compatible au crawling (voir https://commoncrawl.org/ ), d’améliorer les métadonnées, rendre les données interopérable, investir dans des benchmarks et protocoles d’évaluation pour mesurer l’impact des données gouvernementales sur l’IA.
Source : https://www.ukauthority.com/articles/what-sort-of-data-nation-does-the-uk-want-to-be
2) A mettre en parallèle de l’annonce « Le Conseil national des chefs de police (NPCC) a annoncé la mise en place d’un nouveau service de données centralisé destiné à rationaliser le partage d’informations entre les 43 forces de police d’Angleterre et du Pays de Galles. »
Avec toujours les mêmes idées de fond : décloisonner les données pour disposer d’une vision globale (pour identifier les tendances, évoluer vers un modèle proactif).
Source : https://www.ukauthority.com/articles/police-chiefs-develop-new-centralised-data-service
3) L’Ecosse se lance dans la cartographie LIDAR de son territoire
La technologie permet une cartographie en 3D (relief et constructions, végétations au sol), en haute résolution (mesures d’altitude à une résolution centimétrique environ 100 fois plus précises que les cartes topographiques standard).
Les données sont sous licence ouverte : remotesensing.gov.scot
Dans les finalités : le suivi des objectifs relatif au climat, les inventaires, la surveillance des risques
Source : http://www.ukauthority.com/articles/scottish-government-releases-first-dataset-from-lidar-programme
4) Effort de protection des données personnelles
« Afin de soutenir l’ambition du gouvernement d’améliorer la coordination des services, le Bureau du directeur du numérique (OCDO) a publié les principes pour la sécurisation des données personnelles dans les services publics https://www.gov.uk/guidance/principles-for-securing-personal-data-in-government-services »
Avec 10 principes – traduction Google :
- Anticipez les incidents et prévoyez votre réponse avant qu’ils ne surviennent : mettez en place des plans robustes pour détecter, gérer et vous remettre rapidement et efficacement de tout incident de données.
- Minimisez l’exposition des données lors du partage – ne partagez que les données personnelles réellement nécessaires à la finalité spécifique.
- Sécurisez votre chaîne d’approvisionnement – assurez-vous que vos fournisseurs et partenaires tiers respectent des normes de sécurité équivalentes lorsqu’ils traitent des données gouvernementales.
- Traiter les données de manière licite et éthique – gérer les données personnelles conformément aux exigences légales et aux attentes éthiques, avec une justification claire de leur utilisation.
- Sachez qui possède vos données et qui en est responsable – établissez une responsabilité claire pour chaque ensemble de données, y compris en ce qui concerne sa protection et sa gouvernance.
- Appliquer les contrôles de sécurité appropriés – adapter les mesures de sécurité à la sensibilité et à l’ampleur des données protégées.
- Renforcez la confidentialité lors de la combinaison de sources de données – utilisez des techniques de préservation de la vie privée lors de la liaison d’ensembles de données afin de protéger les identités individuelles.
- Utilisez des identifiants appropriés lors de la mise en correspondance des données – traitez les identifiants personnels avec soin et proportionnalité.
- Tenez compte des besoins de chaque individu – veillez à ce que les mesures de sécurité prennent en compte tout le monde, y compris les personnes qui peuvent se trouver en situation de vulnérabilité.
- Assurez-vous que votre équipe possède les compétences et les autorisations requises – le personnel traitant des données personnelles doit bénéficier d’une formation appropriée, d’une expertise et des autorisations de sécurité nécessaires à son poste.
Source : https://dataingovernment.blog.gov.uk/2026/02/27/securing-personal-data-across-government/
Collecte de données (dilemme sur les données privée, automatiser un service c’est ouvrir la vanne des données – cas de la facturation électronique, louer son corps, lifelogging boosté par l’IA, collectivisation des capteurs, Exemple de la collecte des casinos en ligne, la toile de collecte de Tiktok, l’exemple Google Maps, collecte de cas mineurs, collecte à partir de vidéos)
1) Une discussion sur le dilemme de la collecte des données privée biométriques et de santé
Difficile pour les chercheurs d’accéder à des données complètes et surtout contextualisées biométriques et de santé.
Lorsqu’ils accèdent aux données, le contexte s’est délité. Le temps a emporté les traces des choix de leurs collecteurs, détaché leurs finalités d’origine.
Les conséquences sont fortes, complexité d’interprétation des données, biais et trous de représentation éliminant certaines populations, dimensions analytiques absentes, erreurs IA mal entraînées.
On parle de données privée. Pour résoudre le problème éthique, de méfiance dans la récupération de ces données, des chercheurs envisagent une unité mobile de collecte de données connectées aux réseaux sociaux.
D’autres exploitent les vidéos en ligne pour détecter des signes précurseurs de maladie (par exemple à partir des mouvements des nourrissons) – voir le dossier sur le sujet ici : https://issues.org/redesigning-motion-capture-sustems-sloane-jacobs-moss/
Comment résoudre ce problème de collecte de données ?
L’article évoque l’initiative « Réseau américain pour la souveraineté des données autochtones » – https://usindigenousdatanetwork.org/ . Où la souveraineté des données est centrale, encadrée (gouvernée).
Source : https://issues.org/data-collection-sloane-jacobs-moss-forum/
2) Collecte au travers d’une automatisation
Tout processus qui s’automatise ouvre les vannes des données.
Voir l’exemple de la facturation électronique.
A voir quelle stratégie de données au-delà de la simple automatisation ? Cité dans l’article : les nouveaux outils d’analyse par Bercy – extrait « Selon celle-ci, au-delà des aspects fiscaux, ces données permettront d’éclairer, en temps réel, l’état de l’économie française. « Ce sont des données que nous n’aurons plus besoin de commander à des tiers, précise Amélie Verdier. ».
Et aussi le renforcement du pouvoir des intermédiaires comme les experts comptables qui pourront proposer des services d’optimisation à leur client – à partir de leurs données mais aussi à partir de la vision consolidée d’ensemble d’entreprises (positionnement d’une structure par rapport aux organisations comparables du même secteur).
Les vannes ouvertes vont susciter beaucoup d’appétit et faire bouger les lignes de pouvoir (Entreprises, Etat, Experts comptables, FinTech… et autres startup purement data se positionnant comme nouveaux intermédiaires).
3) Louer son corps
Une blague … mais dans la logique perte de notre anthropomorphisme centric (l’humain n’est plus le centre du monde !).
Proposer son corps à des agents IA qui ne peuvent pas intervenir physiquement.
Et cela peut commencer à louer son corps pour fournir des données d’apprentissage.
Voir le site à l’origine de cela : https://rentahuman.ai/bounties
4) Lifelogging boosté par l’IA
Dans l’esprit du lifelogging (qui date déjà), la capture de notre environnement dopée à l’IA. Un collier qui capture votre environnement sonore en permanence ainsi que vos paroles, silences, hésitations…
Avec en regard, la surveillance que cela induit vis-à-vis de l’entourage et la capture de notre intimité.
Source : https://www.lebigdata.fr/friend-cest-quoi-ce-collier-ia-quon-voit-partout-dans-le-metro-a-paris
5) Collectivisation des capteurs
Quand une sonnette avec caméra connectée (Amazon Ring) se répand, le tout forme alors un réseau de surveillance qui peut être dopé à l’IA. Ici pour retrouver un chien perdu en mobilisant le réseau des sonnettes du voisinage (mais rien n’interdit pour reconnaître une personne).
NB Toujours le même pattern : un dispositif de collecte, qui se répand, le tout formant un système par son fournisseur, dopé à l’IA et permettant de proposer des services non plus à l’échelle du dispositif mais à l’échelle du système.
Et cela peut être aussi servir des actions gouvernementales : « Amazon has also been accused of at least some degree of participation with ICE’s ongoing mass deportation efforts. In October, Amazon-owned Ring announced a partnership with Flock that would loop the AI-powered network into the content coming from users’ doorbell cameras. According to a 404 Media investigation, that network feeds information to law enforcement agencies at the local and federal levels, allowing for reasonable concern that ICE has access to all that footage. » – https://gizmodo.com/reddit-meta-and-google-voluntarily-gave-dhs-info-of-anti-ice-users-report-says-2000722279
Source : https://www.numerama.com/tech/2176075-amazon-ring-devoile-une-technologie-pour-retrouver-les-chiens-perdus-et-declenche-une-polemique.html et https://flowingdata.com/2026/02/12/ring-cameras-as-large-scale-surveillance-system/
6) Exemple de la collecte des casinos en ligne
Tout interaction avec une application, un site web est une source de capture de données.
Ici les casinos en ligne : « les jeux les plus consultés, les horaires de connexion, les montants moyens misés, la durée des sessions, et même les schémas de navigation sur le site. ».
Sans parler des données d’identité pour se connecter : « votre nom, votre adresse, vos données bancaires ».
Avec les préoccupations habituelles, de sécurité, de confidentialité, de confiance…
7) Comment Tiktok collecte des données sur vous, même si vous n’êtes pas sur Tiktok
Comment : via un réseau gigantesque de sites / applications partenaires, qui hébergent un minuscule élément de code nommé « Pixel TikTok » qui permet de capter les événements d’interaction avec ces partenaires, vous suivre à la trace (entre sites) au profit de Tiktok, via les serveurs Bytedance.
Exemples de données collectées : « votre présence sur le site en localisant votre IP et analyse votre configuration d’ordinateur, votre type de connexion, vos clics, le temps passé sur x ou y section, les survols de souris, les métadonnées d’achat si vous payez un produit…jusqu’à des données saisies dans des formulaires »
Derrière cela se cache directement le contrôle d’un réseau tentaculaire de collecte de données à des fins publicitaires (vous cataloguer de la façon la plus précise) et indirectement venant de Chine … une possible surveillance globale.
Tiktok n’est pas seul Meta Facebook et Google ont aussi leurs propres dispositifs.
Se protéger ? Voir les solutions proposées en fin d’article.
Source : https://www.presse-citron.net/comment-tiktok-recolte-donnees-personnelles-quand-netes-tiktok/
8) L’exemple Google Maps
« Avec plus d’un milliard d’utilisateurs actifs mensuels, Google Maps est devenu une plateforme infrastructurelle ( Plantin, 2018 ) pour une navigation éclairée. Cette technologie en constante évolution ( McQuire, 2019 : 153) est mise à jour en continu grâce aux données en temps réel de son réseau de Guides locaux. Ces Guides locaux sont des personnes participant au Programme des Guides locaux, lancé en 2015 et qui s’est depuis transformé en un système ludique à part entière, où les utilisateurs ajoutent volontairement des informations aux cartes. Outre des récompenses virtuelles, les participants peuvent occasionnellement recevoir des avantages concrets. En 2024, ce système incitatif avait permis de fédérer une communauté mondiale dynamique de plus de 150 millions de Guides locaux ( Ellis, 2024 ). »
Source : https://journals.sagepub.com/doi/abs/10.1177/20539517261421477
9) Collecte de cas mineur – sous déclarés
Article qui explore la collecte des données liées aux catastrophes (changement climatique).
Exemple de la base de données EM-DAT (Emergency Events Database) mais qui exclut les catastrophes de moindre ampleur.
Pour combler cette lacune, l’article présente un processus et un outil d’extraction de sources web à partir de modèles LLM. Testés sur les inondations à Grenade.
Afin de fournir une vision plus complète aux décideurs.
Source : https://link.springer.com/article/10.1007/s41060-025-01017-1
10) Collecte à partir de vidéos
Capture de données
« Jusqu’à présent, il n’existait aucune solution spécifiquement conçue pour convertir des bibliothèques vidéo non structurées en ensembles de données structurées adaptés à l’entraînement de l’IA à très grande échelle. Versos AI https://www.versos.ai/
Des métadonnées relatives aux droits sont ensuite associées à chaque segment indexé afin de garantir la clarté et la conformité des licences.
Mais voici ce qui devient évident : les données constituent le véritable avantage concurrentiel . Chaque laboratoire utilise un matériel informatique quasiment identique : mêmes puces Nvidia, mêmes types de puissance de calcul. Et même si une équipe parvient à une avancée majeure dans le domaine des algorithmes, ces progrès se diffusent rapidement à mesure que d’autres les adoptent et les perfectionnent. Avec le temps, les méthodes d’apprentissage convergeront.
Ce qui ne convergera pas, ce sont les données. Les données uniques et de haute qualité sur lesquelles chaque entreprise s’entraîne constitueront son véritable avantage concurrentiel — la différence entre un modèle qui se contente d’imiter le monde et un modèle qui le comprend réellement.
Les données d’identité (le marché, le problème de la vérification, fin de l’anonymat par les LLM, dérapages des systèmes de vérification, couts de l’usurpation d’identité)
1) Le marché de la vérification d’identité
Nos identités sont des cibles.
Pour les cybercriminels, comme pour les acteurs du logiciels et des plates-formes.
Un marché se dessine. Et des acteurs privés se positionnent.
Ici l’interview du fondateur de la société Veriff https://www.veriff.com/
Extrait : « Aujourd’hui, les documents gouvernementaux restent la référence pour prouver son identité, car aucune alternative n’égale encore ce niveau de confiance. Pour autant, ces documents restent très statiques et les passeports restent, dans les faits, assez inégaux. Notre objectif est de construire un modèle de confiance plus fiable permettant de vérifier l’identité d’une personne. A terme, ces passeports numériques seront ainsi délivrés par Veriff, et non plus seulement par les gouvernements. »
Et reproduire l’exemple de ce qui se fait en Estonie.
NB : les données d’identité sont les plus sensibles qui puissent exister. Elles devraient relever de services de l’Etat. Il en existe (France Connect) mais il ne semble pas avoir de stratégie globale gouvernementale sur le sujet, ni de solutions complète – verticale ? Les confier au secteur privé, c’est se tirer une balle dans le pied.
Source : https://www.journaldunet.com/cybersecurite/1547699-kaarel-kotkas-ceo-de-veriff/
2) A voir aussi sur le sujet tous les débats sur la vérification de l’âge. A lire en particulier (vu en mars) : https://danslesalgorithmes.net/2026/03/10/persona-la-verification-dage-ne-verifie-pas-que-votre-age/ et https://www.lebigdata.fr/plus-de-400-experts-reclament-larret-du-controle-dage-sur-internet
Avec les dérives de détournement par les acteurs privés (voir l’exemple Discord présenté par H. Guillaud – et l’usage de la solution privée Persona https://withpersona.com/ ).
3) Fin de l’anonymat par les LLM
les grands modèles de langage (LLM) sont capables de désanonymiser des comptes en ligne à grande échelle
Etude : https://arxiv.org/pdf/2602.16800
La méthode – extrait :
« Concrètement, les chercheurs ont construit une méthode d’analyse en quatre étapes baptisée ESRC (Extract, Search, Reason, Calibrate) :
- Extract : le LLM lit les posts d’un utilisateur anonyme et en extrait un profil structuré : démographie probable, centres d’intérêt, style d’écriture, détails biographiques glissés involontairement.
- Search : le profil extrait est ensuite converti en une représentation mathématique, puis comparé à une base de données pouvant contenir des milliers, voire des millions de profils réels pour identifier les candidats les plus proches.
- Reason : un autre LLM analyse la shortlist et raisonne : est-ce que ce compte LinkedIn pourrait correspondre à cet utilisateur Reddit ? Il évalue les concordances, les contradictions, et formule une conclusion.
- Calibrate : le système attribue alors un score de confiance à chaque correspondance trouvée qui fait office de curseur. Avec un seuil élevé, le système ne valide une identité que lorsqu’il est quasi certain de son résultat, quitte à laisser passer certaines cibles. Un seuil plus bas permet d’identifier davantage de personnes, au prix de quelques erreurs. »
4) Quand les systèmes de vérification d’âge dérapent : finalités autres (surveillances, scoring), risques (faille critique du SPOF – single point of failure – de nos données essentielles … notre identité)
Car le problème n’a jamais été de savoir quelle entreprise détient vos données biométriques. Le problème, c’est que l’on soit contraint de les fournir. Source : https://www.techdirt.com/2026/02/25/hackers-expose-the-massive-surveillance-stack-hiding-inside-your-age-verification-check/
5) Couts de l’usurpation d’identité
« Suite à une enquête de Markup, le Congrès constate que les courtiers en données coûtent aux consommateurs des dizaines de milliards de dollars.
Une enquête du Congrès estime que les violations de données commises par les courtiers ont coûté 20 milliards de dollars aux consommateurs en raison d’usurpations d’identité. Les principaux courtiers promettent désormais de simplifier la procédure de désinscription de leurs bases de données. »
Traçabilité des financements (par la pub) des contenus
Une solution de fond ? Rendre transparent qui finance quoi ? La publicité est le modèle central économique.
Si on rend transparent quelles publicités de qui apparaissent en face de tels contenus peut être que cela va induire une régulation naturelle ? Tel financeur n’aura peut-être pas envie d’apparaître auprès de tel contenu. Maintenant, l’opacité des mécanismes d’achat et de vente publicitaire ne facilitent pas cela.
Le fond du problème est économique.
Et c’est analysé ici :
- La récolte invisible des données (traces, traqueurs, capteurs, cartes de fidélité…)
- La vente aux enchères en continu de nos profils issus des données collectées
- Les acheteurs de profils et pas uniquement des annonceurs mais aussi des places de marché (data brokers)
- Comment récupérer sa vie privées ? (navigateurs dédiés, blocage de trackers…)
Source : https://medium.com/write-a-catalyst/the-shocking-truth-how-companies-sell-your-data-4ae99451a24c
A rapprocher aussi du sujet de la vérification d’identité (voir thème précédent).
Où aussi le fond du problème est économique.
En anticipation du mois de mars à lire ceci : https://repost.hypotheses.org/21203
« Dans une note du MIT de 2024, quelques mois avant de recevoir le Nobel d’économie, Daron Acemoglu et Simon Johnson ont ainsi appelé à l’urgence de taxer la publicité numérique. L’enjeu : casser cette économie toxique, contraindre les Big Tech à imaginer d’autres modèles d’affaires et réouvrir la possibilité d’innover au travers de plateformes différentes. »
Et cela est dit depuis un moment : https://shapingwork.mit.edu/research/the-urgent-need-to-tax-digital-advertising
Via : https://danslesalgorithmes.net/2026/03/10/persona-la-verification-dage-ne-verifie-pas-que-votre-age/
Avec en lien avec les dispositifs de captures de données et la vérification d’identité. Voir aussi les exemples cités dans l’article de Hubert Guillaud : Linkedin et le dispositif Persona (voir thème précédent).
Data poisoning
1) Comment détecter l’empoisonnement des modèles d’IA ?
Via des données d’entraînement empoisonnées.
Avec des stratégies sophistiquée d’empoisonnement, comme installer une porte dérobée déclenchable sur instruction d’un prompt particulier, via la modification des poids d’entraînement.
Microsoft propose une première tentative de scanner pour identifier des signaux d’empoisonnement (de falsification). Par exemple des réponses restrictives sans rapport à la question posée.
Le scanner marche pour des modèles à poids ouverts (élimine de fait les modèles propriétaires).
Le sujet reste complexe à traiter.
Source : https://www.zdnet.com/article/ai-model-poisoned-warning-signs/
2) Une réflexion technique sur l’injection de portes dérobées (données empoisonnées) dans les LLM
Et les conséquence possibles – extrait : « As a random example, it would be good to understand the threat of poisoning a model so that it (a) has a malicious behaviour, (b) hides this behaviour during evals and (c) strategically tries to propagate this behaviour into its successor. ».
3) Et aussi : https://www.lesswrong.com/posts/2xsNRcwLdLNp6z5bv/pre-training-data-poisoning-likely-makes-installing-secret
Ouverture des données
1) Open data et élections municipales
Open Data France propose un manifeste d’utilisation des données pour les programmes des candidats.
Avec cinq engagements pour transformer l’action municipale.
- Faire de la donnée le socle de l’action publique locale…
- Promouvoir les communs numériques en ouvrant les données utiles à l’innovation locale et à la transparence…
- Donner aux collectivités les moyens d’agir par des financements adaptés, une mutualisation des compétences et la formation des élus et agents aux enjeux de la donnée…
- Affirmer une gouvernance territoriale en utilisant les données pour éclairer les décisions et en participant aux dispositifs nationaux de gouvernance de la donnée…
- Renforcer la coordination multi-niveaux en inscrivant l’action municipale dans une coopération active avec l’intercommunalité, la région, l’État et l’Europe.
A lire le manifeste complet ici.
Source : https://opendatafrance.fr/manifeste-municipales-2026/
2) De l’accès aux données (quasi) ouvert à un accès fortement restreint : l’évolution des politiques de Twitter/X pour les développeurs. Source : https://journals.sagepub.com/doi/full/10.1177/20539517261419333
3) Actualité – la France reste leader dans l’open data
DAMA – Couverture de Purview (Microsoft)
Le rapprochement entre Purview (Microsoft – vision tool kit) et le cadre du DAMA (DMBOK – vision blue print) – https://dama-france.org/.
La couverture de Purview des principes du DMBOK– source l’auteur https://www.linkedin.com/in/edmond-yau

A lire l’article qui détaille la couverture fonctionnelle de Purview et propose des alternatives quand Purview ne répond pas. Source : https://medium.com/@edyau/we-mapped-microsoft-purview-to-every-dmbok-knowledge-area-heres-what-we-found-cbefd7b73517
Data modélisation
Quelques leçons … n fois vécues et de bon sens.
1) Le piège classique de croire que la maîtrise technique de l’art / théorie de la modélisation va tout résoudre. Le contact avec les équipes métiers est un challenge : conceptualisation, abstraction incomprises, rigueur conceptuel non adaptée à la réalité, incapacité (est c’est normal) de valider un modèle, pas de vision stratégique sur laquelle s’appuyer…
2) La logique de référentiel de données en défaut
3) Comment avoir une vision modèle – vue 360° (client par exemple) face à un enchevêtrement de systèmes (humains et techniques), avec chacun ses définitions, faisant avancer des processus hétéroclites, avec des défauts … rattrapés par de l’informel à tous les niveaux et avec des situations de conflits (« Le directeur marketing qui a défendu le nouveau modèle d’attribution se battra pour maintenir sa définition préférée de la « conversion », même lorsqu’elle est manifestement en contradiction avec la réalité, car sa prime en dépend »).
Situation tuante pour les modélisateurs chargés de réunifier le tout dans une vision propre et homogène !
Le véritable problème est d’ordre organisationnel : s’attaquer au « comment » avant d’avoir défini le « qui » et le « pourquoi ».
Les contraintes et les compromis sont normaux.
« J’ai vu des ingénieurs de données passer des semaines à choisir entre dbt et SQL classique, alors que les parties prenantes n’arrivaient même pas à se mettre d’accord sur la définition du terme « revenu ». Le choix de l’outil importait peu ; seul l’alignement conceptuel était essentiel. »
Source : https://practicaldatamodeling.substack.com/p/the-organizational-dynamics-and-politics
Data et IA : données tabulaires, effondrement des modèles, la sous-estimation des données de feedback pour les moteurs d’I.A., le problème du contexte)
1) Un marché historique de la data analysis … revisité à l’aune de l’IA générative
Le paradoxe, les données structurées (tabulaires) sont le parent pauvre des systèmes d’IA (où le non structuré texte en particulier, son, images, vidéo …prend la plus grand place).
Avec le graal d’exploiter les données d’entreprise (de leur système d’information).
Un marché en forte progression. Avec ici Fundamental qui se lance : https://fundamental.tech/ et revendique un apprentissage sur des milliards de tables. A voir d’où viennent ces données d’entraînement ? Et avec quels contextes. Pour ceux que cela intéresse leur livre blanc révèle les principes techniques sous-jacents : https://fundamental.tech/whitepaper.pdf
Source : https://www.lebigdata.fr/fundamental-leve-255-m-pour-booster-son-ia-dediee-aux-donnees-tabulaires
2) Effondrement des modèles (voir aussi data poisoning)
L’effondrement des modèles : phénomène par lequel un modèle est perverti par sa propre projection de la réalité.
Une étude à partir des données du cas d’Enron.
Quand les données générées par l’IA lui sont réinjectées pour entraîner des futurs modèles (les générations suivantes) et quand cela perverti ces futurs modèles.
Les queues originales (éléments de moindre probabilité) s’effacent au profit des éléments de plus fortes probabilités (auto-renforcés).
« la génération de jetons improbables devient encore plus improbable dans les générations suivantes, tandis que les jetons plus probables sont de plus en plus représentés… De cette manière très précise, les événements probables « empoisonnent » la réalité et conduisent le modèle à converger au fil des générations. »
Et voir dans ce sens : https://towardsdatascience.com/hallucinations-in-llms-are-not-a-bug-in-the-data/
Source : https://journals.sagepub.com/doi/abs/10.1177/20539517261421474
Voir aussi – anticipation de mars : https://danslesalgorithmes.net/stream/le-biais-anti-humain-des-preferences-des-ia-pour-les-contenus-ia/
3) La sous-estimation des données de feedback pour les moteurs d’I.A.
Traditionnellement, lorsqu’on pense données et IA on pense aux données d’apprentissage qui constitue le modèle.
Il faut aussi considérer les données de constructions (choix, politiques, spécifications), de conversations (données réelles d’interaction avec tout leur défauts-1), de rétroaction, de traces, d’évaluation des réponses des I.A (défaillances-2), de fonctionnement des garde-fous (contre-exemples, cas où s’abstenir…).
« Ce que votre système voit, ce que votre système apprend de, ce par quoi votre système est évalué ».
1- Exemples :
« Utilisateurs réels :
- mal orthographier
- changer de langue au milieu d’une phrase
- télécharger des images floues
- inclure un contexte non pertinent
- poser des questions à intentions multiples »
2- « Collecter les défaillances de production, mauvaises réponses, sorties non sécurisées, intentions manquées, échecs de récupération, erreurs d’appel d’outil »
Et la qualité est cruciale (le célèbre garbage in garbage out). Aux deux niveaux : au niveau des données en elles-mêmes et au niveau du dataset lui-même. Par exemple sa couverture (cas limites manquants, biais…).
Source : https://medium.com/@connect.hashblock/your-dataset-is-the-real-model-now-989f68675d35
4) Le problème du contexte
… lequel ?
Avec quelle portée ? Sur quelle durée ?
L’expression du contexte comment, sur quoi ?
« Une métrique dont le sens a évolué au fil du temps.
Un champ de statut est interprété différemment selon les équipes.
Une définition qui paraissait « évidente » jusqu’à ce qu’une nouvelle personne pose la question.
Lorsqu’une réponse d’IA est erronée, les responsabilités sont partagées.
Était-ce le modèle ?
Les données ?
La consigne ?
L’interprétation
Personne ne se sent pleinement responsable. Et l’incertitude rend les équipes prudentes.
Conséquence : des analyses IA non fiables, sans confiance. »
Source : https://medium.com/predict/i-thought-our-data-was-ai-ready-i-was-wrong-2fb665274ee9
5) Les formes de contexte et de représentation des données
Glossaire, taxonomie, couche sémantique, graphe de connaissance, ontologie, data products, maillage de données, lineage, context engineering … tout un ensemble de concepts qui embarquent comment représenter le contexte des données (sans contexte les données n’ont pas de sens et avec l’idée de garbage in garbage out).
Avec dans cet article, les initiatives autour du conditionnement des données en data products, avec la norme DPROD – https://www.omg.org/spec/DPROD/1.0/Beta1/About-DPROD (formalisation des caractéristiques d’un produit de données pour la réutilisation, l’intelligibilité, le contrôle).
Sans norme pas de passage à l’échelle, à une vision marché – compréhension partagée, interopérabilité, confiance.
Et la représentation de produits données en vision DCAM, suivi de la publication de produits de données FIBO (Ontologie métier du secteur financier).
L’intégration de l’IA n’est plus linéaire, mais écosystémique. La valeur émerge de l’alignement de N composants techniques et socio (organisation, processus, humain).
Référence : EDM Association ,
Voir aussi sur ce sujet de la représentation du contexte : Le thème sur la course au sens des données
Data architecture (suite des tendances, le mythe de la centralisation, data product stratégie, techniques de masquage de données, le graal de l’accès aux données, data spaces et intégration des données)
1) Tendances en ingénierie des données en 2026
Tendance n° 1 : Finies les constructions à partir de zéro ! L’infrastructure de données détenue par la plateforme devient la norme.
Tendance n° 2 : Le temps réel devient la norme – Les pipelines de données événementiels ne sont plus une option
Tendance n° 3 : L’IA est votre copilote, pas votre remplaçant
Tendance n° 4 : La qualité au premier plan – La qualité et la gouvernance des données évoluent
Régler le pbm à la source – data contract
Tendance n° 5 : Vous payez la facture (la prise de conscience des coûts est de nouveau au centre des préoccupations)
Tendances :
- L’infrastructure de données appartenant à la plateforme devient la norme
- Les architectures événementielles deviennent fondamentales
- La gouvernance s’intègre à l’infrastructure d’exécution
- Les contrats de données deviennent exécutoires (données décalées vers la gauche)
- Le coût devient une décision architecturale
- La crise de la modélisation des données et l’éclatement sémantique
- Entrée dans l’ère de l’orchestrateur invisible
- Le débat entre entrepôt de données et lac de données est clos
Databricks a renforcé ses capacités en matière de SQL , de gouvernance et de BI. Les formats de tables ouvertes comme Apache Iceberg ont gagné en popularité sur plusieurs plateformes, réduisant ainsi les craintes de dépendance vis-à-vis d’un fournisseur.
9. La maturité organisationnelle devient un facteur de différenciation
Les outils ne peuvent remédier à un manque de clarté dans les responsabilités.
Les investissements dans les plateformes ne peuvent compenser l’absence de critères de réussite définis.
Les couches sémantiques ne peuvent résoudre les problèmes d’alignement de la direction.
2) La tentation du gros bidon de données chez Stellantis : Snowflake + dlt (Data Load Tool) et de dbt (Data Build Tool) et une architecture standardisée et fédérative, appuyée par une logique de data products.
NB : le mythe de la vue unifiée et ses dangers (qui des contextes de données locaux par exemple, le goulet core team central, le plat de spaghetti reproduit dans le gros bidon…) à suivre
Source : https://www.lemagit.fr/etude/Stellantis-en-route-pour-les-Data-Products
3) Data product stratégie
Des data products hors sol, ou corrects unitairement mais sans cohérence globale.
Quelle stratégie adopter ?
L’auteur cite plusieurs dimensions : self-service data product, data product évolutif et fiable, cas d’utilisation executive, time to market…
NB : au final, la stratégie produits de données n’a pas de sens seule. Elle est forcément alignée avec la stratégie data, alignée avec la stratégie d’entreprise.
Les autres dimensions (self-service data product par exemple) ne sont pas stratégiques mais tactiques.
Et l’article au final ne parle pas de la cohérence d’ensemble des data products (le maillage si on parle data mesh et ses qualités).
4) Techno : 10 Data Masking Tools That Keep PII Safe
Source : https://medium.com/@reliabledataengineering/10-data-masking-tools-that-keep-pii-safe-b7a85047a278
5) L’éternel recherche de la solution ultime pour accéder aux données !
Netflix propose la pièce datajunction.
Où une couche sémantique – métriques joue un rôle central… en réalité une logique de Datamarts (cubes).
On réinvente la roue ? L’idée des cubes directement dans le hub d’accès aux données.
6) Data spaces : résoudre le problème de l’intégration des données
L’enjeu de l’offre européenne data spaces : bootstrapper la connexion des entreprises et atteindre l’effet boule de neige.
Les chaînes industrielles sont multi parties prenantes. L’ambition des data spaces et d’être le pivot de partage de données de ces chaînes.
Le point clé est la facilité d’intégration des données. Obstacle principale de nombreuses PME/ETI.
L’organisation data spaces propose une boîte à outils d’intégration. Exemple d’outil : Connector Fabric Manager https://projects.eclipse.org/proposals/eclipse-connector-fabric-manager
L’objectif : toucher 10 000 PME.
A voir le devenir de l’initiative : très technique à ce stade, pensée centralisée, quid des standards externes et de l’utilisation du potentiel de l’IA…
Gouvernance des données
1) Gouvernance des données axée sur le domaine : définition, fonctionnement et création de valeur
Dans la logique de l’approche Domain Driven Design – domaines d’activité (et pas à côté de l’organisation existante – inutile d’inventer domaines data)
NB : Les racines de la gouvernance des données axée sur le domaine se trouvent dans les fondamentaux du génie logiciel.
« Le problème le plus fréquent est de vouloir tout gouverner simultanément. Les grandes organisations possèdent trop de systèmes, trop de données et trop d’acteurs pour qu’une approche unique puisse fonctionner partout en même temps »
Rappel ; le débat entre centralisé et décentralisé n’a pas de sens (faux débat). Pour une part de la gouvernance elle peut être centralisée, pour d’autres parts elle peut être décentralisée.
Mais attention : le cœur central de la gouvernance c’est la vision / la stratégie et non par l’organisation et les règles.
2) L’échec de 20 ans : comment l’IA comble le fossé entre stratégie de données et stratégie d’entreprise
L’éternel sujet du fossé entre l’analytique et son alignement et impact business.
Et les deux parties (analytique – data et business) sont coupables.
« Le discours a souvent été à sens unique. Les dirigeants d’entreprise reprochaient aux équipes de données d’être « trop théoriques », tandis que les équipes de données reprochaient aux dirigeants d’entreprise de « manquer de connaissances en matière de données ».
Côté données : une vision systèmes – outils, technicité des données, tableaux de bord… mais confusion entre accès aux données et compréhension des données.
Côté métier : les équipes de données sont des guichets de commandes de chiffres précis sans expliquer le contexte ni le « pourquoi ». Pour finir par se fier à leur intuition et utiliser les données que pour valider des décisions déjà prises.
On a tenté de faire apprendre au métier, des techniques analytique (self, SQL).
Et au spécialiste des données de faire un MBA !
L’IA serait-elle la « personne » qui va faire le pont ?
Traduire du langage métier au langage technique les demandes métier. Jusqu’au dialogue avec un analyste virtuel.
Aux équipes data la responsabilité de créer ce pont (solide, fiable, de confiance, suffisant…).
La course au sens des données
Avant et après l’arrivée des agents IA autonomes.
Avant : le sens est une affaire humaine d’interprétation, d’intelligibilité des données.
Le résultat est une décision humaine avec des actions déclenchées.
Après : on confie l’interprétation et les décisions à des agents. Qui manquent de sens.
Comment le formaliser ? Comment formaliser une signification ?
On ajoute des métadonnées, des couches sémantiques, ontologiques, on construit un protocole orienté contexte (MCP), le Gartner y voit l’architecture du futur (context engineering) – https://www.gartner.com/en/articles/context-engineering.
Est-ce réaliste d’être en mesure de formaliser tout un contexte d’interprétation, de jouer avec des hypothèses ?
Que devient l’expérience, l’intuition de l’analyste, sa mémoire, sa pertinence d’interprétation ?
Extrait – traduction : « Pour la première fois, le système exige que le sens soit inscrit dans les systèmes de données, et non stocké dans la mémoire humaine… Cela crée une nouvelle catégorie d’exigences pour les données : celles-ci doivent décrire non seulement les faits, mais aussi les règles permettant de les interpréter. Le système doit savoir non seulement combien de clients sont partis, mais aussi à quel moment cela compte et comment réagir. Il ne s’agit plus de reporting, mais d’un modèle formalisé du comportement de l’entreprise… Question : Pourquoi un agent produit-il souvent une réponse qui semble logique, mais qui est inutilisable pour la prise de décision ? Réponse : Parce qu’il comprend la structure, mais pas le sens. ».
L’approche par les LLM (la documentation) est-elle suffisante pour comprendre un contexte ?
Une couche sémantique ne suffit pas … il faut plus. Elle doit être accompagnée de règles d’interprétation. C’est ce que propose l’idée d’environnement d’exécution sémantique de Dataforge – https://dataforge.one/
Inscrire toute la logique métier dans la couche sémantique, est-ce réaliste ?
En termes de portée, d’exhaustivité, de capacité de formalisation, d’accord entre tous les acteurs métier (qu’est-ce qu’un client est déjà difficile), de capacité d’exécution, de maintenabilité… ?
Avec le danger de briser la confiance au moindre accroc.
Et ensuite de formaliser l’interprétation des données, avec par exemple quand un changement dans les données est considéré comme un problème, quand il est acceptable, quand il est attendu, et quelles actions sont autorisées ? Comment un modèle d’événements / états métiers doit être interprété et comment y réagir ?
NB : pour avoir vécu, la formalisation de systèmes experts, de systèmes décisionnels, de systèmes de gestion de la connaissance, ou encore de réseau de Petri… le challenge est immense.
Les LLM vont-ils le résoudre ? Possible (à discuter) à condition d’accepter la part non déterministe, les faux positifs et négatifs.
L’idée de jumeau numérique est-elle pertinente pour apporter ce contexte d’interprétation / action ?
A lire le long article pas inintéressant sur la réalité des décisions / actions en vision humaine versus agents.
Source : https://medium.com/@grom_65116/the-semantic-layer-is-dead-now-its-an-api-for-ai-agents-f91d48a0c74a
Vrac (Souveraineté des données, Zuckenberg ignore le génie logiciel, fragilité des environnements de données, classification des données – cybersécurité, how to Be a Data Shaman, Données virtuelles – synthétiques, monétisation des données)
1) Souveraineté des données
L’Europe a déjà lancé des initiatives telles que le Cloud Sovereignty Framework et annoncé des investissements futurs dans des infrastructures comme les gigafactories.
2) Zuckenberg ignore le génie logiciel
Zuckerberg a lui-même soutenu l’argumentaire, prétendant que certaines fonctionnalités de son application (les plus toxiques, comme par hasard : les filtres de beauté) sont nécessaires à la créativité des utilisateurs. C’est l’autre volet de sa défense : Instagram ne serait qu’un miroir neutre de la société.
https://www.presse-citron.net/zuckerberg-face-justice-meta-instagram-mineurs-dependants
3) Sur la fragilité des environnements de données.
Quelles stratégies de leur préservation : redondance, résilience, maintenance anticipative, décentralisation.
« L’étude offre une perspective critique sur la gestion des données en période d’incertitude politique et souligne la nécessité d’approches collaboratives pour la résilience des infrastructures. »
Source : https://journals.sagepub.com/doi/abs/10.1177/20539517261421482
4) Classification des données – cybersécurité
Un article tour d’horizon de comment classer les données pour les besoins de cybersécurité.
Méthodes déterministes (exemple reconnaitre un n° de carte bancaire).
Méthodes probabilistes (I.A.). Avec le risque de faux négatifs (non détection de données sensibles avec sanctions si problème).
Avec l’outillage de classement et ses risques : déplacement de données (qui peuvent quitter l’espace propriétaire).
Un aperçu des moyens de classement – source les auteurs de l’article Varonis

Source : https://www.varonis.com/blog/data-classification-deep-dive
5) How to Be a Data Shaman
Les CDO sont sur des sièges éjectables, en burn out, démissionnent …
L’auteur propose de les transformer en chaman.
L’idée est bonne au vu de la difficulté du poste.
Elle donnerait au CDO une aura supérieur, une proximité au près des acteurs opérationnels en manque de vision chamanique !
Maintenant la vision chamanique proposée est finalement classique du bon sens de tout responsable data.
Dans la liste des caractéristiques du chaman, une peu interpeller.
Impossible au chaman de connaître tous les environnements de données d’une organisation – les contextes des processus métier (pour les petites cela peut avoir un sens).
Le chaman s’adresse au niveau tribu…
Intuitivement, même n’étant pas expert du chamanisme, la métaphore pourrait-elle être exploitée beaucoup plus loin ?
Source : https://tdan.com/how-to-be-a-data-shaman-2/33455
6) Données virtuelles – synthétiques
Waymo utilise des mondes virtuels pour rôder ses voitures autonomes
Mais d’où viennent les données de ces mondes virtuels ? Quelle garantie de représentation ? Comment se rapprocher le plus possible du monde réel.
Extrait : « Derrière ces créations se cache Google DeepMind et son Project Genie, un prototype de recherche capable de créer, modifier et explorer des univers virtuels interactifs à partir de simples prompts ».
Waymo s’appuie aussi sur des images (dont LIDAR), vidéos réelles avec de légères variations, afin de tester différents scénarios (pourquoi pas ajouter un obstacle incongru comme un incendie).
La force du numérique est de pouvoir jouer des millions de scénarios sur des millions de km.
Rappel : la conduite autonome à 100% ne peut pas actuellement (selon les modèles d’IA actuels) exister dans un monde ouvert.
7) Monétisation des données
Un article intitulé « Le problème de la monétisation des données » souligne que toutes les données n’ont pas de valeur monétisable. La principale difficulté consiste à déterminer si les données réduisent l’incertitude pour un acheteur et si leur reproduction est complexe (ou coûteuse) . Source :
https://eric-sandosham.medium.com/the-problem-with-data-monetisation-a20b722ed55d
Vente de données brutes
Vente de données et de services : proposent des analyses, des rapports, des tableaux de bord ou des services prédictifs qui résolvent un problème précis
Vente de produits de données
Les produits de données sont conçus en fonction d’objectifs précis et de résultats commerciaux, générant ainsi de la valeur en adéquation avec les objectifs de revenus.
Source : https://medium.com/@community_md101/how-to-sell-monetise-data-060bdb700712
RDV maintenant en avril pour la revue et les actualités de mars.

Les commentaires sont fermés.