Ce mois toujours les sujets récurrents : data architecture, gouvernance des données – stratégie data, guerre des données, data et IA, ouverture des données, données synthétiques.

Deux thèmes qui se rejoignent : données de surveillance et émotions sous forme de données.

Et toujours une liste de pas mal de notes de lectures au fil de l’eau.

A piocher en fonction de vos centres d’intérêt.

Sommaire :

Gouvernance des données (transparence de la gouvernance, gouvernance du contexte des données, programme de formation à la gouvernance par l’UNESCO, gouvernance des données et IA, culture data, qualité des données, confiance dans les données)
Données de surveillance
Emotions sous forme de données
Data et IA
Data architecture (data mesh, MDM et IA, l’architecte de données en 2026, éditeur d’ontologies, architecture de décision, centralisation / décentralisation, échec des projets data, décloisonnement des données)
Ouverture des données
Données synthétiques
Data stratégie
La guerre des données
Autres actualités (Jumeaux numériques de territoire, passeport data et cyclistes, data poisoning, protection des données personnelles aux US, « data drums », données quantiques, Architectures logicielles as data)

Gouvernance des données (transparence de la gouvernance, gouvernance du contexte des données, programme de formation à la gouvernance par l’UNESCO, gouvernance des données et IA, culture data, qualité des données, confiance dans les données)

1) La meilleure gouvernance des données est celle qui finit par être transparente au quotidien.

« Les systèmes de gouvernance les plus efficaces sont ceux que les utilisateurs ne remarquent pas, car ils sont directement intégrés aux flux de travail et aux outils…

L’avenir de la gouvernance des données ne réside pas dans une gouvernance accrue, mais dans une gouvernance invisible grâce à une intégration intelligente dans les paramètres par défaut des plateformes, le code, les contrôles d’accès et au point de consommation…

La gouvernance conçue comme une couche supplémentaire au-dessus du travail est vécue comme une source de friction, et cette friction est contournée. »

L’article décrit comment s’y prendre.

Source : https://medium.com/@arrufus/the-future-of-data-governance-is-invisible-governance-288f122239bf

Rejoint mon expérience – voir la conclusion : https://www.datassence.fr/2026/05/25/script-et-support-dintervention-sur-la-gouvernance-des-donnees/

2) Gouvernance des données, gouvernance de leurs contextes

Les graphes de contexte comme infrastructure d’évaluation de l’IA

Et le sujet clé de leurs évolutions.

Un contexte n’est jamais figé, il bouge tout le temps.

La difficulté est de capter les changements.

Extrait traduit (et vécu) : « Dans le secteur des services financiers, la notion de « client actif » est loin d’être figée. Elle possède plusieurs définitions, propres à différentes équipes, intégrées à différents systèmes, sujettes à des désaccords lors des revues trimestrielles et régulièrement mises à jour sans annonce préalable. Lorsqu’un chatbot d’évaluation du risque de crédit répond à une question sur les clients actifs, sa réponse se base sur une version de cette définition. Laquelle ? Depuis quand ? Qui l’a approuvée ?

Si la définition a changé il y a trois mois et que le processus d’évaluation n’en est pas informé, le système est évalué par rapport à une réalité qui n’existe plus. »

… « sans un instantané de contexte versionné associé à chaque exécution d’évaluation, une équipe de conformité ne peut pas défendre légalement le résultat. »

La difficulté : le contexte peut être infini, multi-dimensionnel.

La notion de fermeture de l’univers de travail est clé (voir la notion de système ouvert / fermé et de langage formel en génie logiciel).

L’article découpe le contexte en : contexte des données, contexte sémantique, contexte politique (de données), contexte utilisateur.

Et décrit les composants d’un graphe contextuel : la tâche sollicitant les données, la configuration et trace d’exécution, les éléments de gouvernance associé, état et caractéristique de l’utilisateur…

Source : https://metadataweekly.substack.com/p/context-graphs-as-ai-evaluation-infrastructure

3) Formation à la gouvernance des données

l’UNESCO et le Programme des Nations Unies pour le développement (PNUD) ont lancé une initiative conjointe de renforcement des capacités intitulée « Gouvernance des données pour un avenir numérique et en IA inclusif » (cours lancé fin 2025)

Programme :

Semaine 1

Session 1 : Introduction à la gouvernance des données et au cadre des 4P
| Mardi 3 mars 2026 | 10h00-12h00 UTC

Faites connaissance avec les instructeurs et les autres participants.
Clarifiez les objectifs du cours et ce à quoi vous pouvez vous attendre lors des prochaines séances.
Définissez la gouvernance des données et distinguez-la de la gestion des données et de la protection des données.
Comprendre la structure et les objectifs de la boîte à outils de gouvernance des données.
Reconnaître le rôle de la gouvernance des données pour permettre une transformation numérique responsable et une utilisation responsable de l’IA.
Identifier les principales tendances qui redessinent la gouvernance des données à l’échelle mondiale.

Session 2 : Définir l’objectif – Pourquoi gouverner les données ?
Jeudi 5 mars 2026 | 10h00-12h00 UTC

Comprendre comment la finalité sert de « boussole » à la gouvernance des données.
Lier la finalité de la gouvernance aux mandats institutionnels et à la valeur publique.
Utilisez le canevas d’objectifs de la boîte à outils pour définir les buts, les bénéficiaires et les risques.
Relier les priorités numériques nationales aux stratégies de gouvernance des données.

Semaine 2

Session 3 : Principes – Comment gouverner les données ?
Mardi 10 mars 2026 | 10h00-12h00 UTC

Identifier les principes fondamentaux de la gouvernance des données selon trois axes (processus, décision, traitement des données).
Appliquer les principes globaux aux contextes locaux et sectoriels.
Gérer les compromis et les tensions liés à l’application des principes (par exemple, confidentialité vs transparence).
Utilisez le canevas d’éthique des données pour intégrer des valeurs dans les initiatives liées aux données.

Session 4 : Personnes et processus – Qui gère les données ?
Jeudi 12 mars 2026 | 10h00-12h00 UTC

Comprendre qui gère les données et pourquoi la clarté des rôles est importante.
Identifier les rôles clés en matière de gouvernance : responsables des données, CDO, DPO, etc.
Utilisez le modèle RACI pour attribuer et évaluer les responsabilités de gouvernance.
Identifier les lacunes et les chevauchements dans les structures de gouvernance des données institutionnelles.

Semaine 3

Session 5 : Pratiques liées au cycle de vie des données – Que faire de nos données ?
Mardi 17 mars 2026 | 10h00-12h00 UTC

Comprendre comment la gouvernance s’applique aux différentes étapes du cycle de vie des données.
Identifier les décisions, les risques et les mesures de protection spécifiques à chaque étape.
Utilisez les listes de contrôle de la boîte à outils pour évaluer la maturité institutionnelle.
Lier les mécanismes de gouvernance aux outils de mise en œuvre.

Semaine 4

Session 6 : Présentations et prochaines étapes
Jeudi 24 mars 2026 | 11h00-13h00 CET

Présentez un modèle de gouvernance des données convaincant qui réponde à un défi du secteur public
Réfléchissez aux leçons apprises
Fixez-vous des objectifs concrets pour les appliquer dans des situations réelles.

Voir aussi Boîte à outils de l’UNESCO sur la gouvernance des données

Manuel de gouvernance des données (version FR) : https://unesdoc.unesco.org/ark:/48223/pf0000394518_fre

Source : https://www.unesco.org/en/articles/governments-advance-rights-based-data-governance-unlock-inclusive-ai-futures

4) La gouvernance des données à l’ère de l’IA : 10 changements qui redéfinissent les données, les institutions et les pratiques

« La gouvernance des données n’est pas périphérique à la gouvernance de l’IA — elle en est le fondement . »

Les changements :

1) Les types de données sous gouvernance s’étendent aux données non structurées avec de nouveaux points de gouvernance ; droit d’auteur, consentement, garantie de provenance, représentativité, fake…

2) Des données réutilisables par les machines – avec des métadonnées interprétables

3) Gouverner le contexte des données comme infrastructure (dont l’usage du MCP)

4) Orchestrer des écosystèmes de données (rappel le problème n’est plus le big data mais le multi data)

5) Gérer des nouvelles formes de licences des données pour l’entraînement des IA – exemple « cc-signal »

6) Aller plus loin que gérer le consentement – gérer l’acceptabilité sociale d’utilisation de données par les IA

7) Réduire l’asymétrie entre les grandes plates-formes (grands acteurs de l’IA) et les sources de données par la mutualisation d’infrastructure et de gouvernance partagées (coopératives, fiducies de données) … redistribuer la valeur des données

8) Gouvernance des données synthétiques

9) L’IA au service de la gouvernance des données (classification automatique des données à risque, observabilité)

10) Agents IA de gouvernance des données : automatisation de points de décision de gouvernance (accès aux données, application de politiques).

Source : https://sverhulst.medium.com/data-governance-in-the-ai-era-10-shifts-redefining-data-institutions-and-practice-69296b808683

5) Culture des données

« Qu’est-ce qui freine ?

Je crois qu’il existe trois raisons fondamentales à cette lutte persistante :

Absence de boucle de rétroaction basée sur l’utilité.
C’est mal enseigné.
Ne pas avoir le courage d’imposer des sanctions sévères.

la culture des données n’est pas liée à un outil ; c’est une capacité cognitive.

Maîtriser les données, c’est être capable d’extraire des informations et des connaissances à partir de données structurées et non structurées.

dans le fait de ne pas reconnaître que l’interprétation des données était la compétence cognitive fondamentale requise. »

Source : https://eric-sandosham.medium.com/why-are-we-still-data-illiterate-4fc3a9c5684e

Et un article qui présente deux initiatives universitaires visant à faire évoluer ce paradigme : Data for Social Impact (DSI), anciennement Data Science for Social Impact, à l’Université Washington de Saint-Louis, et Actionable Intelligence for Social Policy (AISP) à l’Université de Pennsylvanie. Ces deux initiatives se concentrent sur le renforcement des capacités du secteur social afin de promouvoir une utilisation éthique des données. Source : https://hdsr.mitpress.mit.edu/pub/q9sagp8n

6) L’éternel sujet de la qualité des données.

La taxe de la non qualité : la charge de contrôle multipliée sur tous ceux qui utilisent les données.

L’accumulation d’une dette de qualité des données avec laquelle on vit et qu’on a fini par intégrer (s’en défaire nécessite des changements plus profonds que de simplement corriger la qualité).

Les silos de données parce qu’on veut protéger son pouvoir.

Le rôle de la stratégie de données : établir un plan d’action « confiance » des données (NB : la confiance numérique devient un sujet central – pas uniquement en lien avec les données. Après la mise en avant du contexte engineering on commence à voir l’idée de confiance / « trust » engineering. Le terme confiance en français couvre l’idée de confiance plus largement que sa traduction par « trust » voir aussi l’idée de « confidence »).

Source : https://diginomica.com/diginomica-enterprise-data-health-research-data-broken-and-everybody-knows-it

7) Dans la confiance des données : l’idée classique de certification des données.

Exemple de moyens : « Des approches comme les Brand Certified Facts (BCF) visent à rendre les informations des entreprises explicitement vérifiables, en les structurant de manière à ce que les machines puissent les interpréter comme faisant autorité ».

Des certifications ad hoc – exemple le badge de X, la preuve de l’origine – source des données (Google).

NB : rencontré comme moyens dans mes expériences – la piste d’audit probante, le MDM, l’étiquetage de données.

Source : https://www.journaldunet.com/martech/1549257-et-si-les-donnees-certifiees-devenaient-le-nouveau-badge-bleu-twitter-du-web/

Données de surveillance

1) Les données de surveillance prolifèrent : le cas de la surveillance de son activité au travail

Jusqu’à influencer votre salaire.

Le sujet est vieux comme le monde du travail.

Mais le numérique a posé sa camisole.

Historiquement voir le cas de la surveillance des chauffeurs d’Uber.

Les logiciels d’entreprise de surveillance prolifèrent (jusqu’à contrôler si votre état émotionnel est compatible avec la situation de travail).

Un tour d’horizon de Cory Doctorow.

Source : https://pluralistic.net/2026/04/06/empiricism-washing/#veena-dubal et https://pluralistic.net/2026/04/06/empiricism-washing/#veena-dubal

Et aussi : https://synthmedia.fr/politiques/travail/bosswares-surveillance-travail/

Et vu en mai : https://www.wired.com/story/meta-employee-protest-mouse-tracking-surveillance-ai-training/

Et aussi surveillance des employés mais aussi exploiter leurs données de travail pour alimenter les IA en données d’apprentissage … et finir par les remplacer.

Source : https://techcrunch.com/2026/04/21/meta-will-record-employees-keystrokes-and-use-it-to-train-its-ai-models/

2) Linkedin collecte nos données techniques pour notre bien

Collecte de données techniques par Linkedin : la nature des extensions utilisées de votre navigateur et « En parallèle, le script collecte 48 caractéristiques techniques de votre appareil. Processeur, mémoire, langue, fuseau horaire, tout y passe. Même la batterie de votre ordinateur peut être concernée. »

« En clair, votre ordinateur devient identifiable, même sans cookies. ».

La finalité par Microsoft « Microsoft affirme que ce scan sert uniquement à repérer les extensions pirates. Selon elle, cette mesure garantit la stabilité du réseau et protège les comptes membres contre les vols. ».

Source : https://www.lebigdata.fr/linkedin-vous-espionne-en-secret-mais-promis-cest-pour-votre-bien

Emotions sous forme de données

1) Les émotions sous forme de données : standardisation, homogénéisation, réduction (mise à l’écart), simulation (fausse émotions)

Sources : https://www.lesswrong.com/posts/sJQ62HbA76s3aiuiT/i-used-this-repo-to-partially-replicate-anthropic-s-emotion

https://synthmedia.fr/politiques/sante/il-y-a-un-risque-dhomogeneisation-de-nos-expressions-emotionnelles-et-dimperialisme-technologique-sur-notre-sensibilite-par-les-tech-bro-de-la-silicon-valley

https://www.lebigdata.fr/mais-pourquoi-les-ia-semblent-avoir-des-emotions-letonnante-etude-danthropic

2) Les données s’emparent de tout

Y compris du non quantitatif, de l’informel…

L’article traite le cas des émotions.

Avec l’effet de standardisation, homogénéisation associé (ce n’est pas un risque c’est un fait) et toutes les conséquences que cela peut avoir : normalisation sociétale de comportement, filtrage – contrôle émotionnel, biais, faux positifs – négatifs, marginalisation, colonisation (émotions coloniales !), facteur d’automatisation…

Et voir aussi l’application sur la surveillance des émotions des salariés – voir thème précédent – https://www.datassence.fr/2026/05/25/revue-data-du-mois-avril-2026/#_ftn2.

Source : https://synthmedia.fr/politiques/sante/il-y-a-un-risque-dhomogeneisation-de-nos-expressions-emotionnelles-et-dimperialisme-technologique-sur-notre-sensibilite-par-les-tech-bro-de-la-silicon-valley/

Data et IA

Le problème de l’IA en production est rarement le modèle, le problème ce sont les données.

Source : https://dataconomy.com/2026/04/06/why-most-enterprise-ai-projects-never-reach-production-the-model-is-rarely-the-main-problem-says-ntt-data-consultant-alex-potapov/

L’état des données d’entreprises ne permet pas un déploiement de l’IA : « Risque d’automatiser le chaos

Problème répandu, la dette de données s’est développée organiquement au fil des décennies dans la plupart des organisations. Outre l’importance croissante accordée à la collecte de données, les entreprises ont également accumulé une dette au fil des fusions et acquisitions, et des déploiements de nouveaux systèmes et services à l’échelle de l’entreprise ou d’un département ».

Classique : les communicants de l’IA oublient l’état des S.I. des entreprises (accumulation historique, morcellement – silos, architecture orientée support de processus / fonction métier, dettes, multi environnements de données…).

Source : https://www.lemondeinformatique.fr/actualites/lire-la-strategie-ia-entravee-par-la-dette-technique-sur-les-donnees-100038.html

Data architecture (data mesh, MDM et IA, l’architecte de données en 2026, éditeur d’ontologies, architecture de décision, centralisation / décentralisation, échec des projets data, décloisonnement des données)

1) Nième retour d’expérience : non le data mesh ne signifie pas une totale autonomie des domaines de données

Il y a besoin d’une gestion du maillage : infrastructure commune, sémantique partagée (ne veut pas dire une couche sémantique unique – cf. le mythe de la vue unifiée des données), responsabilités sur les éléments transverses multi-domaines (exemple des indicateurs d’entreprise), gouvernance et cohérence des règles métier, gestion des changements à l’intérieur du maillage et des dépendances / impacts

Source : https://medium.com/datamindedbe/you-built-a-data-mesh-but-your-metrics-are-still-a-mess-heres-why-28a94be54491

Et aussi REX data mesh – des bonnes vérités à entendre (et vieilles comme les données)

Source : https://medium.com/@khan.ahmed.m/when-your-data-hub-becomes-a-bottleneck-a-practical-path-to-data-mesh-944a5d2b1124

2) Le MDM repensé à l’aune de l’IA

Le problème : la latence de gestion des données de référence (passer d’un temps humain à un temps agents IA).

La gestion des données de référence doit être gérée directement dans les flux opérationnels et non plus à part. Et s’appuie sur le principe de gestion événementiel (EDA) pour réagir immédiatement à tout changement de référence.

Mais attention avec les gardes fous de la gouvernance des données de référence (validation en temps réel à partir d’une politique implémentée).

L’orchestration « temps réel » événementielle de la gestion des données de référence devient centrale.

Extrait traduit : « La fédération ne signifie pas l’anarchie. Les unités opérationnelles conservent leur autonomie : le CRM gère son schéma client, l’ERP son schéma fournisseur. Cependant, chaque modification d’entité est diffusée via une infrastructure événementielle centralisée. Un registre léger ne stocke pas l’enregistrement de référence ; il coordonne la source faisant autorité pour chaque attribut, assure le suivi de la traçabilité et applique les politiques de résolution inter-domaines en temps réel. »

Source : https://medium.com/@datumdigest/part-1-mdm-re-architected-and-re-timed-6eeb889a5d65

3) L’architecte de données en 2026

La nouveauté : le lien avec les infrastructures IA, les systèmes d’agents et leurs composants data (bases d’apprentissages, contextualisation, RAG, tableau partagé entre agents…).

Avec comment prendre en compte l’évolution systématique des éditeurs de data platforms vers l’IA agentique.

Et le besoin « temps réel » de gestion, traitement des données pour suivre le rythme des agents.

Source : https://medium.com/endtoenddata/how-to-become-modern-data-architect-in-ai-world-2026-edition-0dca7c0a5735

Et aussi le défi de suivre le contexte d’entreprise – l’IA se trompe parce que non à jour de contextes insuffisants voire en conflits.

Source : https://towardsdatascience.com/your-rag-system-retrieves-the-right-data-but-still-produces-wrong-answers-heres-why-and-how-to-fix-it/

4) La découverte d’un éditeur d’ontologies – OrionBelt – https://orionbelt.streamlit.app/

Source : https://medium.com/@irregularbi/you-dont-need-a-phd-to-build-an-ontology-f50ff00b6db9

5) Le besoin en une architecture de décision « immédiate »

Le défi n’est pas le centralisation des données, mais l’intégration des points de décision à partir des données opérées.

« Pour les données, cela signifie que la prise de décision se déplace là où les données sont générées, que les systèmes opérationnels intègrent l’analyse et que l’IA est intégrée aux processus métier au lieu d’être accessible via un portail de BI. Cela signifie que la file d’attente des requêtes disparaît complètement, ou du moins est repensée et améliorée. »

Source : https://www.hpcwire.com/bigdatawire/2026/04/20/the-modern-data-stack-was-never-built-to-make-decisions/

Les processus de décisions sont à modéliser comme les autres.

Voir dans ce sens aussi la notation DNM – Décision Model Notation – https://en.wikipedia.org/wiki/Decision_Model_and_Notation

Source : https://management-datascience.org/articles/79517/

6) Le sujet de la centralisation / décentralisation est un cycle récurrent dans la conception des architectures des S.I.

Le data mesh peut s’inspirer du déploiement des micro-services (qui visaient à remplacer les systèmes monolithiques).

Avec l’apparition de nouvelles difficultés qui viennent contrebalancer les avantages de la décentralisation : complexité des dépendances (débogage, fiabilité, effet domino si changement), besoin de normes partagées, dilution de la responsabilité (de centralisée à dispatchée)

Le data mesh a une problématique similaire.

Extrait traduit : « La question plus difficile est d’ordre organisationnel : les équipes sont-elles prêtes à considérer les données comme un produit partagé plutôt que comme un sous-produit de leur travail ? ».

Source : https://medium.com/@lorenzo.mariotti/from-microservices-to-data-mesh-lessons-from-the-history-of-decentralisation-a4b7525456ae

7) La plupart des projets de données échouent : voici pourquoi

« La plupart des organisations n’ont pas de structure permettant de relier l’intention commerciale à son exécution de manière mesurable et traçable. ».

L’idée défendue par un éditeur (Maysano – https://maysano.com/) lier chaque data product à des KPI d’entreprise.

Source : https://medium.com/maysano/most-data-projects-fail-here-is-why-ceeee97f18d6

8) La valeur du décloisonnement des données de santé par Palantir

« Pendant la majeure partie de son histoire, le NHS a fonctionné avec des données cloisonnées. Dossiers patients, listes d’attente, programmes opératoires, plans de sortie : toutes ces informations cruciales étaient stockées dans des systèmes distincts, inaccessibles au personnel du NHS, impossibles à consulter, à partager et à exploiter de manière centralisée. En collaboration avec le NHS, Palantir a développé la plateforme de données fédérées du NHS (NHS FDP) afin de remédier à ce problème…Construite sur Palantir Foundry, la plateforme NHS FDP fonctionne selon une architecture fédérée. Chaque organisme du NHS exploite ainsi son propre « locataire » de la FDP, dont il est le responsable du traitement des données. Toutes les données restent donc sous le contrôle de l’organisme local, tout en bénéficiant d’outils numériques développés au niveau national et d’une ontologie partagée, appelée Modèle de données canonique (Canonical Data Model) . Ce modèle offre une représentation unique et standardisée de l’écosystème du NHS et unifie non seulement les données, mais aussi la logique, les actions et les politiques de sécurité qui, ensemble, permettent aux applications construites sur la plateforme d’interagir à grande échelle. »

Les résultats : https://www.england.nhs.uk/digitaltechnology/nhs-federated-data-platform/impact/fdp-uptake-and-benefits/

Source : https://blog.palantir.com/ready-set-build-with-the-nhs-federated-data-platform-41405fa4c226

Et à lire avec attention les retours d’expérience sur la conception de modèles d’entreprise (vieux sujet – déjà sensible dans les années 90) – les échecs, les bons et mauvais silos, la dimension politique, les compromis de modélisation, la validation d’un modèle (l’exercice le plus délicat), le sujet de la modélisation du contexte de représentation des données, comment intégrer les dérives par rapport à la réalité… Source : https://practicaldatamodeling.substack.com/p/ch-15-people-and-organizations-data

Ouverture des données

Dans la suite de la revue de mars – Ouvrir, mutualiser les données pour améliorer la science : https://www.datassence.fr/2026/04/15/revue-data-du-mois-mars-2026/#_ftn4

Quid de la préservation et de l’ouverture des données de recherche entre solutions open source et solutions d’opérateurs privés (cloud).

Avec des inquiétudes d’accès et de partage des données.

« À mesure que les données de recherche sont de plus en plus gérées et rendues accessibles par des plateformes et des services de stockage cloud, les connaissances scientifiques risquent d’être cloisonnées, ce qui a des conséquences sur la reconfiguration de l’infrastructure de la connaissance, le contrôle de la préservation à long terme, l’accès libre aux données et la circulation de la recherche scientifique ».

Source : https://journals.sagepub.com/doi/abs/10.1177/20539517261431593

Données synthétiques

C’est dit « Les données synthétiques seules ne peuvent pas entraîner une IA physique à gérer le monde réel. ».

Les données synthétiques ont des atouts :

– accélération de l’apprentissage par simulations,

– gestion de cas extrêmes difficiles à capter en termes de données réelles,

– apprentissage dans le cadre de données réglementées (personnelles par exemple)

Mais plus difficile de simuler toutes les conditions réelles qui conditionnent les données (environnements physiques de captures).

La capture de données n’est jamais un long fleuve tranquille (vécu n anecdotes sur ce sujet).

Extrait traduit : « Les données des capteurs réels diffèrent des simulations pour chaque modalité :

Les données LiDAR renvoyées par la pluie ou une forte poussière sont différentes de celles obtenues par simulation en conditions normales.

Les flux vidéo des caméras, dans des conditions d’éclairage changeantes, contiennent du bruit que les pipelines de synthèse ne peuvent pas reproduire intégralement.

Dans les environnements urbains denses, les signaux radar captent des réflexions et des interférences que les environnements contrôlés excluent par conception. »

Et à cela s’ajoute la difficulté de précision et de cohérence de l’annotation des données d’apprentissage.

Source : https://dataconomy.com/2026/04/17/synthetic-data-alone-cannot-train-physical-ai-to-handle-the-real-world/

Et aussi un guide de bonnes pratiques sur les données synthétiques.

Source : https://medium.com/@srinib100/the-data-you-never-had-714e2755a724

Data stratégie

Alignement de la stratégie data et du portefeuille de produits de données.

L’idée de portefeuille est importante pour maîtriser / gérer une vue d’ensemble – vue des zones sous représentées, des dépendances, de l’accumulation de risques et le rôle de la gouvernance pour rééquilibrer le portefeuille. On ne travaille pas de façon isolée sur un produit de données.

NB : je rajouterais deux points vécus. 1) l’alignement du portefeuille de produits de données avec le portefeuille d’initiatives data – l’article fait le lien aussi avec la feuille de route data 2) le maillage du contenu du portefeuille (entre data products)

Source : https://blog.opendataproducts.org/data-products-unpacked-part-5-of-6-from-strategy-to-a-portfolio-of-data-products-769e67bfab34

La guerre des données

1) La guerre se reflète dans les données : ici la manipulation des données cartographiques

Source : https://bonpote.com/liban-palestine-comment-les-gafam-manipulent-les-cartes/

2) Résister aux systèmes d’IA, par les données.

Extrait – le début de l’article : « La résistance la plus commune aux systèmes d’intelligence artificielle consiste à les parasiter. On leur injecte du bruit, on empoisonne les données d’entraînement, on glitche les modèles de diffusion, on pose des perturbations imperceptibles à l’œil nu sur les images pour tromper les algorithmes de reconnaissance de style. ».

Et l’idée forte vue au travers du domaine artistique et de la grille conceptuelle de Simondon : « Et pourtant, c’est précisément cet écart non-symétrique qui ouvre l’espace d’une stratégie radicalement différente, moins défensive, plus inquiétante, une stratégie qui ne cherche pas à protéger mais à contaminer. Non pas parasiter les systèmes, non pas les glitcher ou les empoisonner, mais produire exactement comme ils produisent. »

A lire.

Source : https://chatonsky.net/indiscernable/

3) Comment protéger ses données personnelles lorsqu’on « discute » avec un chatbot IA ?

La proposition d’OpenAI : Privacy Filter – https://github.com/openai/privacy-filter

Passer par un filtre de masquage des données sur son poste de travail avant qu’elles soient transférées sur un serveur.

Mais comme tout système d’IA, les limites les faux positifs / négatifs.

La vérification humaine reste nécessaire (mais est-ce réaliste dans une conversation).

Source : https://www.lebigdata.fr/privacy-filter-decouvrez-le-nouvel-outil-openai-capable-de-proteger-vos-donnees-personnelles

4) Souveraineté cognitive au temps de l’IA

Source : https://www.forrester.com/blogs/cognitive-sovereignty-protect-human-judgment-in-an-ai-saturated-world/

Autres actualités (Jumeaux numériques de territoire, passeport data et cyclistes, data poisoning, protection des données personnelles aux US, « data drums », données quantiques, Architectures logicielles as data)

1) JUNN : la France se dote d’un programme national pour les jumeaux numériques de territoire – https://junn-france.fr/

Source : https://opendatafrance.fr/junn-jumeaux-numeriques/

2) Passeport data des cyclistes pros

Après le passeport biologique (données physiologiques), « L’idée d’un suivi des données de performance pour mieux cibler la lutte antidopage est examinée sérieusement par l’ITA (International Testing Agency) »

Quand la production de puissance (en watts) d’un cycliste pourrait servir à détecter des anomalies ciblant des pratiques potentielles de dopage.

Source (abonnés) : https://www.lequipe.fr/Cyclisme-sur-route/Article/Plusieurs-equipes-volontaires-mais-un-projet-qui-ne-fait-pas-l-unanimite-qu-est-ce-que-le-passeport-de-puissance-cense-aider-a-mieux-lutter-contre-le-dopage-dans-le-cyclisme/1670384

3) Data poisoning

Etude cas : l’empoisonnement de données d’entraînement pour introduire une porte dérobée dans un classifieur (IA).

Le résultat : « Une trentaine d’exemples corrompus suffisent à installer une porte dérobée, quelle que soit la taille de l’ensemble d’entraînement. »

Source : https://www.lesswrong.com/posts/uuaSBpKykQEtdzabg/poisoning-fine-tuning-datasets-of-constitutional-classifiers

Données empoisonnées … jusqu’où cela peut aller.

Le récit de la création d’une fausse maladie qui se répand dans les moteurs d’IA et apparaît dans leurs réponses.

Source : https://www.franceinfo.fr/replay-radio/le-billet-vert/piegees-par-des-chercheurs-des-ia-donnent-des-conseils-medicaux-sur-une-fausse-maladie_7928324.html

4) La proposition d’une loi fédérée sur la protection des données personnelles versus autant de lois que d’Etats

« Contrairement au RGPD, la loi n’imposerait pas de consentement préalable explicite pour la plupart des traitements de données. Seules les données sensibles (santé, géolocalisation) et celles des mineurs de moins de seize ans requerraient un tel consentement (celui des parents dans le cas des mineurs). »

Source https://www.journaldunet.com/martech/1549959-l-administration-trump-veut-doter-les-etats-unis-de-leur-propre-loi-sur-la-protection-des-donnees/

5) « Data Drums : Un appel rythmique à l’action climatique » est une performance live qui donne vie aux émissions mondiales de CO₂ grâce aux rythmes dynamiques d’un ensemble de percussions brésiliennes. S’appuyant sur les données d’émissions de carbone du Brésil, de l’Inde et des États-Unis, cette œuvre en quatre mouvements traduit les chiffres en rythme.

https://dataculturegroup.org/2026/04/29/data-sonification-award.html

6) Comment traiter les données classiques dans les modèles quantiques

Quelles représentations des données en univers quantique ?

Avec des données quantiques (représentation des données sous formes d’états quantiques).

Avec des données classiques à encoder pour des moteurs quantiques (correspondance de bits en qbits).

Source : https://towardsdatascience.com/how-to-handle-classical-data-in-quantum-models/

7) Architectures logicielles as data

L’architecture logicielle as a code et en données pour l’apprentissage IA.

Eh oui, les codes sont des données (d’ailleurs c’est la base des systèmes IA de codage).

Et tous les développeurs ont joué avec cela en conception logiciel (framework adaptatif…).

Source : https://www.oreilly.com/radar/architecture-as-code-to-teach-humans-and-agents-about-architecture/

RDV maintenant en juin pour la revue et les actualités de mai.

L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Revue data du mois (avril 2026)