Comme d’habitude une suite de sujets data en lien avec un ensemble d’articles data du mois de juin.
Toujours la suite sur les données sont des armes, enjeux de pouvoirs, de tension.
Les sujets récurrents sur les data platforms, la data architecture.
Et retour sur données et interopérabilité : le bien et le mal.
Avec un zoom sur la constitution des données pour l’IA : qualité, intelligibilité, contextualisation, industrialisation…
L’émergence du retour de la gestion des connaissances (KM).
Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.
Sommaire :
- L’IA attend des données intelligibles
- Les pannes discrètes, invisibles des données
- De la stratégie de données à un S.I. data platformisé
- Les dix des mythes les plus courants et les plus tenaces sur l’architecture des données
- Enrichir le contexte des données par des données externes
- Tension sur les données : interopérabilité et accès
- Lunette data en lecture du rapport « Trends – Artificial Intelligence » BOND
- Les données dérivent et c’est normal, il faut les surveiller
- Data platform – data architecture
- Armes et pouvoirs des données (le feuilleton DOGE and Co)
- Enjeux de pouvoir : les batailles sur le transfert de données
- Les données ne sont pas neutres et l’influence de l’IA tend à faire oublier cela.
- Le peak oil des données
- La valeur des données via leur promotion en connaissance : retour du KM
- Vrac (IA et données : empoisonnement et exposition volontaire involontaire de données, Actualité passeport numérique produit et données, Actualité Open data, L’assurance maladie du futur vue par YuLife)
L’IA attend des données intelligibles
Pas de données par d’IA (le bon sens).
Les bonnes données pour l’IA un marché à plusieurs milliards de dollars, une charge pour les entreprises qui fait exploser les budgets au fur et à mesure de la prise de conscience qu’il ne suffit pas de prendre ses données tel que et que cela va marcher.
Autrement dit, l’enjeu de la production des datasets d’apprentissage (de qualité, à jour, orienté finalité de ce qu’on veut tirer du moteur d’IA, non biaisé, non empoisonné, qui permettent de produire des résultats intelligibles…) devient un sujet en tête de liste des entreprises.
1) Un article qui zoom sur le data labeling un savoir-faire et un marché particulier en plein expansion.
« That spend is only growing, with some forecasts suggesting data-labeling budgets could double by 2027, reaching over $10B annually »
« For founders and investors, the lesson is clear: owning the right data — the rarest, highest-impact, domain-specific data — is what will define the next generation of winners in AI. »
Des offres basiques, avec des centaines de milliers de travailleurs de la donnée (incarné par exemple par Scale AI).
Des offres expertes, où les annotations passent par des experts scientifiques, juristes, du management… Exemples cités dans l’article :
Micro1 (engineering and healthcare-focused labeling)
Turing (specializing in complex RL workflows)
Surge (high-quality human reinforcement learning feedback)
Datacurve (niche coding domain experts)
La nécessité d’industrialiser la profession.
« Companies like Turing have built advanced orchestration platforms, often called “RL gyms,” to manage these cycles at scale. These systems coordinate human labelers, evaluation frameworks, and live experiments, dramatically shortening iteration times. In practice, this can let a lab validate and adapt three times as many hypotheses in the same window, sharply improving their odds of discovering breakthroughs. »
Avec et toujours la problématique de contextualiser les données : « The field has moved beyond simple tasks like labeling stop signs, now prioritizing richly detailed expert reasoning with deep contextual nuance. »
Source : https://www.datagravity.dev/p/the-future-of-data-labeling-from
2) Et pour aller plus en profondeur sur le traitement « intelligent » des données pour l’IA – idée de data intelligence grammaire, à écouter ou regarder une intervention dans un colloque du Collège de France. Intervention de Océane Fiant : « Interroger l’explicabilité des systèmes d’IA : étude de la conception d’une IA médicale intelligible ». Le podcast est sur l’appli Radio France et aussi ici https://www.college-de-france.fr/fr/agenda/colloque/implications-philosophiques-de-ia/interroger-explicabilite-des-systemes-ia-etude-de-la-conception-une-ia-medicale-intelligible
Un point clé à retenir : faire de ses données, des données d’apprentissage permettant de produire des résultats intelligibles par les moteurs d’IA versus courir après l’explicabilité.
En synthèse :
- Concerne l’IA « classique » (Machine Learning, Deep Learning) – pas l’IA générative,
- Traite de la reconnaissance de pathologies à partir d’images médicales,
- Le problème des moteurs d’IA est de fonctionner en boîte noire – on ne sait pas expliquer comment le résultat a été obtenu, ce qui limiterait son usage dans l’univers médical,
- Le propos de l’intervenante est de dire que l’explicabilité n’est pas forcément un problème si on est capable de produire des résultats intelligible pour les médecins,
- Pour produire un résultat intelligible cela se joue dans le datasets d’apprentissage du moteur d’IA (forcer le moteur d’IA à exprimer des informations intelligible),
- Ce dataset doit être conçu de façon à produire des résultats intelligible,
- Si le résultat est trop éloigné des connaissance du médecin, ne fait pas sens pour lui, alors cela ne marche pas,
- Cela veut dire de travailler sur la façon de représenter les données d’entraînement,
- Classiquement, le travail consiste à labéliser les images via des annotations par des experts (pathologistes),
- Ce travail coute cher, est fastidieux, de qualité inégale (grossier dans certains cas),
- La solution est d’automatiser cette labélisation via le deep learning,
- Pour cela l’idée est de s’appuyer sur un marquage des échantillons (images de cellules) via une « grammaire » de représentation qui parlent aux médecins,
- La chance dans le domaine de la pathologie est que cette » grammaire » existe : l’immunohistochimie
En conclusion en rendant les résultats intelligibles, on ne parle plus de remplacer les médecins, mais au contraire de renforcer leur expertise (l’IA est ici vue comme un lecteur plus puissant des images).
Je suis d’accord avec tout cela.
Dans ce type de problème, la clé est la bonne constitution du dataset d’apprentissage pour produire un résultat intelligible. La piste est une réflexion sur la grammaire data qui va bien par rapport au contexte traité pour construire ce dataset (la chance des pathologistes est d’avoir cette « grammaire »*).
* Dans son discours, l’intervenante n’emploie pas le mot grammaire (mais c’est mon interprétation et par analogie avec d’autres exemples de constitution de datasets pour des résultats intelligible).
3) Deux autres articles toujours sur les enjeux des datasets d’apprentissage :
Le besoin de données féminines : https://datanews.levif.be/carriere/emplois/she-goes-ict/le-datai-gap-les-raisons-du-besoin-urgent-de-donnees-feminines/ Les datasets d’apprentissage des moteurs de recommandation (Netflix, Last.fm…) : https://www.turingpost.com/p/yambda?_bhlid=d9a2355e2b3c0995b20606da4fd379cd6a3d171a
4) Mythe de l’IA qui peut se passer de la qualité des données
Il y a une idée qui traîne que la qualité des données n’a plus d’importance dans l’esprit des techniciens de l’IA. L’ingénierie et les modèles suffisent à eux seuls de fournir des solutions performantes.
L’auteur (et du bon sens), défend que la qualité des données fait la différence à l’ère des LLM et des agents IA. Voire plus, les agents IA sont totalement dépendant de façon critique à la qualité des données.
Source : https://towardsdatascience.com/data-has-no-moat/
5) Retour d’expérience sur le projet de constitution d’un dataset à partir de la numérisation de la collection de la bibliothèque Harvard
Article retour d’expérience sur le projet de constitution d’un dataset à partir de la numérisation de la collection de la bibliothèque Harvard (1 075 899 volumes écrits dans plus de 250 langues différentes, pour un total d’environ 250 milliards de jetons LLM).
Extraction du texte OCR, des métadonnées bibliographiques et des métadonnées de traitement., détection des langues, classification automatique, détection des doublons, scoring qualité de numérisation, reprise des paragraphes lisibles, identification des risques éthiques, amélioration de la « tokenisabilité » pour les modèles.
Source : https://arxiv.org/pdf/2506.08300
6) Gestion des valeurs manquantes
Les valeurs manquantes sont fréquentes dans les jeux de données réels, notamment dans le domaine de la santé. L’application d’algorithmes d’apprentissage automatique peut s’avérer complexe, car la plupart des modèles sont peu performants en présence de données incomplètes. L’article évalue les performances de sept techniques d’imputation
Source : https://link.springer.com/article/10.1007/s41060-025-00825-9
Les pannes discrètes, invisibles des données
Un REX et des recommandations de la vrai vie.
Ou quand de micro défaillances non détectées dans un pipelines de données mettent à mal insidieusement le résultat produit – tableau de bord par exemple (quelques % d’enregistrements perdus, des doublons non traités…).
« The dashboards were green, the jobs were completing successfully, and everyone was confident the data was accurate.
Everyone was wrong. »
Source : https://mkazitanvir.medium.com/the-data-failures-that-never-make-it-to-your-dashboard-695d95cbe5b9
De la stratégie de données à un S.I. data platformisé
Toujours la confrontation au solutionnisme.
Trop souvent, les discussions autour des données se concentrent sur le choix de technologies (data platform, data catalog…).
Trois considérations de l’auteur :
1) Le passage (de bon sens) par la stratégie de données avant de se lancer dans les choix de solutions. Avec la meilleure façon d’élaborer une stratégie qui est de construire un portefeuille vivant de cas d’usage.
Remarque personnel : savoir construire un tel portefeuille repose sur un savoir-faire particulier et la connaissance des fondamentaux data.
2) Le chantier cœur n’est pas de rajouter une solution data platform « à côté », mais de transformer un S.I historiquement applicatif issus d’une transformation digitale vers une transformation data (data centric).
L’héritage : le S.I. des entreprises est axé sur les applications.
Cette approche a créé des écosystèmes informatiques rigides, où l’agilité et la réutilisation des données sont souvent limitées par les limites des applications.
La transition : l’entrée dans l’ère des données Nous assistons aujourd’hui à une évolution majeure, les entreprises s’orientant vers des modèles axés sur les données, rendus possibles par les technologies de nouvelle génération, notamment l’IA.
« Passer d’une approche axée sur les applications à une approche axée sur les données n’est pas une simple migration technologique : c’est un changement fondamental de mentalité et d’architecture. Cela nécessite de repenser la création de valeur, la conception des systèmes et la collaboration entre les entreprises et les services informatiques. Ceux qui réussiront cette transition bénéficieront non seulement de niveaux d’agilité et d’analyse inédits, mais bénéficieront également d’un avantage concurrentiel durable. » – extrait traduction Google
3) L’auteur bascule ensuite dans l’aspect solution avec 3 scénarios :
La Cathédrale : des plateformes géantes prêtes à l’emploi (voir sur ce scénario https://www.datassence.fr/2024/07/11/notes-linkedin-live-cathedrales-data-it-vs-chapelles-data-metiers/)
Le Bazar : des plateformes assemblées en interne
L’Hybride : une combinaison sur mesure des deux, typique des grandes entreprises
« Il existe quatre grandes catégories de fournisseurs de méga-plateformes :
Fournisseurs de plateformes de données pure-play : Cloudera, Databricks, Dremio, Palantir, Snowflake
Écosystèmes centrés sur l’ERP : Salesforce, SAP, ServiceNow, Oracle
Hyperscalers cloud : Amazon AWS, Google GCP, Microsoft Azure, Alibaba
Fournisseurs de plateformes hybrides (combinant infrastructure, ERP et outils d’IA) »
Pour le bazar : plateforme minimale développée / intégrée en interne, un mixte de briques open source et commerciales (et je rajouterais des offres comme 5X). Et pour nième rappel, l’intégration est le problème le plus dur en génie logiciel. Voir sur ce sujet des data platforms – le chapitre correspondant des guides publiés en 2024 : https://www.datassence.fr/2024/04/23/dynamique-et-panorama-des-data-platforms/
Voir sur ce sujet des data platforms – les guides publiés en 2024 :
4) Et enfin penser à la mise à l’échelle des produits de données issus des data platforms dans toute l’entreprise.
« La mise à l’échelle des produits de données signifie permettre aux équipes de plusieurs unités opérationnelles, zones géographiques et fonctions de créer et de maintenir de manière autonome leurs propres ressources de données, sans sacrifier la gouvernance, l’interopérabilité ou l’efficacité.
En adoptant des normes ouvertes, des outils déclaratifs et une approche de maillage de données, les entreprises peuvent enfin étendre la distribution de leurs produits de données au-delà de l’informatique centrale, rapprochant ainsi la propriété des données de l’entreprise et transformant la manière dont les informations et la valeur sont créées à l’échelle de l’entreprise. »
Source : https://el-kaim.com/data-ai-strategy-the-platform-or-the-baazar-1cfab50b5c47
Les dix des mythes les plus courants et les plus tenaces sur l’architecture des données
1. Nous avons besoin d’une plateforme de données centralisée pour créer de la valeur pour l’entreprise. Autre variante : il suffit de choisir la bonne pile technologique de données pour créer de la valeur pour l’entreprise.
L’expérience est impitoyable, dans la majorité des entreprises, la data platform centrale ou la vue data unifiée est un mythe voire un frein (sauf si votre taille et votre culture le permette, sauf si vous être une entreprise de nouvelles technologies … data processing).
2. La qualité des données peut être corrigée en aval, au sein même de l’univers des données
En réalité, la qualité doit être garantie à la source, et non améliorée ultérieurement.
3. Il existe une source unique de vérité
Ce malentendu est tenace. Et la vrais vie, montrent que dans les circuits (pipelines) de données on se retrouve vite à devoir choisir entre plusieurs sources.
4. Nous devons tout modéliser en amont avant de livrer quoi que ce soit
Les modèles naissent de l’itération et de la collaboration, et pas seulement par définition.
5. SQL est tout ce dont vous avez besoin pour le traitement des données
SQL est puissant pour les requêtes, mais y intégrer toute la logique crée complexité et fragilité.
6. Les produits de données ne sont que des ensembles de données avec des noms plus pertinents
En variante, les produits de données ne sont que des applications qui fournissent les données demandées via des appels d’API.
Les produits de données sont plus que cela : un packaging (étiquetage), des responsabilités (du producteur, des consommateurs), des nœuds dans une vue d’ensemble (data mesh)…
7. La gouvernance est une question de contrôle et de restrictions.
En réalité, une bonne gouvernance permet un partage sécurisé des données et une agilité accrue, plutôt que d’imposer des restrictions.
Le contrôle tue l’innovation ; la gouvernance doit donc responsabiliser les équipes, et non les bloquer.
8. Le maillage de données est réservé aux données analytiques.
Le maillage de données promet de relier les univers des données opérationnelles et analytiques, malheureusement cloisonnés pour les consommateurs de données.
9. Le streaming remplace à terme le traitement par lots
En réalité, le traitement par lots est un sous-ensemble logique du streaming et peut être plus efficace si une faible latence n’est pas requise.
10. Le cloud : vos données deviennent économiques et performantes
En réalité, le cloud n’est pas un monde magique, offrant une évolutivité infinie et des coûts réduits, vers lequel il suffit de migrer.
Le cloud étend votre infrastructure, pas votre intelligence. Sans rigueur en matière de conception et d’architecture, ce n’est qu’un moyen rapide de dépenser plus. Source : https://blog.det.life/unlearning-data-architecture-10-myths-worth-killing-946e728f1acf
Enrichir le contexte des données par des données externes
Rappel des données sans contexte n’ont pas de sens.
Par contexte on entend : sources des données, finalité et méthode de collecte, période – couverture, relations, limites de représentation, lineage des traitements…
L’idée est de compléter ce contexte avec des sources externes.
Exemples :
- Combinaison de données internes avec des flux géospatiaux, climatiques, démographiques ou IoT.
- Une entreprise de logistique superpose les schémas de trafic aux délais de livraison pour optimiser les itinéraires.
- Dans le domaine de l’IA, utiliser le traitement du langage naturel pour extraire le sens d’un texte non structuré ou l’apprentissage profond pour déduire des relations, des catégories comme les avis publiés sur d’autres plates-formes par thèmes de sentiment.
Tension sur les données : interopérabilité et accès
1) L’interopérabilité des données : un bien comme un mal
L’interopérabilité est un principe de base de tout bon architectes S.I., de données (dans l’utilisation, la circulation, la réutilisation des données).
Cependant cela peut poser des problèmes éthiques.
L’article analyse cette tension (bien ou mal) au travers du cas de données biomédicales.
L’article distingue deux grandes catégories de préjudices éthiques liés à l’interopérabilité :
Préjudices individuels
Risques accrus de violation de la vie privée (ex. : réidentification de données anonymisées)., les usages secondaires des données dépassent souvent ce que les individus avaient anticipé ou accepté. Exemple : dans la recherche biomédicale, l’association de bases de données (cliniques, génomiques, administratives) rend possible la réidentification de patients.
Préjudices structurels
Inégalités dans la qualité ou la disponibilité des données selon les populations. Exclusions ou biais dans les représentations de groupes vulnérables (ex. : minorités raciales, populations à faibles revenus). Exemple : pendant la pandémie de COVID-19, les lacunes d’interopérabilité ont empêché de suivre correctement la progression du virus dans certaines populations marginalisées.
Exemple de tension : protéger les droits individuels peut parfois limiter l’utilité sociale des données, et inversement.
L’article propose une réponse philosophique inspirée du pragmatisme (Peirce, Dewey, Rorty, Leonelli) qui insiste sur l’importance des pratiques concrètes, situées, adaptatives. L’objectif n’est pas de créer une solution universelle, mais d’encourager des pratiques réflexives et adaptées aux situations réelles.
Trois stratégies complémentaires sont proposées :
1.Normalisation des données
Utilisation de taxonomies/ontologies communes.
Limites : toujours situées, contextuelles, potentiellement inadaptées à des usages secondaires.
2.Curation manuelle des données
Nettoyage et vérification humaine des données, en particulier pour les éléments périphériques souvent négligés (ex. : ethnicité, antécédents médicaux).
Objectif : limiter les biais structurels et les effets d’exclusion.
3.Documentation minutieuse des données (étiquetage)
Approches comme les datasheets for datasets ou les dataset nutrition labels permettent d’expliciter les contextes de collecte, les intentions, les formats utilisés, les biais potentiels, etc.
Favorise la traçabilité et la réutilisation éthique des données.
Les auteurs parlent d’un monde saturé de données, ou ce n’est pas l’automatisation brute qu’il faut privilégier, mais la capacité humaine à interroger, contextualiser, documenter et ajuster.
Remarque personnelle : mais est-il réaliste de penser que le gigantisme de cette saturation est traitable humainement et ne va pas finalement être négligé ou être délégué à des IA ?!
Source : https://journals.sagepub.com/doi/full/10.1177/20539517251352815?mi=ehikzz
2) La tension sur l’accès
Et quand l’Europe cherche le bon équilibre entre disposer de données dans la lutte contre la criminalité et le respect des droits fondamentaux.
Avec comment accéder aux données de l’appareil de l’utilisateur (data at rest on the device), aux données stockées chez les fournisseurs de service (data at rest on service providers’systems), aux données en transit.
L’article liste les freins à ces accès.
Et propose 43 recommandations tout en mettant en regard la protection des droits fondamentaux.
L’article s’inscrit dans les travaux de L’Europe sur les données. Publié en novembre 2024, met lu en juin. Intéressant de suivre comment la tension entre accès et protection va être résolue ?
Et à rapprocher du sujet : Le confidential computing
A lire l’article de LeBigData.fr qui donne un bon résumé du sujet : protéger les données à tous les niveaux hard, soft, selon des dispositifs (chiffrage complet, enclave sécurisée) avec la présentation de solutions matérielles et logicielles (SDK). Et la nécessité de penser en profondeur l’architecture de données et le code associé
Source : https://www.lebigdata.fr/confidential-computing-2
Lunette data en lecture du rapport « Trends – Artificial Intelligence » BOND
Par BOND – Mary Meeker / Jay Simons / Daegwon Chae / Alexander Krey
Le célèbre tour d’horizon de l’IA par BOND – 340 pages publié le 30 mai
Deux volets data identifiés :
- A partir de la page 22, effleuré mais évoqué IA et KM (Knowledge Generation and Distribution) : distribution de la connaissance, des données à la connaissance (à noter l’émergence du retour du Knowledge Management – naturel – voir la pyramide DICP ou encore la problématique de contextualisation des données pour leur donner du sens.
- A partie de la page 300 Voir AI & Physical World Ramps = Fast + Data-Driven. Les piles de données du monde physique sous-jacentes aux moteurs d’IA sont de plus en plus intelligente… (cercle vertueux ?!). Exemple de l’exploitation par les véhicules autonomes, des simulateurs, de la vision du monde physique géologique, de l’agriculture et … du secteur de la défense
Dans ce rapport n’est pas abordé le volet dataset marché, data workers…pour l’IA.
Source : https://www.bondcap.com/reports/tai
Les données dérivent et c’est normal, il faut les surveiller
Les données ne sont pas figées (dans leur définition, valeur unitaire, valeurs d’ensemble, modes de collecte..). Ces dérives sont intrinsèques aux données (le monde n’est pas figé).
La dérive des données n’est pas le véritable problème : votre stratégie de surveillance l’est.
« Le mythe de la dérive des données comme cause profonde
D’après mon expérience, la plupart des équipes de machine learning apprennent à ne rechercher la dérive des données qu’après une dégradation des performances du modèle. La détection de la dérive statistique est la réaction automatique du secteur face à l’instabilité. Cependant, même si la dérive statistique peut démontrer que les données ont changé, elle explique rarement la signification de ce changement ou son importance. »
Source : https://towardsdatascience.com/data-drift-is-not-the-actual-problem-your-monitoring-strategy-is/
Data platform – data architecture
1) Comment survivre dans la jungle des solutions data et de leurs promesses : une data platform pour tous vos besoins, fini les problèmes de pipelines, évoluez et passez à autre chose que les ETL, c’est quasi gratuit open source dans un cloud…
Le choix des bons outils data n’est pas simple.
L’auteur cite quelques pièges des éditeurs :
- Les coûts réels futurs (obscures qui explosent),
- La gravité des données : plus vous avez de données au même endroit, plus il est difficile de se libérer de l’éditeur,
- Les freins posés sur le data sharing : Les plateformes modernes facilitent l’entrée de données, mais compliquent leur sortie
- Le mythe du multi-cloud
- Les modes autour de concepts d’architecture data marketées : zero ETL, modern data stack…
- L’illusion de bibliothèques de connecteurs industriels (voir l’exemple d’Airbyte décrit dans l’article)
- Paradoxalement des performances non au rendez-vous,
- Les fournisseurs vantent la simplicité, mais la réalité exige souvent une expertise approfondie des briques technologiques sous-jacentes,
- L’enfer de l’intégration dont personne ne parle (LE PROBLEME CLE DANS TOUTE ARCHITECTURE LOGICELLE).
Bref la vrai vie. Avec les bonnes questions à poser en fin de l’article.
2) Build ou buy votre data platform
Un article tour d’horizon, arguments pour et contre et selon le bon point de vue d’un contexte dynamique (les besoins data évoluent – stratégiques – utilisateurs, le marché des solutions évolue, les couts évoluent, la maturité data de l’entreprise évolue…mais le problème de l’intégration technique demeure).
Source : https://towardsdatascience.com/mythical-pivot-point-from-buy-to-build-for-data-platforms/
3) Le post modern data stack … parce que l’IA
- Parce que l’IA (générative) est arrivée
- Parce que les agents IA arrivent
- Parce que l’IA classique (Machine Learning) est ringarde
- Parce que les architectures du passé étaient principalement déterministes et idempotentes et l’IA bouleverse cela
- Parce qu’il faut suivre le protocole MCP (Model Context Protocol)
- Parce qu’on peut passer du QUOI (vision en recul) au COMMENT (vision en prospective) grâce à l’IA
Source : https://joereis.substack.com/p/the-postmodern-data-stack-and-action
4) Eliminer les ETL, l’intégration de données … le buzz zéro ETL
Parce que c’est lourd de copier les données à partir des systèmes sources, puis de les décortiquer par une équipe centrale, souvent dépourvue de contexte commercial, pour tenter de reconstituer la réalité d’origine.
Deux offres de startup sur le sujet – faire venir l’analyse aux données versus l’inverse : Tabsdata – https://tabsdata.com/ – (gestion du mode publish and suscribe directement sur les sources) et PuppyGraph – https://www.puppygraph.com/ – (analyse sans migration des données)
En conclusion (personnelle) : si vous êtes en face d’une page blanche de votre S.I. Sinon cela a un cout. Source : https://datanews.levif.be/analyse/arriere-plan/comment-la-silicon-valley-innove-aussi-en-matiere-darchitectures-de-donnees/
Autres ressources sur le sujet : https://sutejakanuri.medium.com/zero-copy-architecture-redefining-data-movement-in-the-modern-enterprise-12f6d90487ce et https://blog.det.life/the-end-of-etl-the-radical-shift-in-data-processing-thats-coming-next-88af7106f7a1
Et aussi, Un moteur de traitement de données multimodal – l’offre https://www.eventual.ai/. Source : https://techcrunch.com/2025/06/24/how-a-data-processing-problem-at-lyft-became-the-basis-for-eventual/
5) Data product : montée en maturation
Trois ressources :
https://medium.com/@swdriessen/ensuring-data-products-are-good-with-daft-univrs-876511806f1e
https://medium.com/doctolib/our-path-to-implement-a-product-approach-to-data-1-5-43e88565b8ab
https://medium.com/@arthur.dc/our-path-to-implement-a-product-approach-to-data-5-5-6af4bde02508
Armes et pouvoirs des données (le feuilleton DOGE and Co)
Dans la suite des revues des mois précédents, des nouveaux cas :
Quand les data brokers fournissent les données des cibles de criminels (ici le meurtrier de la députée du Minnesota Melissa Hortman et de son mari, Mark Hortman) : https://www.wired.com/story/minnesota-lawmaker-shootings-people-search-data-brokers et https://www.techdirt.com/2025/06/18/surprise-minnesota-killer-used-data-brokers-to-target-and-murder-politicians/
Palantir, la data-platform du DOGE et d’autres départements fédéraux, avec le bénéfice d’une facilité de rapprochement des données. Quand supprimer des silos conduit à accroitre la puissance des données pour le bien ou le moins bien… https://www.techdirt.com/2025/06/06/trump-administration-showers-palantir-with-millions-to-compile-data-to-wield-against-american-citizens/
« new report by 404 Media this week revealed that U.S. airlines have created a data broker whose primary purpose is to covertly sell user flight and other information to Customs and Border Protection (CBP) »… « The corporate monetization of your every behavior and location metric has resulted in a vast sea of nontransparent hyper-surveillance the government has zero interest in fixing. ». https://www.techdirt.com/2025/06/12/u-s-airlines-built-a-secret-data-broker-to-help-the-government-spy-on-customers/
Détournement de listes catégorisées, quand les ADN d’enfants de migrants sont intégrés dans le fichier des ADN de criminels utilisé par les forces de l’ordre. https://www.techdirt.com/2025/06/13/migrant-children-are-being-added-to-a-criminal-dna-database-just-because/
Quand les données de suivi menstruelles sont utilisées pour contrôler la vie reproductive des gens !
Le département de la santé de l’État du Missouri a utilisé (2019) des données de suivi menstruelles pour enquêter sur les avortements ratés. À la suite de cette enquête, l’État a tenté d’invalider la licence de la clinique Planned Parenthood de St. Louis – le seul fournisseur d’avortement de l’État à l’époque.
Au cours de la première administration du président Donald Trump, le Bureau fédéral de la réinstallation des réfugiés a suivi les cycles menstruels des mineurs non accompagnés à la recherche d’asile aux États-Unis, ils visaient à empêcher ces mineurs d’obtenir des avortements. Source : https://gizmodo.com/period-data-gold-mine-poses-serious-health-and-safety-risks-report-finds-2000614097
Un courtier des principales compagnies aériennes US (Delta, American Airlines et United) vend les données de ces compagnies au service des douanes et de la protection des frontières (CBP) du Département de la Sécurité intérieure (DHS). Source : https://www.wired.com/story/airlines-dont-want-you-to-know-they-sold-your-flight-data-to-dhs/
Le business du contrôle de ses données : payer pour ne plus être exploité par ceux qui possèdent vos données. Cinq services payant pour ne plus apparaître dans les données des data brokers. Source : https://lifehacker.com/tech/best-sites-that-remove-your-information-from-data-broker-sites
Enjeux de pouvoir : les batailles sur le transfert de données
1) « L’impossible stabilité du cadre juridique des transferts UE–États-Unis ?
Le Groupe de travail “Flux Transfrontaliers” de l’AFCDP (Association Française des Correspondants à la Protection des Données à caractère Personnel) a fait le point sur l’encadrement juridique des transferts de données personnelles de l’Union européenne vers les États-Unis. Au cœur des débats : la fragilité persistante du Data Privacy Framework (DPF), dernier mécanisme en date approuvé par la Commission européenne pour encadrer ces flux transatlantiques ». Un travail de l’AFCDP – www.afcdp.net
Extrait « Les agences américaines peuvent toujours accéder aux données personnelles sans réel contrôle indépendant. Cela reste a priori incompatible avec le RGPD et la Charte des droits fondamentaux de l’Union. »
A lire, je n’aimerais pas être DPO et concerné par des transferts de données avec les US.
2) « La « data agricole » fait peu parler d’elle, mais sa valeur est considérable. Générées par des fermes de plus en plus connectées, ces données sont ensuite exploitées par les constructeurs… à l’étranger le plus souvent. Mais le flou demeure quant à leur destination et leur usage. » Source : https://www.ouest-france.fr/economie/agriculture/fuite-a-letranger-risque-de-speculations-le-big-data-agricole-ce-nouvel-or-si-peu-encadre-acdf2fa6-37ce-11f0-9096-11e668431f68
3) Quand la plateforme d’échange de données de santé (assurance maladie) californienne envoi des données à LinkedIn.
« The story showed through forensic testing how the exchange, Covered California, used trackers that told LinkedIn when visitors entered health information like whether they were blind, pregnant, or used a high number of prescription medications into the website coveredca.com. ».
« But unbeknownst to those signing up for care, the exchange’s website used a tool called the “LinkedIn Insight Tag” that sent answers to potentially sensitive questions to the tech company. ».
A s’intéresser sur la puissance collusive explicite, implicite, des trackeurs de données auxquels il est impossible d’échapper.
Et aussi https://themarkup.org/pixel-hunt/2025/06/17/we-caught-4-more-states-sharing-personal-health-data-with-big-tech – « The Markup and CalMatters found that four states exposed visitors’ sensitive health information. ».
Avec :
« As visitors answered the questions, their responses were sent to LinkedIn and Snapchat, according to tests conducted by The Markup and CalMatters in April and May.
Screenshot of the interface for Nevada Health Link displaying a respondent’s selection for the prescription drug Fluoxetine
Screenshot highlighting the line of code where Nevada Health Link shares the respondent’s medication with LinkedIn
When an individual indicated that they took Fluoxetine, commonly known as Prozac, on Nevada Health Link, the information was sent to LinkedIn ».
« The Markup and CalMatters discovered the sharing after finding that California’s exchange, Covered California, told LinkedIn when a visitor indicated they were blind, pregnant, or a victim of domestic violence. ».
Et surprise (pas forcément – rappel Facebook ne sait pas où sont ses données – voir un vieil article ici https://www.datassence.fr/2022/09/12/maman-jai-perdu-les-donnees-data-lineage-et-data-observability-episode-1/)
« “It doesn’t surprise me that organizations that have these massive tech stacks that rely on third party-resources don’t have a full understanding of what the configuration is, what the data flows are, and then once they go to somebody, what that data is being used for,” Haskell said. ».
Et comment s’en protéger : https://themarkup.org/the-breakdown/2025/06/17/this-is-how-you-stop-data-trackers-from-sucking-up-your-health-data
4) Transférer des données sans le savoir : mise sur écoute par ‘Facebook Pixel’ et les applications META
Comment Facebook via des milliers de partenariats fait ajouter un fragment de code sur les sites partenaires pour tracer les visiteurs.
Avec l’idée de mesurer si les publicités Facebook génèrent des visites et achats supplémentaires.
Et aussi la découverte de chercheurs que les applications Facebook et Instagram captent des données de l’utilisateur et les envoient pour les associer au profil de ce dernier.
5) Et pour finir, un article d’une chercheuse qui a enquêté sur ses données personnelles pour s’apercevoir que son profil avait été revendu 50 fois.
Une visite immobilière et vos données circulent, on vous propose un prêt et à nouveau les données circulent …
« But finding out how they got that information can often be hard … So because people don’t really know what’s going on, they’re not really empowered to complain about it, ».
Source : https://hupster.kessel.media/posts/pst_1c57ea48ec6d46019db6aaadf00bd6bd/cette-chercheuse-a-ete-revendue-50-fois et l’article original https://www.theguardian.com/world/2025/jun/09/how-did-you-get-my-number-inside-the-shadowy-world-of-data-brokers-ntwnfb
Les données ne sont pas neutres et l’influence de l’IA tend à faire oublier cela
Ground-truth is law » – Le travail conceptuel dans les systèmes d’IA et le rôle central des données
Extrait : « Reprenant l’affirmation de Lawrence Lessig selon laquelle « le code fait loi », l’article soutient qu’en IA, l’influence du code formel a diminué, mais qu’une nouvelle forme de cadrage conceptuel structuré a émergé sous la forme d’ensembles de données de vérité terrain – où « la vérité terrain fait loi ». Ces ensembles de données, façonnés par divers acteurs tout au long de la chaîne de production de l’IA, guident subtilement les opérations algorithmiques sous couvert de neutralité. ».
Une reconfiguration du travail conceptuel autour des données
Les auteurs démontrent que les projets d’IA reposent sur une modélisation continue des savoirs, incarnée dans les données à travers cinq étapes-clés du processus de production algorithmique :
- Définition des objectifs
- Construction des jeux de données
- Création de taxonomies
- Annotation des données
- Supervision et correction des modèles
À chaque étape, des choix conceptuels sont effectués sur ce que le moteur d’IA doit apprendre, comment l’information est structurée, ce qui est visible ou non, et comment les erreurs sont traitées.
L’importance du ground-truth : les données comme fondement normatif
Le ground-truth, loin d’être neutre, matérialise les arbitrages, les valeurs, les catégories et les représentations du monde des acteurs impliqués dans le projet. Dans les deux cas d’étude (Datajust et Judilibre), ces jeux de données sont façonnés à travers :
- la sélection de documents juridiques à traiter (souvent biaisée par les habitudes professionnelles des magistrats),
- la définition de catégories (comme les types de préjudices ou les éléments à anonymiser),
- l’annotation manuelle des données (souvent sujette à des interprétations situées),
- et la validation continue des sorties de l’algorithme (contrôle qualité humain nécessaire).
La construction du jeu de données est un travail de normalisation sociale et cognitive, qui précède et conditionne le comportement de l’algorithme.
L’invisibilisation du travail de données. Le travail sur les données est doublement invisibilisé :
- Par sa fragmentation : il est réparti entre divers acteurs (magistrats, ingénieurs, annotateurs), avec des statuts et des pouvoirs asymétriques. Les annotateurs, en particulier, bien que centraux dans la création du ground-truth, sont perçus comme de simples exécutants alors qu’ils prennent des décisions conceptuelles majeures (par exemple, décider qu’un nom de cheval est une information identifiable).
- Par son déplacement hors du code : contrairement aux algorithmes symboliques (à base de règles explicites), le machine learning délègue l’encodage des concepts au processus d’annotation. Cela rend les opérations de cadrage conceptuel beaucoup moins visibles, alors même qu’elles ont une influence déterminante sur les résultats produits par les modèles.
Conséquences politiques et méthodologiques
- Le passage de « code is law » à « ground-truth is law » impose de repenser les responsabilités, car les biais et les choix conceptuels ne se situent plus dans le code, mais dans les données – souvent produites par des travailleurs invisibilisés ou à distance.
- L’article propose une méthodologie ethnographique orientée processus, visant à reconstituer l’ensemble de la chaîne de production algorithmique pour mieux comprendre comment les concepts sont encodés dans les systèmes d’IA via les données.
Source : https://journals.sagepub.com/doi/abs/10.1177/20539517251352823?ai=2b4&mi=ehikzz&af=R
Le peak oil des données
Déjà abordé dans les revues précédentes, le peak oil des données … n’existe pas et est même absurde. Nous ne sommes qu’au début d’un flot toujours plus massif de données.
« Aujourd’hui, cependant, dans le domaine de l’IA, de nombreux spécialistes parlent de « peak data », comme si nous avions épuisé toutes les données disponibles, alors que, à mon avis, nous n’avons même pas encore commencé à effleurer la surface. »
Progression des capteurs, captures, rapprochements de silos de données autrefois séparés, collecte dans la durée (alors que dans de nombreuses situation nous n’en sommes qu’aux premières années de collecte), exploitation des données non structurées (exemple documents d’entreprise) pour en extraire des données structurées, et quand on sait que dans les données non structurées on trouve les données de nos conversations, les systèmes de traçabilité sont partout (transports, santé, chaîne alimentaire… passe port numérique des produits), millions de travailleurs des données,
« There are more photos and videos taken every day around the planet than were taken in the entire 1970s, and it isn’t even close. ».
« Does Peak Data just mean “Centralized”? »… bonne question !
« This isn’t a question of “peak data”, its just a question of instrumentation, in other words: cost. »
Source : https://blog.metamirror.io/peak-data-is-about-effort-not-data-4079c80055c6
Et si cela ne suffit pas, comment les équipes d’IA utilisent des systèmes d’intervention humaine (HITL) pour rendre les données synthétiques utiles et sûres (encore une nouvelle tâche pour les data workers).
La valeur des données via leur promotion en connaissance : retour du KM
D’une façon générale, il y a un retour au knowledge management : documentations, knowledge graphs, pyramide DICP, métadonnées de contexte des données et bien entendu les performances de l’IA en terme de connaissance.
Une réflexion orientée Customer 360 qui devrait se fonder sur le principe de la « connaissance ». Que souhaite-t-on « savoir » sur le client et pourquoi ? (le bon sens)
Source : https://eric-sandosham.medium.com/the-problem-with-customer360-c52918ccad86
Vrac (IA et données : empoisonnement et exposition volontaire involontaire de données, Actualité passeport numérique produit et données, Actualité Open data, L’assurance maladie du futur vue par YuLife)
1) IA et données : empoisonnement et exposition volontaire involontaire de données
L’empoisonnement est une méthode de cyberattaque AI qui cible les données d’entraînement d’un modèle grand langage (LLM). L’attaque vise à introduire des données malveillantes dans le processus de formation pour modifier les prédictions du modèle.
Le risque d’exposition de données.
Une seule invite comporte un risque massif pour les données. Considérez une organisation avec 2 000 employés qui réalisent 20 invites par jour, cinq jours par semaine – cela représente 200 000 chances par semaine que les données peuvent être exposées.
La proposition naturelle de l’éditeur Varonis : « En surveillant continuellement vos données, en automatisant la gouvernance d’accès et en utilisant une détection de menaces proactive ».
Source : https://www.varonis.com/blog/model-poisoning
Et voir aussi sur le sujet : https://www.datassence.fr/2024/02/01/la-fausse-innocence-des-donnees/
2) Actualité passeport numérique produit et données
https://list.cea.fr/fr/le-passeport-produit-numerique-devient-une-realite-en-europe/
3) Actualité Open data
https://opendatafrance.fr/signature-de-la-charte-internationale-sur-les-donnees-ouvertes/
4) L’assurance maladie du futur vue par YuLife
Des données de signaux de santé provenant d’objets connectés (« temps réel »).
Des données régulières d’enquête à remplir par les assurés (300 questions, 23 thèmes tels que sur l’alimentation, les relations sociales…).
Le croisement avec des connaissance sur la santé (études de santé, génétique)
Le tout en interprétation dynamique par des modèles de risques à base d’IA (tests d’hypothèses, identification des comportements à problème ou bénéfiques).
Pour proposer des incitations personnalisées et opportunes (par exemple, « Essayez un exercice de respiration de 5 minutes maintenant ») ou de débloquer des récompenses ciblées (en crypto YuCoin).
RDV maintenant en septembre pour la revue et les actualités de juillet et août.

Les commentaires sont fermés.