Ce mois de janvier, les traditionnelles prédictions 2026 et des thèmes récurrents : data et IA, data architecture et analytic, data poisoning, guerre des données.

Les métadonnées toujours plus en vedette … et les limites de la contextualisation qu’elles peuvent fournir.

Toujours une liste de pas mal de notes de lectures au fil de l’eau.

A piocher en fonction de vos centres d’intérêt.

Sommaire :

Data prédictions 2026
Les métadonnées en vedette
Data et IA : apprentissage fédéré, LLM et BI, valeur des datasets d’apprentissage, collecte continue, l’IA ne « comprend » pas le monde, traiter les données non structurées, l’évolution du RAG, travailleurs des données pour l’IA, agents IA, modélisation assistée par agent
Zoom data et IA – world models
Data architecture – data analytic
L’accessibilité des données – tous mal voyant
Data poisoning
Données d’identité
Guerre des données
Data gravity – data centrisme
Apport du FAIR à la gouvernance des données et complément au DMBOK du DAMA
Vrac (disparaître des data brokers, des données F1, Dataïsme – capitalisme des données, Journalism Trust Initiative)

Data prédictions 2026

1) Liste de prédictions

a) Les stratégies data orientées usages humains doivent être réorientées vers les usages IA (LLM, agents). Avec en particulier le rôle clé de la contextualisation des données.

Les auteurs vont jusqu’à évoquer l’idée de capitalisme contextuel, où le contexte va être un élément différenciant, concurrentiel.

« As enterprises continue to enhance their AI capabilities, the differentiation shifts away from model access and toward how precisely systems understand their operating environment. ».

b) L’importance croissante de l’exploitation des données non structurées. Facteur d’une meilleure densité d’analyse.

c) Le rôle des données géospatiales : « We also came across several predictions about how geospatial data deepens this advantage. Location intelligence grounds enterprise data in physical conditions and external constraints. »

d) En lien avec la contextualisation, la recherche du sens en formalisant des couches sémantiques, des ontologies, vue graphe, couche intentionnelle… pour correctement interpréter les données par des agents IA, servir de garde-fous.

e) La bascule analyse -> action, sans passer par des acteurs humains : agent IA d’automatisation de processus d’analyse-décision-action et rétroaction, observabilité des données pilotée par agent, data product orienté action ‘The predictions point to a rise in decision-oriented data products designed for specific operational moments. These products are not built for exploration. They are built to be consumed by systems, with clear expectations around reliability and downstream behavior. ».

NB : attention au buzz des mots / concepts, contexte, sémantique, ontologie, graphe de relations… tout cela relève des métadonnées.

Source : https://www.hpcwire.com/bigdatawire/2026/01/05/2026-enterprise-data-predictions-context-capitalism-the-meaning-layer-the-data-activation-shift/

2) Course à la technologie et les mêmes problèmes restent

« 2026: The Year Data Engineers Must Think Beyond Tools — Why Data Problems Still Persist Despite Better Tools ».

En 2026, la course technologique autour des données ne faiblira pas. Mais malgré de meilleurs outils les problèmes data persistent :

1) « L’indicateur clé de performance auquel personne ne fait confiance » . NB : toujours le même éternel sujet – se re-câbler au métier (business model, comprendre comment les décisions se prennent, définition des données, contextualisation, labélisation des indicateurs…).

2) Prise en compte des dérives des schémas (source, définition de données, contexte qui évoluent et inversement données d’apprentissage figées).

3) Dans les éternels sujets : la qualité des données à la source, à la conception (design by modèle)

Source : https://medium.com/@adilshk047/2026-the-year-data-engineers-must-think-beyond-tools-why-data-problems-still-persist-despite-bfdb67f7d9d5

3) Data prédictions 2026 – le contexte des données – métadata layer – une couche active dans l’architecture de données des systèmes.

(voir aussi : les métadonnées en vedette)

Source : https://medium.com/@reliabledataengineering/the-metadata-layer-is-where-trust-will-be-won-or-lost-in-2026-and-most-companies-are-building-it-4f84476cfa7d

Ontologie, couche sémantique, graphe de connaissance tout cela relève de métadonnées.

Avec les questions : quelle gouvernance, qui les gère, comment, à quel cout… ? (les métadonnées sont des données et ne dérogent pas aux bonnes pratiques … des données).

Source : https://medium.com/@gdeckler/its-all-just-metadata-people-98d47ab5795c

Les métadonnées en vedette

1) Les métadonnées : la prochain couche d’infrastructure data ?

NB : rejoint le sujet de l’ingénierie de contextualisation des données, des couches sémantiques et autres forme de vues unifiées des données (ontologies…).

Indispensable au fonctionnement de l’IA et de ses agents.

Et cela marche dans les deux sens : les agents IA ont besoin de métadonnées et en retour leur fonctionnement produit des métadonnées utiles (boucle de rétroaction par exemple sur des modèles d’apprentissage).

L’enjeu : plus de fiabilité, plus de confiance dans les services rendus par les agents IA.

NB : avec le mur infranchissable actuellement du sujet des hallucinations.

L’article recense les deux types de métadonnées agentiques :

le contexte et la connaissance métier – nécessaire au fonctionnement des agents et aux garde-fous
les traces de fonctionnement des agents : opérationnelles (exécutions techniques), de raisonnement (étapes suivies par l’agent, traces de décision – de raisonnement, score de confiance…), d’interaction (appels à des services externes), de modèle (appels à des modèles IA, configurations d’appel.

Et cela pour l’observabilité, le pilotage, l’amélioration, l’audit, le débogage, la testabilité – reproductibilité, tests contrefactuels des exécutions agentiques et les réentraînements.

Avec le problème classique, toutes ses métadonnées (qui sont des données) comment faire que cela ne soit pas un marécage inexploitable. Cela signifie tout un travail d’architecture, de standardisation, d’interopérabilité des métadonnées. Un système de système à construire.

Avec de nouvelles fonctionnalités comme « “We’re seeing the emergence of specialized ‘decision stores’ that maintain relationship graphs between decisions, outcomes and contexts.” ».

Avec le sujet de la gouvernance des métadonnées.

Et pour finir : on en est qu’au début !

Source : https://thenewstack.io/is-agentic-metadata-the-next-infrastructure-layer/

2) Etiquetage des données, méta-données … data capsules.

Tout cela se rejoint.

Une série d’articles sur le sujet « A pragmatic path to self-describing data and how your governance platforms consume it.

In Part 1 of this series, I introduced Data Capsules: the principle that data should ship with its metadata as a single, versioned unit. Part 2 got practical, showing how to implement Capsules on Delta Lake, Apache Iceberg, and Apache Hudi. Part 3 extended the pattern to AI/ML workflows and real-time streaming systems. »

Le défi : « Most teams can’t halt production to retrofit metadata across hundreds of tables. Big-bang metadata projects fail; scope creep, stakeholder fatigue, and the perfect becoming the enemy of the good. What works is incremental adoption: prove value early, expand based on evidence. »

La définition d’une data capsule selon l’auteur – https://medium.com/@arrufus/data-capsules-ship-data-and-metadata-as-a-single-unit-7fd3f56f6641

« A Data Capsule (the term is inspired by privacy research from Wang et al, although I use it more broadly in this blog) is a logical object where the following components are tightly bound and versioned together: »

Traduction – extrait

« Métadonnées structurelles : schéma, types de données, clés primaires, tolérance aux valeurs nulles, contraintes ; détails décrivant la structure des données.

Métadonnées sémantiques : définitions métier, unités de mesure, vocabulaire du domaine. Que signifie concrètement « cust_seg_3 » ? Pourquoi « revenue_adj » est-il différent de « revenue_raw » ?

Critères de qualité : règles de validation, distributions et seuils, ainsi que signaux d’anomalie. Qu’est-ce qui est considéré comme des « données de qualité » par opposition à des données nécessitant une investigation immédiate ?

Métadonnées de politique : classification de la sensibilité, règles de masquage, exigences de conservation, restrictions géographiques, utilisations autorisées (peut-on entraîner des modèles d’apprentissage automatique sur ces données ?).

Ancrages de provenance et de traçabilité : d’où proviennent ces données ? Quelles transformations les ont créées ? Comment sont-elles liées à d’autres ensembles de données ? Des identifiants stables permettent de suivre les données « de la production à la consommation ».

Contrat opérationnel : accords de niveau de service (SLA) sur la fraîcheur des données, garanties d’intégralité, propriété et coordonnées en cas de problème.

Précision importante : la colocation physique n’est pas toujours nécessaire ni pratique. L’essentiel est :

Une forte liaison : des identifiants stables et des références obligatoires entre les données et les métadonnées.

La co-version : toute modification des données entraîne une modification simultanée des métadonnées. »

NB : les éléments de base de la pratique de génie logiciel – définition d’un cahier des charges* – volet données (* vieux vocabulaire de l’époque – mais les fondamentaux restent).

Source : https://medium.com/@arrufus/the-data-capsules-adoption-roadmap-from-concept-to-production-in-phases-c508084f38d0

3) La contextualisation des données, sujet roi 2026.

(voir aussi : data prédictions 2026)

Contextualisations : sémantique, temporelle, relationnelle, fonctionnelle (cycle de vie des données) – qualité des données…

Extrait :

« Before And After: The Real-World Impact

Before Context Engineering

Query: “Show me high-value customers in California”

AI Agent’s internal process:

Searches for “customers” → finds 12 tables
Searches for “California” → finds address fields in 8 tables
Guesses “high-value” means total_orders > 100 (wrong — it’s lifetime_value > $50K)
Joins customer_raw (deprecated table) instead of customer_master_v2
Includes test accounts because no context exists about data_source_type
Returns 12,847 results (actual answer: 342)

Result: Completely wrong answer delivered with complete confidence. Decision gets made on garbage data. Nobody realizes until consequences manifest.

After Context Engineering

Query: “Show me high-value customers in California”

AI Agent’s internal process:

Consults context layer: high_value_customer has certified definition: lifetime_value >= 50000
Finds certified table: dim_customer_master_v2 (context shows v1 deprecated)
Applies context filters automatically: exclude test_accounts, exclude cancelled_customers
Verifies data quality score: 0.92 (acceptable for analytics use case)
Uses certified join pattern: dim_customer → fact_orders → dim_geography
Returns 342 results with quality score and data lineage attached

Result: Correct answer. Confidence score provided. Auditability maintained. Trust preserved. »

L’article décrit ensuite 4 patterns de mise en œuvre : data product definition, métadonnées actives, RAG 2.0, contextualisation agents.

« If data was the oil of the 2010s, metadata is the oil of the 2020s. In 2026, successful data engineers understand that investing in metadata is not overhead — it’s the core value proposition. »

Source : https://medium.com/@reliabledataengineering/context-engineering-is-now-the-most-critical-data-engineering-skill-and-90-of-engineers-dont-166ac340beef

Et le sujet de la contextualisation s’applique tout autant pour la génération de code.

Source : https://thenewstack.io/better-context-will-always-beat-a-better-model/

4) Les limites de représentation du contexte, de la couche sémantique utilisée par les agents IA.

Toujours l’aspect non déterministe, l’absence de « compréhension » de l’intention (au-delà du contexte, l’intention fixe l’ambition, la stratégie, l’objectif à atteindre) et plus concrètement, les limites de la génération SQL (indexation absente, jointure à tort, performances – rappel SQL est dans état – chaque requête repart de zéro, la couche sémantique décrit les données, les résultats mais pas comment les construire, l’éternel principe souvent contourné – on n’accède pas en direct à un schéma physique, les métadonnées de gouvernance non actives (gestion des accès, données sensibles) – uniquement documentaire que l’agent IA ne saura pas interpréter (ou mal),

Source : https://medium.com/@nishant.sharma.007/limits-of-the-semantic-layer-what-ai-agents-actually-need-f853e63b0cfe

5) Suite des limites de représentation du contexte …

En environnement ouvert, impossible de capter tout le contexte (c’est sans fin : contexte proche … lointain…).

Et il suffit de se rappeler pour la bonne la lecture des tableaux de bord post COVID avec les flèches de lecture « Impact COVID » présentent partout.

Un bon article de Philippe Silberzahn sur l’incertitude non captée par l’IA dont liées aux données.

Extraits :

« Quatrième idée, souvent oubliée : l’IA ne travaille que sur des données formalisées sous forme digitale, alors qu’une grande partie de l’information pertinente, celle qui compte vraiment, n’existe pas sous cette forme. Les intentions, les motivations, les conflits latents, les sentiments, la confiance, la peur, la culture locale, les rapports de pouvoir informels ou les signaux politiques faibles sont rarement bien captés par des données quantitatives. … En médecine, le vécu subjectif du patient, sa manière de décrire sa douleur ou ses contraintes sociales ne se réduit pas à des constantes biologiques. Cela signifie que l’IA peut donner une impression de maîtrise alors qu’elle ignore des facteurs décisifs, non digitalisés, pour comprendre ce qui va réellement se passer.

Cinquième idée : même lorsque l’information est digitale, les données sont souvent ambiguës, incomplètes, biaisées, voire fausses. Elles reflètent des instruments de mesure imparfaits, des choix de catégorisation subjectifs, des comportements stratégiques ou des erreurs humaines. …. En outre, les données peuvent être délibérément faussées, et ce de façon massive (fake news). Si l’IA peut apprendre très efficacement à partir des données, elle apprend aussi leurs distorsions, ce qui peut produire des prédictions précises mathématiquement mais fragiles, voire erronées, sur le plan du sens. »

Source : https://philippesilberzahn.com/2026/01/19/resoudre-l-incertitude-grace-a-l-ia-ou-l-illusion-scientiste-du-management/

Data et IA : apprentissage fédéré, LLM et BI, valeur des datasets d’apprentissage, collecte continue, l’IA ne « comprend » pas le monde, traiter les données non structurées, l’évolution du RAG, travailleurs des données pour l’IA, agents IA, modélisation assistée par agent

1) Les problèmes de la centralisation des données et l’avenir de l’apprentissage fédéré

Les problèmes de la centralisation :

Le SPOF (single point of failure).

La latence – regroupement des données

La contextualisation partielle / absente

La réglementation appliquée partiellement (seulement au niveau de la centralisation)

Comment former l’IA sans centraliser ?

L’idée d’apprentissage fédéré

On envoie les modèles IA pour apprentissage à la source des données (changement de paradigme – logique data centric, les traitements vont aux données versus l’inverse).

Cas présenté : l’apprentissage de détection du cancer en mobilisant les données de 20 hôpitaux.

Aussi « NVIDIA built an entire platform around this called FLARE, specifically for autonomous vehicle companies. They train driving models across different countries (Germany, Japan, the United States) without centralising any regional data. »

Et aussi sur la téléphonie grand public : IA locale sur les données biométriques, la complétion clavier…

Avec des frameworks sur le marché : FedML, OpenFL et IBM Federated Learning

Les défis qu’il reste :

1) Surcharge de communication – flux de circulation des modèles (et mises à jour)

2) Comment orchestrer l’apprentissage de modèles sur une multitude de sources

3) Hétérogénéité des données entre sources – distribution, définition de données différentes difficiles à exploiter par les modèles

4) Les risques d’extractions de données individuelles qui restent

Source : https://medium.com/codex/how-ai-companies-stopped-centralising-your-data-and-built-better-systems-5eaeb88ad888

2) Quand brancher un LLM sur son entrepôt de données / DW est une erreur

Les modèles de données sous-jacent aux plates-formes data ne sont pas pensés pour l’IA.

Les modèles de données doivent être pensés pour les usages LLM : interrogations non prévisibles (attention aux jointures produites par les LLM sur un schéma de données classique – lisible par les humains versus un schéma colonnaire lisible par l’IA, apprentissage des agrégats pertinents), mode conversationnel, contextualisation (couche sémantique, métadonnées).

Avec la difficulté de sécurisation, du piège du secret indirect (déduction de données sensibles par différence), d’où d’être en mesure de classifier dynamiquement les requêtes (s’assurer que l’utilisateur ne consulte que les données de son périmètre).

L’auteur préconise une modélisation par entité (logique de pensée des utilisateurs) et non via un schéma en étoile.

Penser boucles d’apprentissage (les interrogations, conversations font partie des donnée à représenter et à associer – aux requêtes SQL, à certaines métadonnées par exemple).

Source : https://medium.com/data-science-collective/how-to-build-data-models-that-actually-work-for-conversational-ai-in-2026-67d16f261344

Brancher un LLM sur votre BI : la fausse bonne idée qui peut coûter très cher

Un bon résumé avant de se jeter dans la gueule du loup !

Narration hallucinatoire, jointures folles, faille de sécurité, preuve et traçabilité absente.

Source : https://www.journaldunet.com/intelligence-artificielle/1547163-brancher-un-llm-sur-votre-bi-la-fausse-bonne-idee-qui-peut-couter-tres-cher/

3) Valeur des données – les données d’apprentissage des moteurs d’IA valent très très cher.

Les modèles fondamentaux sont des produits stratégiques

Les modèles locaux / propriétaires sont des élément différenciant.

La barrière d’entrée est élevée si cela n’a pas été anticipé (les bonnes données pour l’IA sont plantées régulièrement parfois depuis plusieurs années avant et accumulées, améliorées par rétroaction).

Extraits :

« The most valuable datasets share several characteristics: they are longitudinal, domain-specific, continuously refreshed, and generated as a byproduct of real economic activity. They are not scraped. They are earned. »

« Tesla’s autonomous driving effort illustrates the same principle in a modern AI context. Tesla’s advantage is not vision models in isolation. It is the billions of miles of real-world driving data collected from its fleet. »

L’avantage concurrentiel s’analyse par rapport :

aux coût de reproduction des données : capacité d’un concurrent à les recréer
à la fréquence d’actualisation – au maintien en qualité dans le temps
au niveau de couplage produit / service de l’entreprise – apport perceptible de l’IA

Source : https://jtower09.medium.com/data-is-the-new-ip-why-proprietary-datasets-are-becoming-the-only-durable-moat-in-ai-b744b2ff459e

4) Collecte continue des données d’apprentissage

Quand travailler en continu avec une IA, lui apprend vos comportements et s’y adapte jusqu’à les anticiper.

Source : https://python.plainenglish.io/your-life-is-a-dataset-and-ai-is-learning-more-than-you-think-36848c49eee0

Et aussi

« OpenAI Would Like You to Share Your Health Data with Its AI Chatbot »

Source : https://www.scientificamerican.com/article/openai-would-like-you-to-share-your-health-data-with-its-chatgpt/

Autres actualités sur le même sujet :

https://www.presse-citron.net/personal-intelligence-gemini-va-desormais-utiliser-vos-donnees-personnelles-pour-repondre-a-vos-requetes

https://www.01net.com/actualites/starlink-utilise-vos-donnees-entrainer-ia-comment-empecher.html

La filiale data d’Uber

Valoriser les données de trajets pour les fournisseurs de robots taxis.

Source :

https://gizmodo.com/uber-creates-av-labs-to-leverage-data-for-future-robotaxi-routes-2000714658

Le modèle open source défendu par Hugging Face (racines française) – https://huggingface.co/

Dont plus de 700 000 datasets (https://huggingface.co/datasets ).

Une proie pour les grands acteurs IA.

Source : https://www.presse-citron.net/pourquoi-startup-hugging-face-refuse-500-millions-nvidia/

Les biais de collecte

« L’Afrique représente près de 20 % de la population mondiale, mais moins de 1 % des données d’entraînement de l’IA »

Source : https://www.lemonde.fr/afrique/article/2026/01/30/l-afrique-represente-pres-de-20-de-la-population-mondiale-mais-moins-de-1-des-donnees-d-entrainement-de-l-ia_6664710_3212.html

5) La course de haie pour traiter les données non structurées.

NB : préliminaire, trouver les bons documents avec les bonnes métadonnées

1) Numériser sans obérer le budget,

2) Faire les bons choix d’OCR

3) Qualité des métadonnées pour éliminer le facteur probabilistique de l’IA (l’adosser à une recherche déterministe)

4) Faire le lien avec les définitions et sémantique des données structurées

Source : https://medium.com/data-science-collective/the-unsexy-truth-about-unstructured-data-fd7eecaab1a1

6) L’évolution du RAG

– L’évolution (dont la taille, la structure des mémoires agentiques) de la gestion de contexte (contexte long) des moteurs de LLM permet de se passer d’une solution RAG dans beaucoup de cas

– Il reste intéressant pour disposer de références – citations plus fiables

– Il doit prendre le virage de l’agentique : RAG agentique (capacité de décision, auto correction, boucle) –

« 1. User asks a question

2. Agent retrieves documents

3. Agent EVALUATES: « Are these documents relevant? »

– If NO: Rewrite query, try again (with retry limit)

– If YES: Continue to generation

4. Agent generates answer

5. Agent CHECKS: « Is this answer supported by the documents? »

– If NO: Loop back to step 2

– If YES: Return answer to user »

SelfRAG (évaluation de ses performance), CRAG (RAG Correctif) – aller chercher des sources externes pour corriger les réponses

– Il doit être à même d’intégrer les données RAG dans des vues sémantiques / graphes (GraphRAG)

– Il reste meilleur pour mettre en avant les informations les plus pertinentes (versus noyées dans LLM+contexte) – si la précision est essentielle le RAG reste le scénario

NB : reste toujours le défi du résultat de confiance « parfait » non atteignable. Il faut accepter une part de défaut (erreurs générées).

Et attention à la maîtrise des couts des moteurs LLM et de leur évolution en gestion de contexte.

L’article décrit différents cas d’usage.

Source : https://medium.com/@reliabledataengineering/rag-is-dead-and-why-thats-the-best-news-you-ll-hear-all-year-0f3de8c44604

7) Enquête sur les travailleurs de la donnée : travail précaire, sous contrôle, rémunération faible et temporaire pour être remplacé par l’IA qui ingurgite les données saisies au sens moral limité.

En complément du travail d’Antonio Casilli.

Source : https://danslesalgorithmes.net/stream/travailleurs-dintimite/ et référence https://data-workers.org/ – le rapport https://data-workers.org/wp-content/uploads/2025/12/The-Emotional-Labor-Behind-AI-Intimacy-1.pdf

Data workers … d’élite ( ?!), annoter à partir de son expertise… Les organisations recherchent des experts du domaine pour entraîner leurs jeux de données d’IA.

NB : avec la perspective d’être remplacé par son élève !

. L’offre : https://www.mercor.com/

Sources : https://danslesalgorithmes.net/stream/annotateurs-de-donnees-delite/ et https://www.zdnet.com/article/ai-data-training-jobs-opportunities-requirements-pay/

Et aussi – profession d’expert dans les données et quels secteurs professionnels sont en recherche – archéologie, sport, énergie renouvelables

Source : https://towardsdatascience.com/off-beat-careers-that-are-the-future-of-data/

8) La réalité des agents IA data

Le fantasme de l’auto-réparation

La grande promesse : « L’IA corrige les pannes de production – pipelines – pendant que vous dormez !»

L’angoisse : Et si cela corrige le symptôme sans s’attaquer à la cause profonde ?

Et si la « correction » aggrave la situation ?

Et si cela fonctionne une fois, mais crée de la dette technique ?

Comme pour tous les outils, cela accélère, aide au travail (développement) mais n’est pas autonome, porte des erreurs … à contrôler par un être humain.

Source : https://medium.com/@reliabledataengineering/i-tried-clawdbot-for-data-engineering-and-heres-the-honest-truth-33ea980c954f

9) Comment l’IA bouscule la modélisation (niveaux conceptuel, logique, physique) sans la remettre en cause.

Une idée clé : les agents d’IA excellent dans la traduction mécanique entre les niveaux.

Source : https://practicaldatamodeling.substack.com/p/are-the-levels-of-data-modeling-outdated-887?publication_id=1473069&post_id=186441549&isFreemail=true&r=4k5r1o&triedRedirect=true

Zoom data et IA – world models

1) L’IA ne comprend par le monde

L’IA « comprend » des notions comme les tendances, les probabilités, les corrélations et la cooccurrence.

NB – rappel : attention à l’anthropomorphisme (attribution : d’intelligence, de conscience, de compréhension, de commettre des erreurs, d’intention…de préparer un complot…) à l’IA mangeurs de donnée. On est face à une illusion de tout cela.

Et tout vient des données et des intentions des concepteurs. Pas d’autonomie de l’IA (si autonomie elle vient d’une conception humaine … par exemple s’auto-corriger).

Et dernier rappel, les données n’ont pas de sens sans contexte. D’où la course actuelle au contexte … infini !

« So, what AI is missing is not intelligence, but rather AI is lacking explicit definitions, stable identities, declared relationships, temporal intent, and business rules. In other words, the AI lacks semantics and semantics don’t just magically just appear from the data. »

La solution serait dans des modèles sémantiques, ontologies, graphes de connaissances, jumeaux numériques.

NB : bon courage dans ces exercices ! Figer un monde ? Quelle place au flou ? Définir un terme … tous d’accord et académiciens !

L’article illustre cela avec le modèle d’un vélo et de ses composants. Sans et avec plus de sémantique.

Source (rattrapage de décembre) : https://medium.com/@gdeckler/ai-doesnt-understand-your-data-and-that-s-a-problem-or-is-it-1c83025625fc

Et pour comprendre de quoi on parle.

L’arrivée des world model – « modèles du monde » pour les IA en mal de compréhension de nos environnements.

Source : https://arnicas.substack.com/p/titaa-75-universe-models

2) Dans l’esprit des world models les WWM – What are Web World Models?

L’évolution des données synthétique dédiées au monde physique (et ses lois) et plus.

Construire des modèles du monde pour l’apprentissage des moteurs IA et pour simuler des environnements pour les agents IA. Aider les IA à « comprendre » la réalité ! Le graal de leur faire acquérir le sens commun.

Ici le monde du web et générer un environnement web.

Une approche « Princeton University and the University of California’s new concept – a Web World Model (WWM) – builds around exactly these two pieces: solid, deterministic code that gives structure and probabilistic language model (LM) that add richness and variety. ».

Concept buzz, à suivre, Yann LeCun y croit et dédicace à ceux qui ont connu SHRDLU comme TP lispien de la vague IA des années 80.

Source : https://www.turingpost.com/p/wwm?_bhlid=7d38d9db6d9cba1d3dc5a8a42f06b12ea50ffb21

Data architecture – data analytic

1) Pourquoi les formats open table sont le nouveau graal des data lake ?

L’histoire : Iceberg, Delta Lake et Hudi contre le data swamp.

La solution générique : l’attachement de métadonnées actives (étiquettes) aux données. En indiquant aux moteurs d’accès – de requêtes (SQL toujours bien présent) aux données (Trino, Spark, Flink) comment accéder aux données (suivant leur version de schéma, état, statut ACID…).

Source : https://cloudwithazeem.medium.com/open-table-formats-new-sql-data-engineers-d1ef2d5adba2

2) Une prise de recul sur l’analyse de données et l’idée du « remplacement » des data analytics developers tous les 10 ans depuis 1974 (50 ans de promesses) !

En commençant pas la création de SQL, puis successivement dans le temps, l’arrivée d’OLAP (Little), MOLAP (vision par métier), le modèle en étoile (Kimball), l’arrivée de la couche sémantique avec Business Object (cocorico !), la data visualisation (Tableau, Power BI), la BI en self-service, les data lake et Dbt pour que chacun crée ses propres pipelines, le retour de la couche sémantique (tirée par l’IA) et pour finir les agents IA analytiques autonomes.

Avec chaque fois la promesse de faciliter la prise en main des données analytiques jusqu’à l’idée d’autonomie métier… sans éliminer le besoin de spécialistes.

Et à avoir en tête : « The bottleneck was never really typing speed. It was thinking speed. And thinking still takes time. ».

Il y a une contrainte immuable : identifier le besoin d’analyse, le formaliser (le comprendre) dans la représentation de l’entreprise dans ses systèmes de données. Le problème n’est pas d’ordre mécanique.

Source : https://blog.rittmananalytics.com/why-weve-tried-to-replace-data-analytics-developers-every-decade-since-1974-5c0de5a05088

3) leçons que j’ai tirées de la lecture de *Storytelling with Data* en tant que praticien, et comment ces idées continuent d’influencer ma façon d’aborder l’analyse et la communication.

6 questions:

« What background information is essential?
Who is or are the decision makers in your audience?
What biases may the audience have to be supportive or against our case?
What data do we have and is the audience familiar with it?
What would a successful outcome look like?
If you only had 5 minutes or a single sentence to tell your audience, what would it be? »

6 types of charts

« Simple text
Simple tables
Scatterplot
Line charts (timeseries or slopes)
Bar charts (horizontal or vertical)
(Bonus) Area charts »

Source : https://medium.com/data-science-collective/storytelling-with-data-lessons-b9cac1b01b5b

L’accessibilité des données – tous mal voyant

Les données échouent lorsqu’elles sont difficiles à comprendre, que ce soit sur le plan mental, structurel ou émotionnel.

Et l’idée de Angela Young sur l’accessibilité et la narration des données*. Et l’extension de la définition de l’accessibilité aux données, comme un moyen de transformer les données d’un rapport statique en un contenu interactif. Une idée se démarque : si les données ne sont pas accessibles, elles sont incomplètes.

Faire que les données soient plus un outil de présentation mais aussi un outil de partage. NB : rappel la valeur des données est dans leur circulation.

Et penser aux restitutions comme si nous étions tous mal voyant … des données : « Accessibility isn’t something to bolt on at the end of a project. It’s a way of thinking more clearly. ».

* Réf : https://equalentry.com/got-data-now-what-storytelling-through-accessible-design/ et https://isoc.live/19541/ – prendre des décisions versus s’arrêter à montrer.

NB : rappel le sujet de la lisibilité des données dans l’interopérabilité et la construction de data lake (et le fameux débat sur le data vault pour les techniciens data mais pas pour les utilisateurs). A choisir « soyez utilisateurs ! ».

Source : https://kateryna-vynohradova.medium.com/when-data-feels-like-a-foreign-language-or-why-people-say-they-hate-data-8c8a293f96e9

Data poisoning

Toute une série d’article sur l’empoisonnement de données.

L’empoisonnement « naturel » – humain, les moteurs d’IA héritent de données fausses (erreurs dans la rédaction d’articles, annotations erronées, qualifications instables parce qu’humaine – avis, jugement changeant…)
L’empoisonnement volontaire. Des chercheurs proposent un outil permettant d’empoisonner les données volées pour l’entrainement de moteurs d’IA. Par injection de données plausibles mais fausses. La nouveauté, les utilisateurs autorisés disposent d’une clé permettant de filtré les données falsifiée afin d’obtenir une réponse utilisable.
La fraude dans les données synthétiques utilisées pour l’apprentissage. Comment s’assurer que le jeu de données synthétiques n’a pas été déformé, biaisé volontairement ? Quel contrôle mettre en place ? Toute une suite de vérifications humaines est à mener (recette du jeu de données … avec toute la problématique de l’évolutivité continue de ces jeux de données et tout cela a un cout souvent oublié).
« Avec Poison Fountain, un collectif affirme avoir conçu une méthode capable de désorienter les IA de l’intérieur, en contaminant leur apprentissage… Poison Fountain propose aux propriétaires de sites web de dissimuler, dans leurs pages, des liens vers des jeux de données volontairement corrompus. »
Les conflits d’intérêt : des concurrents peuvent empoisonner vos données d’entraînement, des auteurs peuvent prévenir du vol de leurs créations en les empoisonnant (« There is also a tool called Glaze which will prevent the model from reproducing the image’s style, but doesn’t actually interfere with the training generally. »), la bataille de visibilité (SEO) sur les nouveaux moteurs de recherche assistés par l’IA peut amener à déformer les données utilisées par les moteurs d’IA – le classique création de pages web artificielles faussées. Et pire https://www.journaldunet.com/cybersecurite/1547541-avis-negatifs-chantage-raid-numerique-le-cyberharcelement-nouveau-fleau-des-tpe-et-pme
Le problème : une fois l’entraînement fait, il est quasi impossible de détecter les données empoisonnées (les techniques de rétro-ingénierie, de désapprentissage ne fonctionnent pas). L’empoisonnement du modèle est quasi indétectable.

Des chercheurs ont testé les LLM as judge, (jugement / comparaison des réponses fournies par différents LLM pour détecter les « empoisonnements », par vote). Et leur conclusion montre que c’est encore peu efficace, source d’ancrage d’hallucinations.

NB : extrait d’un article « We need models that have a rock-solid, unwavering internal compass of what is “true” and what is “good.” ». Le fond du problème, cela fait des millénaires que l’humanité débat sur la vérité, le bien … sans formalisation (et c’est normal). Sauf à fermer une définition (s’y enfermer), l’IA restera … ne sera pas intelligente !

Sources :
https://ninza7.medium.com/human-data-is-poisoning-ai-judges-even-gpt-5-is-infected-0115c066a31f
https://intelligence-artificielle.developpez.com/actu/379017/Des-chercheurs-proposent-un-outil-permettant-d-empoisonner-les-donnees-volees-pour-que-les-systemes-d-IA-renvoient-des-resultats-errones-mais-cette-solution-menace-de-reduire-la-fiabilite-globale-des-LLM/ – Aura empoisonne les données volées dans les systèmes IA
https://ayobamiakiode.medium.com/defeating-synthetic-data-fraud-2026-post-collection-validation-for-human-verified-surveys-25de3b371296
https://www.lebigdata.fr/ils-ont-cree-un-poison-qui-detruit-le-cerveau-des-ia et https://www.forbes.com/sites/craigsmith/2026/01/21/poison-fountain-and-the-rise-of-an-underground-resistance-to-ai/ et github https://github.com/elmuerte/discourse-poison-fountain
https://towardsdatascience.com/data-poisoning-in-machine-learning-why-and-how-people-manipulate-training-data/

Données d’identité

Contrôler l’identité en ligne n’a pas les mêmes conséquences qu’un contrôle d’identité physique.

On parle de données numériques, essentielles (non anonymes), captables, partageables, usurpables, falsifiables, traçables à vie … qui vous échappe sans commune mesure avec un contrôle physique portant beaucoup moins de risques.

Et à ne surtout pas confier à des systèmes tiers … marchands !

Source : https://www.techdirt.com/2026/01/06/why-isnt-online-age-verification-just-like-showing-your-id-in-person/

Et https://www.lemondeinformatique.fr/actualites/lire-un-pole-dedie-a-l-identite-numerique-ouvre-a-angers-99164.html

Et à rapprocher du rôle pivot de l’identité numérique chez META (Facebook, Instagram, Whatsapp…) : « La plateforme centrale regroupe désormais vos identités numériques sur une interface logicielle unique. Cette infrastructure synchronise aussi vos noms ainsi que vos photos de profil entre les applications. Elle assure ainsi une cohérence visuelle immédiate pour tous les services de la société. »

Source : https://www.lebigdata.fr/facebook-instagram-whatsapp-ce-que-meta-croise-entre-vos-applis

Guerre des données

1) Les Etats-Unis marchandent les exemptions de visas des Européens contre les données biométriques

Source : https://www.lemondeinformatique.fr/actualites/lire-les-etats-unis-marchandent-les-exemptions-de-visas-des-europeens-contre-les-donnees-biometriques-98971.html

2) Un panorama qui fait froid dans le dos des moyens de collecte (direct, indirect, par la force…) de données par la police d’immigration US (ICE). Et dans la suite les données sont des armes (DOGE) – voir revue data des mois précédents. Source : https://www.techdirt.com/2026/01/14/ice-is-going-on-a-surveillance-shopping-spree/ et https://stribs.medium.com/ice-out-of-our-data-add4752949e3

3) Et quand arrêter de collecter les données et aussi une arme

Traduction : « L’administration de la sécurité sociale a discrètement cessé de publier les temps d’attente de ses centres d’appels en direct, en raison d’importantes restructurations de son service client et de réaffectations de personnel. L’Agence de protection de l’environnement (EPA) s’oriente vers la suppression de la plupart des obligations de déclaration prévues par un programme de contrôle des gaz à effet de serre jugé contraignant… ».

Source : https://flowingdata.com/2026/01/14/losing-american-data/

4) Et aussi le département de sécurité intérieur (DHS)

« Le DHS veut collecter les données biométriques de toute personne aidant un étranger à séjourner légalement aux États-Unis. ».

Avec le flou (formel) sur qui est concerné et comment (avocat, famille, voisin, établissement scolaire, service médical…) et l’idée de bonne moralité (traduite dans les données ?!).

Source : https://www.techdirt.com/2026/01/14/dhs-wants-to-harvest-biometric-data-from-anyone-helping-a-foreigner-stay-in-this-country-legally/

Data gravity – data centrisme

« Data gravity describes how data accumulates weight as it grows. We know that large datasets are expensive to move and difficult to manage once they start traveling across systems. Because of that, applications tend to migrate toward data rather than the other way around. That is data gravity. »

L’IA aggrave la data gravity.

Avec les volumes d’apprentissage, l’accès en continu (contextualisation temps réel des agents).

On duplique et réparti les données pour tenir la charge (en multi-cloud par exemple) tout en étant connecté à une multitude de sources.

Le tout amenant à une infrastructure coûteuse, lourde à faire fonctionner, maintenir.

L’idée amener la puissance de calcul aux données (l’option data centric) versus l’inverse.

Faire exécuter les modèles d’IA où sont les données.

Voir aussi dans les prédictions 2026, l’idée d’apprentissage fédéré

Source : https://www.hpcwire.com/bigdatawire/2026/01/26/the-data-gravity-problem-is-back-and-ai-made-it-worse/

Apport du FAIR à la gouvernance des données et complément au DMBOK du DAMA

FAIR : https://www.nature.com/articles/sdata201618

DAMA : https://dama.org/learning-resources/dama-data-management-body-of-knowledge-dmbok/

Exemple sur l’idée d’identifiants uniques persistant à l’échelle et l’unicité d’identité du FAIR (F1). Source : https://medium.com/@ajithavalli/fair-and-dama-complementary-approaches-to-operational-governance-4068e7eb86ec

des similarités, redondances. Source : https://tdan.com/similar-bi-reports-the-silent-killer-of-analytics/33055

Vrac (disparaître des data brokers, des données F1, Dataïsme – capitalisme des données, Journalism Trust Initiative)

1) Suivant que vous êtes riche ou pauvre …

Payer pour ne plus être dans les bases de données des data brokers.

Vu ici – business de la suppression de ses données auprès des courtiers de données (avoir les moyens de ne pas être fiché)

Source : https://danslesalgorithmes.net/stream/drop-laisse-tomber-les-donnees/

Source : https://techcrunch.com/2026/01/03/california -residents-can-use-new-tool-to-demand-brokers-delete-their-personal-data/

2) Des données F1

« Each car is fitted with 300+ sensors, continuously monitoring mechanical, aerodynamic, and driver inputs. Together, these sensors generate over 1.1 million data points per second, per car. » …

« That data is streamed back to team factories in Europe with latencies as low as 10 to 300 milliseconds, depending on where the race is held globally. » …

« Models are not built to explain the past, but to influence decisions in the present. A strategy model that cannot run fast enough is useless… This was analytics embedded directly into the race itself. »

Source : https://medium.com/hooman-in-the-loop/lessons-in-data-speed-and-systems-what-formula-1-taught-me-2b6065d9db3e

3) Dataïsme – dans le sens capitalisme des données

« Les données sont le nouveau capital du technocapitalisme … on lance des produits non pas pour générer des revenus, mais pour générer des données. »

Source : https://danslesalgorithmes.net/2026/01/12/le-risque-cette-gouvernance-moderne-que-certains-font-peser-sur-les-autres/

4) Retour sur Journalism Trust Initiative : (article février 2025)

(lien https://www.datassence.fr/2023/12/01/les-4-piliers-dun-referentiel-de-donnees-lexemple-journalism-trust-initiative-jti/ – vision en décembre 2023 – sujet de plus en plus important au vu de la vague de l’IA générative).

Source : https://www.meta-media.fr/2025/02/01/jti-un-tampon-pour-se-demarquer-dans-la-jungle-des-reseaux-sociaux.html

RDV maintenant en mars pour la revue et les actualités de février.