Dernière modification le 17 janvier 2025
Comme d’habitude une suite de revues commentées de sujets data en lien avec un ensemble d’articles du mois de décembre avec le traditionnel tour des articles sur les tendances data 2025.
Avec en complément les thèmes centraux : de la collecte des données, du couple data & IA.
Le retour KM knowledge management (à double titre via l’IA capable d’en extraire des données structurées et comme moyens de disposer de données non structurées d’intérêt).
Suivi par un tour d’horizon de vicissitudes data : négliger l’origine des données, le multi problème des environnements de données, l’usage des données sans connaissance, le data ditch, les 7 péchés capitaux de l’ingénierie de données, les dark data, dangers data, Fake data.
Et pour finir, une rapide revue d’une sélection d’articles data.
Sommaire :
- Data tendances 2025
- Data literacy de la collecte / création de données
- Stratégie de collecte
- Le retour du KM (suite)
- Les vicissitudes data
- Data et IA : le 2ème choc data
- En vrac (Evénements data, Le rôle de data translator, Data visualisation des données qualitatives, Domain data driven et data product, Conserver les données brutes, Une norme pour les données des personnes vulnérables, L’architecture médaillon n’est peut-être pas si bonne, Modélisation des données)
Data tendances 2025
Le paysage des données évolue constamment, poussé par les avancées technologiques, la portée prise par les données, les besoins pantagruéliques de l’IA et la réalité de ce qu’en font les entreprises.
Les tendances sont un exercice classique.
Vous trouverez ci-après un résumé de ces tendances au travers de différentes sources.
En synthèse, pas de rupture, mais des évolutions logiques, avec l’IA qui a pris le pouvoir sur les données.
- L’IA tire le sujet des données dans toutes ses dimensions : technologiques, usages, gouvernance,
- Le big data n’est plus le problème, le problème c’est le multi data, la prolifération des environnements, sources de données… hétérogènes,
- La compétence en data engineering est clé tout en s’alignant avec les bonnes pratiques du génie logiciel,
- La gouvernance des données est indispensable et il faut l’automatiser,
- Le passage impératif à l’échelle des initiatives données (tiré par l’IA, par le multi data),
- Apache Iceberg sera-t-il le support de données qui va réconcilier tous les usages ?
- La stratégie vis-à-vis des métadonnées est un sujet bien identifié, mais la déployer de façon opérationnelle reste un challenge, brumeux,
- Le retour de la logique MDM (de bonnes données versus un tas de données),
- Le data mesh poursuit son extension en amenant une structuration des attitudes vis-à-vis des données via l’idée de data product,
- Le retour des questions de modélisation des données (toujours dans l’esprit de bonnes données et contextualisées),
- Toujours la tension entre la multiplication des technologies data et leur sophistication (poussé aussi par les CVs architectures data) avec la simplification des architectures data.
Observabilité des données
- Adoption d’OpenTelemetry (open source) comme norme les types de données d’observabilité – collecte de télémétrie (journaux / logs, traces, métriques) – https://opentelemetry.io/ .
- Avec l’idée d’une automatisation (versus une gestion manuelle, en retard de l’observabilité) et d’une bascule de développement ad hoc interne vers des briques logicielles du marché ou open source, et l’idée d’observability by design (NB : retour dans les normes de développement – pour contrecarrer la régression constatée « “Right now, engineers aren’t thinking about the metrics, data, and observability that they need as they’re building things–it’s almost always retrofitted afterwards. »).
- Renforcement du lien entre traçage (flux de bout en bout) et profilage (utilisation) – exemple identifier une rupture dans une chaîne de traitement et qui concerne tels profils -> vers une vue holistique du contexte de production et d’utilisation des données,
- L’IA qui pousse à l’observabilité : combler le gap de transparence, d’explicabilité (confiance) avec une vue sur l’observation des données qui alimentent les moteurs d’IA et qui en sortent (biais des données, transformations adoptées…),
- Et l’IA au service de l’observabilité des données sur la base des traces, logs, métriques (dans le même esprit d’anticiper des problématiques de maintenance, des dysfonctionnements). Jusqu’à l’idée d’observabilité proactive (anticiper et régler les pannes … remarque personnelle, à voir un exemple sur un pipelines de données. Sujet connu en base de données – voir les fonctions de DBA).
Source : https://www.bigdatawire.com/2025/01/06/2025-observability-predictions-and-observations/
Big data management
- L’explosion des données, donc de leurs supports, de leurs sources nécessite de gérer efficacement l’accès aux données (sans forcément les dupliquer), ou même les archives, les données historiques reprennent de la valeur avec l’IA.
- Rendre la génération de données synthétiques accessibles.
- Qualité des données by design (vers la gauche) versus le traitement en stock (ce n’est pas une nouveauté, mais l’explosion des données, des pipelines met en lumière toute la difficulté de traiter la qualité des données une fois qu’elles ont passé ces étapes).
- Utilisation de l’open table format – voir Iceberg – avec l’idée d’accès aux données indépendants des fournisseurs, d’évolution des schémas et d’interopérabilité.
- Et cela poussé par le multi support (cloud) des données, avec le besoin (économique, maîtrise, réutilisation, portabilité) via l’interopérabilité, la représentation commune, des traitements (lineage), des accès – user-defined functions (UDFs), des formats de stockage entre ces environnements.
- Bataille sur la gestion des métadonnées techniques – catalogues de données Apache Polaris, Unity Catalog.
- Le savoir-faire en performance, puissance de calcul, parallélisme tiré de l’IA, des GPU amène à revoir la conception des moteurs de base de données avec la capacité de gérer des volumes élevés de requêtes en parallèle, envoyées sur les GPU.
- Et dans ce sens, les bases de données vont intégrer nativement de plus en plus de fonctions d’IA (voir l’exemple de PostgreSQL) … tout se gère en un seul endroit.
- Retour du bon sens « The traditional divisions between data engineers, data analysts, and data scientists are breaking down, as modern data teams must increasingly handle end-to-end workflows with speed and autonomy. ». Et retour du métier d’analyste qui fait le pont entre un domaine métier et les données, l’assemblage de produits de données
Source : https://www.bigdatawire.com/2024/12/20/2025-big-data-management-predictions/
Data analytics
- Le data lakehouse devient la norme. « Two of the biggest backers of the data lakehouse are Snowflake and Databricks. But in 2025, people will tire of the Snowflake/Databrick War and look to federated IT for an evolved data architecture, says Andrew Madson, a technical evangelist at Dremio ».
- Le retour en grâce de la modélisation des données – « data modeling is a skill that more engineers need to master,” Polak says. ». L’approche par produits de données oblige à penser à une bonne modélisation pour répondre aux consommateurs (versus se préoccuper uniquement de flux de données où la modélisation est oubliée).
- L’IA au service de l’analytique : interroger les données, identifier des patterns entre données.
- « 025 will bring about the demise of traditional BI, which will be replaced with API-first and GenAI-integrated analytics in every app. ». La BI intégrée devient systématique.
- Retour à des données bien ciblées versus des grands lacs / marécages de données (NB : le MDM n’est pas mort et idée de small data pour l’IA).
- Surmonter les silos de données (NB : ne veut pas forcément dire les supprimer. Ce qui dans certains cas est une erreur), avec l’idée de vue unifiées des données (mais attention aux limites de cette idée).
Source : https://www.bigdatawire.com/2024/12/18/2025-data-analytics-predictions/
IA et data
- La grande majorité des solutions de gestion des données actuelles ne sont pas préparées à permettre efficacement l’IA générative.
- L’un des problème les plus importants est la prolifération de données hétérogènes, aux références non comparables.
- L’IA générative a besoin d’une norme de transparence et de provenance des données, de reconnaître les créateurs qui servent de fournisseurs de données pour les inclure dans la valeur créée par l’IA générative.
- Le langage naturel en tant que langage de programmation est le dernier et le plus grand défi qui cherche à faire tomber les murs entre l’utilisateur et le développeur.
Source : https://towardsdatascience.com/ten-predictions-for-data-science-and-ai-in-2025-8d6fd29134b8
Data architecture
- Data fabric et data mesh sont complémentaires et pas concurrents.
- Le data mesh, oblige à une réflexion sur sa structure de données (modélisation, normalisation), sa vue unifiée des données.
- L’architecture de données au service des besoins en alimentation des moteurs d’IA (qualité, productivité, maintenabilité, sécurité, conformité…).
- L’IA générative ce sont principalement des données non structurées en entrée. Nature de données oubliées par les architectures actuelles. D’où l’évolution vers leur prise en compte (avec des difficultés spécifiques).
- La data architecture au service de la gouvernance qui souffre d’un travail trop manuel, fastidieux, casse-tête face aux volumes, à la diversité des données, au contraintes dont réglementaires à tenir compte. Travail de gouvernance à automatiser (avec l’apport de l’IA en particulier dans sa capacité à rentrer dans les donnes non structurées en les étiquetant, en contrôlant leur conformité par exemple).
- « Time to open the door to the data lakehouse, which combines the capabilities of data lakes and data warehouses, simplifying data architecture and analytics with unified storage and processing of structured, unstructured, and semi-structured data. ». Et avec aussi la pression du temps réel… la tentation (illusion) de facilité de tout mettre dans data lakehouse.
- La confiance dans les données passe par l’observabilité qui devient incontournable.
- …Le tout (l’architecture globale des données en entreprise) n’échappera pas à de plus en plus de complexité.
Source : https://www.dataversity.net/data-architecture–trends-in-2025/
Gouvernance des données
- Attention accrue sur la gouvernance (confiance), la qualité des données (fiabilité) et la gestion des données de références (pivot pour une vue unifiée des données).
- Avec l’introduction de cadres de gouvernance. Poussés aussi par les besoins de l’IA (et éviter ses dérives).
- « Low-code/no-code MDM platforms will democratize access to MDM tools, empowering non-technical users to manage and leverage master data effectively. »
Source : https://blog.masterdata.co.za/2025/01/07/data-fundamentals-for-2025/
Ce qui pousse la gouvernance des données
- 1,3 Mds de $ d’amende infligée en 2023 à META pour faute de gouvernance sur les données privées … rappel brutal sur l’importance de la gouvernance.
- L’IA (et ses données de formation, mais aussi les données de dialogues).
- Et les réglementations associées à venir (exemple sur la confidentialité des données, sur la résidence des données – lien avec les problèmes de souveraineté, sur les transferts transfrontaliers).
- Les coûts des données explosent (cloud, redondance, volume…).
- Les menaces – cybersécurité.
- La collaboration étendue.
- Et toujours l’efficacité opérationnelle.
- Avec l’IA au service de la gouvernance (classification automatique des données et des risques associés.
- L’idée de DGaaS : Data Governance as a Service – déployer et suivre l’application de politiques de données, dont nativement dans le cloud. Intégration entre DataOps et Gouvernance.
Source : https://medium.com/@kanerika/top-data-governance-trends-to-watch-in-2025-162f0b00e71d
Data et IA
- L’essor réelle de l’exploitation des données d’entreprises par l’IA générative, soit en propre, soit en adossement à un LLM via par exemple une approche RAG.
Architecture data
- Apache Iceberg
- Architecture de type framework : modulaire, composable, interchangeable, multi-moteurs, hybrides multi-clouds,
Renaissance de la gouvernance des données avec la maîtrise d’une couche sémantique
Source : https://medium.com/@thibaut_gourdel/data-predictions-for-2025-df371d74c6a7
Architecture data
- A se positionner entre simplifier drastiquement son architecture de données (limiter les intégrations de N outils – ne pas avoir à gérer 6 outils pour un pipelines de données et faciliter la supervision) et pousser à l’extrême les technologies de pointes pour innover.
- Apache Iceberg va consolider sa position dominante (jusqu’à l’arrivée de…).
- SQL toujours aussi fort. Avec structurer ses données c’est mieux. Et l’idée de “schema on read” disparait.
- The Databricks acquisition of Tabular? That feels like a turning point, not the start of a trend.
- Il faut s’attendre à l’arrivée de data platforms verticales / dédiées à une problématique, un secteur (NB : existe déjà largement sur la relation client).
L’éternelle course à :
- Manque de gouvernance des données
- Manque de modélisation des données
- Mauvaise qualité des données
- Désalignement avec l’entreprise
Source : https://seattledataguy.substack.com/p/5-key-predictions-for-the-data-industry
Data gouvernance
- Progression des cadres de gouvernance (solutions logicielles)
- Toujours de plus en plus de réglementation (dont la part data des IA acts, dont l’exigence de plus en plus forte de traçabilité des décisions, des tableaux de bord)
- Besoin de surveillance et d’automatisation en temps réel
- Exigence accrue sur la gestion des données, voire à les mettre au même niveau de gestion (rigueur) que les données financières
- L’IA pour automatiser les tâches de gouvernance (exemple fiches données, lineage, confidentialité…)
- Le self data à mettre sous contrôle
- Qui n’empêche pas le besoin accru en data manager
- Défi du multi cloud pour la gouvernance
- Emergence de solutions de géorepérage des données (geo-fencing solutions) dans le stockage cloud, dans les flux pour respecter les règles de souveraineté
Source : https://www.dataversity.net/data-governance-trends-in-2025/
Data science et ingénierie data
- Rattraper les erreurs du passé sur la data science : embauche de data scientist, sans données, sans infrastructure, à qui on fait faire ce qu’ils ne savent pas faire (de l’ingénierie data).
- Revenir au base de l’ingénierie data (qui n’est pas l’art de prendre la dernière solution, technologie data)
- « Reviving the Art of Data Modeling. Another topic that we discussed was the state of data modeling. According to Joe, this once-prized discipline has been neglected for decades. »
- Les contrats de données aussi pour responsabiliser les sources et les rapprocher des équipes data.
Source : https://medium.com/@winfried.etzel/joe-reis-a-journey-around-the-world-of-data-de8463a6f203
Data ingénierie, architecture, IA
- « The global big data and data engineering services market size is predicted to be worth $276.37 Billion by 2032, fueled by rapid advancements in AI, cloud computing, and decentralized architectures¹. » – https://www.marketdataforecast.com/market-reports/big-data-engineering-services-market
- « Data lakes and meshes work together to democratize enterprise data ». Les data lakes comme infrastructure commune data et le data mesh comme usage et gouvernance fédérée des données
- L’IA générative accélère la mise en place d’infrastructures data
- Automatisation de la gouvernance des données (et apport de l’IA)
- L’IA dans les pipelines de données (documentation des flux, contrôle des politiques…), dans les plates-formes MDM (extraction automatisée d’étiquette, compliance), dans les offres PIM (catégorisation, récupération des données produits pour une vue 360°).
Source : https://sigmoidanalytics.medium.com/the-top-data-engineering-trends-to-look-for-in-2025-95762c738eda
Données non structurées, embarquées, qualité des données
- « The reality is, you could have the most sophisticated data quality platform on the market — the most advanced automations, the best copilots, the shiniest integrations — but if you can’t get your organization up and running quickly, all you’ve really got is a line item on your budget and a new tab on your desktop. »
- « Over the next 12 months, I expect data teams to lean into proven end-to-end solutions over patchwork toolkits in order to prioritize more critical challenges like data quality ownership, incident management, and long-term domain enablement. »
- Emergence des piles de données pour les données non structurées
- Les risques liés à la qualité des données évoluent, mais pas la gestion de la qualité des données.
- « “We’re seeing teams build out vector databases or embedding models at scale. SQLLite at scale. All of these 100 million small databases. They’re starting to be architected at the CDN layer to run all these small models. Iphones will have machine learning models. We’re going to see an explosion in the total number of pipelines but with much smaller data volumes.” »
- Mais plus les pipelines se développent, plus la qualité des données devient difficile à gérer.
Source : https://towardsdatascience.com/top-10-data-ai-trends-for-2025-4ed785cafe16
Data à l’échelle
- En termes de gouvernance des données, de qualité des données, d’architecture de données, de culture des données le tout dans une stratégie unifiée des données.
- Versus des actions tactiques limitées dans le temps, sur certaines données
- Connaissance de ses sources de données pour l’IA tire le besoin de cette vision à l’échelle
- Le data mesh comme inspiration à l’échelle.
Source : https://www.dataversity.net/data-strategy-trends-in-2025-from-silos-to-unified-enterprise-value/
Data ingénierie
- Maîtriser l’explosion des pipelines de données (en nombre, en couverture de traitements, vers le temps réel, en couverture de politiques, des besoins en observabilité – exemple lineage automatique, en sécurité en robustesse, tests en continu des pipelines…).
- Intégrer encore plus de traitements automatiques de données, dont liés à l’IA
- Exploiter des pipelines de plus en plus distribués (IoT, edge computing, terminaux…)
- Exploitation d’architectures : services multi-clouds, serveless architecture, zero trust pour la sécurité, event architecture
Source : https://medium.com/@DebsDataDiary/the-future-landscape-of-data-engineering-9ac315427c4a
Data engineering skills experienced a 29% increase, underscoring the critical role of data in powering AI applications.
Source : https://www.oreilly.com/pub/pr/3465?ref=blef.fr
Par un des fondateurs de DataHub
- « Enterprises and business leaders today understand that they must shift to incorporate AI into their fabric. But the core challenge they face is the complexity involved. Over the years, I’ve watched organizations grapple with data and AI supply chains that have grown impossibly intricate. AI engineers puzzle over whether their models are underperforming due to algorithmic issues or missing data, while compliance officers struggle with seemingly basic questions like whether models were trained using personal information. Only one constant remains: chaos. Traditional governance approaches have failed — they’re resource-intensive, disconnected from daily workflows, chronically underfunded, and overly dependent on manual intervention. »
- L’IA comme solution de la gouvernance – production de graphes de données, automatisation des activités de gouvernance, classification, documentation des données, surveiller sur la base de règles de gouvernance, contrôler les niveaux de sensibilité des données, connaître les utilisations NB : mais encore faut-il que les S.I. soient prêts pour cela, c’est-à-dire avoir à disposition une couche d’accès aux données et métadonnées !.
- « Governance teams must now track not just data, but models, features, prompts, functions, and embeddings, each with its own intricate lineage and compliance requirements. »
- However, these opportunities come with significant challenges. AI introduces a new layer of complexity to metadata management, requiring extreme versioning capabilities, systems that can handle constant metadata production, and ways to represent entirely new types of AI assets.
- A unified metadata platform is crucial: A unified metadata platform isn’t just a technological luxury. It’s an absolute necessity.
- L’évolution data (solutions, architecture, besoins, gouvernance) pose la problème du passage à l’échelle (avec le problème de l’interopérabilité)
- Et cela sous l’œil de la rentabilité
- « Parallèlement, les entreprises peinent à aligner leurs initiatives Data et IA avec leurs priorités stratégiques, souvent à cause d’une gouvernance insuffisante ou de résistances au changement. »
Source : https://siecledigital.fr/2024/12/13/ia-et-data-2025-lannee-de-linnovation-ou-du-declin/
Data science : de 2024 à 2025
- Systèmes d’IA multimodaux (basés sur N types de données : textes, vidéos, données structurées…) pour le diagnostic, la personnalisation,
- Automatisation des pipelines d’alimentation,
- Appui sur la logique produits de données,
- Explicabilité des modèles utilisés,
- Pression pour une science des données sur les sujets environnementaux.
- L’essor du low / no code
- Extension des réglementations sur les données personnelles dans le monde
- Essor des sources de données IoT
- Data mesh (pour l’accès aux données et la gouvernance fédérée)
Source : https://www.kdnuggets.com/top-10-data-science-trends-defined-2024
Apache Iceberg
- « Apache Iceberg will continue to become the universal table format for data engineering », de par sa capacité à proposer un format ouvert, à gérer des données à la fois transactionnelles (ACID) et décisionnelle et dans le temps,
- « With innovations like RBAC catalogs, streaming capabilities, materialized views, and support for new data types, Apache Iceberg is on track to become the universal table format for data engineering. »
Source : https://levelup.gitconnected.com/data-and-ai-in-2025-looking-beyond-the-hype-4b8ee4c724ac
Bases de données
- Toutes les bases de données ont inclus des capacités vectorielles
- Introduction de l’interrogation TextToSQL
- L’éternel tendance de la réunion des bases de données analytiques (OLAP) et opérationnelles (OLTP) – autres noms “translytical,” and HTAP (hybrid transactional/analytical processing
- Disparition progressive des bases locales, mobiles avec l’idée qu’une base de données unique pour chaque cas d’utilisation n’est pas toujours un choix efficace.
- Prise en compte nativement de JSON (vision document)
- La gestion de données distantes vues comme des données locales (virtualisation inclue dans les moteurs de base de données)
- La prise en compte des open table formats avec Delta Lake, Apache Iceberg et Apache Hudi (tous les trois basés sur Parquet)
- « It’s interesting how the fundamentals of relational algebra, SQL queries, and the like have stayed relevant over decades »
Source : https://thenewstack.io/database-trends-a-2024-review-and-a-look-ahead/
Conclusion
Un excellent article, tour d’horizon de l’écosystème des données

Auteur : Dylan Anderson Dec 15, 2024
Source : https://thedataecosystem.substack.com/p/issue-33-data-ecosystem-annual-roundup
Autres sources :
https://blog.masterdata.co.za/2024/12/10/data-management-trends-for-2025/
https://www.nicolaaskham.com/blog/2025/1/9/data-governance-2024-round-up
Data literacy de la collecte / création de données
- Mise en avant du rôle essentiel de ceux qui créent les données (NB : souvent la discussion commence quand les données sont là, mais leur origine fixe de fait tout ce qui va se passer après).
- Il faut reconnaître les personnes qui participent à cette création.
- Erreurs fatales pour la qualité des données :
- Ne pas investir dans les personnes qui sont au 1er rang dans la création des données (back office, opérateur en call center…).
- Ne pas contrôler la bonne qualité des référentiels via ceux qui y sont confrontés au quotidien, mais dont ce n’est pas le rôle d’en assurer l’alimentation.
- Pousser à la création de données vues comme moyen de coercition et non d’aide.
- Toutes les données ne sont pas au même niveau. S’acharner à créer des données à faible valeur.
- Les solutions :
- Faire comprendre à ceux du 1er rang (de la création) l’importance et la place des actions de création de données pour l’organisation. Et les reconnaitre comme source première pour l’entreprise.
- Permettre aux utilisateurs des données de s’exprimer librement sur les défauts rencontrés, jusqu’à aider les créateurs de données.
- Les non solutions : gérer les problèmes en bout de chaîne sur des stocks de données, accumuler des politiques, contraintes, contrôles et croire que cela va se résoudre par la dernière solution technologique.
A cette vue de bon sens (revenir à la racine du sujet), il faut rajouter aussi, les travailleurs de l’ombre des données, ceux qui jouent un rôle clé dans le déroulement de processus en récupérant des données, en les ajustant et en les retransférant (les IT human middleware).
Source : https://hbr.org/2025/01/how-to-make-everyone-great-at-data
Stratégie de collecte
Revenir à la source des données : maîtrisez-vous votre stratégie de collecte des données ?
Deux articles de contexte totalement différents mais sur la même idée, TF1 et les collectifs de citoyens en Zambie.
Dans le cas de TF1 un bel exemple de stratégie – avec le rôle clé de l’identité.
Dans le cas de la Zambie, un autre bel exemple de stratégie – avec le rôle clé de l’idée de communauté avec la collecte communautaire de données pour éviter les exclusions, favoriser la qualité tout en renforçant la confiance dans l’utilisation des données. Avec l’exemple des programmes de prévention du paludisme et de santé rurale, ce sont les voix locales qui guident la collecte versus des observateurs extérieurs.
Sources :
Le retour du KM (suite)
Voir aussi la revue du mois précédent.
Retour matérialisé par une de ses représentations : les graphes de connaissance.
Pourquoi ? Pour augmenter la qualité du contexte des données (en particulier pour les besoins des moteurs d’IA).
Avec deux niveaux de graphes de connaissances : au niveau des données elles-mêmes et au niveau des métadonnées (relations entre données, regroupements de données, liens entre sources, usages, lineages des données dans tel processus…). Tout ce qui peut compléter le sens des données via de la sémantique par la navigation entre les relations sur les données – les nœuds et ce qui concourent à ces données).
Sources :
https://medium.com/@community_md101/back-to-basics-of-knowledge-management-27bf99539889
https://medium.com/@rajib76.gcp/taxonomy-ontology-and-knowledge-graph-2fd70ea4c39d
https://tdan.com/the-data-centric-revolution-putting-knowledge-into-our-knowledge-graphs/32296
Les vicissitudes data
1) Négliger l’origine des données
L’éternel difficulté à bien exploiter les données (faute des données elles-mêmes, des compétences, des moyens, de la gouvernance, du manque d’effort en alignement business…).
Pourquoi toujours ce même refrain alors que tout le monde est d’accord sur la valeur des données ?
Parce que malheureusement, on traite ce sujet une fois que les données sont là.
Sans se préoccuper des fondamentaux.
Et le premier de tous, qu’est-ce que sont non données ?
A savoir, leur définition, leur origine, leur cycle de vie.
C’est un effort premier, mais négligé, ou sous-traité un stagiaire qui passe par là.
Parce que la valeur n’est pas visible immédiatement au contraire de la nouvelle application en cours de développement (aller mettre dans un backlog une charge de définition des données…).
Et le deuxième, dont on se demande pourquoi il faut le répéter, quel alignement avec le métier ?
La technologie domine l’analyse métier dans les équipes IT.
Source : https://www.dataversity.net/mind-the-gap-the-data-chasm/
2) Le multi problème des environnements de données
On parle toujours de big data alors qu’elles ne sont plus big (traiter les volumes de données qui ont amené à la naissance du terme big data n’est plus un problème).
La problème n’est plus le big mais le multiple, c’est-à-dire la prolifération de données de multi-sources, approchantes, multi-schémas, non interopérables, sans gouvernance (tout le monde peut créer les données qu’il souhaite) … Comment réconcilier tout cela ?
Le retour du MDM à l’échelle ?
Voir par exemple : https://diginomica.com/cheers-jack-daniels-recipe-powerful-sales-cocktail-master-data-management-served-neat
3) L’usage des données sans connaissance
La connaissance de l’usage des données n’est pas facile à obtenir. Et souvent le travail s’arrête une fois les données mise à disposition. Mais combien de tableaux de bord, de lots de données inutilisés, mal utilisés, découper pour en extraire un sous ensemble de données reversées pour un autre usage non forcément prévu.
La connaissance des usages est pourtant primordial.
Quels contrôles sur la destination et l’utilisation des données ?
Comment expliquer que changer le contexte d’usage de données ne se fait pas sans une réflexion et sans contexte (métadonnées) ? Avec l’erreur de réutiliser des données sans aller plus loin que la définition imaginée au travers de leur seul nom (un cout, un dossier, un client…).
Des pistes : adopter une pensée critique vis-à-vis des données, rendre le contexte des données simple, revenir à l’origine des données, le tout pour en faciliter l’accès dans toutes ses dimensions (voir les données, les comprendre, sans saisir, les manipuler).
Source : https://engineering.dunelm.com/data-is-good-916bf1b481c3
4) Le data ditch
« Le « data ditch » est un vide métaphorique, qui affecte les entreprises qui ont maîtrisé la collecte de données mais ne peuvent pas encore utiliser ces données pour étayer toutes leurs décisions. ».
Les données ne sont pas utilisées à leur plein potentiel, leur impact n’est pas visible.
C’est le sujet du dernier km : comment passer des données sont là à un usage à valeur ?
Sujet n°1 de l’accessibilité aux données et de leur gouvernance. Comment atteindre les bons utilisateurs pour les bons usages.
Source : https://www.archimag.com/univers-data/2023/02/22/data-ditch-comment-reperer-solutionner-probleme
5) Les 7 péchés capitaux de l’ingénierie de données
1) Le désir du pipelines sophistiqué, cathédrale, qui fait tout.
2) La gourmandise par la surconsommation de technologies.
3) La cupidité qui pousse à privilégier la dernière technologie à la mode, un assemblage technologique que je suis le seul à maîtriser, avec une puissance technologique en décalage avec les réel besoin, à stocker le maximum de données et on verra bien après (le célèbre data swamp).
4) La paresse, qui fait « oublier » les bons principes de génie logiciel, avec la stratégie de test négligée.
5) La colère quand les parties prenantes ne comprennent pas réellement les données sur lesquelles on travaille (définition, qualité, poids, origine, contexte…) et qui n’attendent que les résultats.
Les données sont un sport d’équipe, il ne faut pas jouer individuel et s’énerver parce que les autres sont des poids.
6) L’envie, oublier le débat l’ingénierie de données n’est pas de l’ingénierie logicielle. C’est de l’ingénierie logicielle qu’il faut apprendre.
7) L’orgueil, tout doit passer par nous, quitte à être un goulet d’étranglement, à créer un silo de données. Ouvrir les données, ne pas rejeter les personnes qui prennent ces données à leur main en self … les accompagner plutôt. Si tel tableau de bord n’est pas bon à cause de tel défaut de qualité, ce n’est pas mon problème ! Ne pas s’ostraciser.
6) Les dark data
« dark data. Á savoir, tous ces fichiers, données et documents hétérogènes, organisés de manière anarchique, dont personne ne connaît la teneur exacte. ».
Des données qui coutent cher, qui sont à risque et sous exploitées.
Source : https://www.archimag.com/demat-cloud/2024/06/12/dark-data-donnes-cybersecurite-vracs-numeriques
7) Dangers data
Accorder uniquement de l’importance aux données chiffrées (issue de la quantification) – erreur de McNarama – d’après l’accent mis par un secrétaire américain à la Défense sur des mesures quantitatives trompeuses pour évaluer la guerre du Vietnam.
Avec aussi « People used to say that nobody ever got fired for buying IBM. It’s not hard to imagine “nobody gets fired for following the algorithm” becoming the modern-day equivalent. ».
Ignorer les données peut être un atout, sauf à vouloir suivre ce qui reflète le monde tel qu’il est.
Source : https://www.economist.com/business/2025/01/02/beware-the-dangers-of-data
Et complément, l’intuition l’ennemi des données ?
Source : https://eric-sandosham.medium.com/intuition-in-data-analytics-a7904b1e957e
8) Fake data
L’éternel sujet des fakes. Avec ici les fausses notations / étoiles dans le monde du développement.
Data et IA : le 2ème choc data
Le 1er choc data a été le big data.
Le 2ème choc data est celui des besoins de l’IA.
Jamais dans l’histoire il n’y a eu une telle course aux données.
Jusqu’à faire dire par certains (E. Musk) qu’elles ont été épuisées.
Data et IA est un sujet régulier des revues data.
Décembre confirme l’explosion de cette course aux données et des data workers.
Le challenge de plus en plus de données, de plus en plus dispersées, avec l’IA comme aspirateur à données et comme nouvelles sources de données.
Deux postures : courir à centraliser de façon correct toutes les données ou faire avec cet état et le fédérer.
Avec NetApp qui défend l’idée de vision centralisée unifiée « Data unification is emerging as a critical driver of AI success, with 79% of global tech executives recognizing the importance of unifying data to achieve optimal AI outcomes. ». Et avec les arguments de la sécurité (centralisée) et de la maîtrise des couts (centralisés). Source : https://insideainews.com/2024/12/26/netapps-2024-data-complexity-report-reveals-ais-make-or-break-year-ahead/
« Selon une étude de Capital One, les décideurs sont persuadés que leurs données sont prêtes pour l’IA, mais la réalité du terrain voit leurs équipes IT passer des heures à mettre les data en forme et finalement passer à côté d’opportunités réelles d’automatisation. ».
Avec le mythe, l’illusion « « Ils ont l’impression qu’il suffit de jeter des données à manger à l’IA et que cela résoudra tous les problèmes. ». Source : https://www.lemondeinformatique.fr/actualites/lireamp-ia-et-data-le-grand-malentendu-entre-dirigeants-et-equipes-it-95578.html
Comment compenser les producteurs de données pour l’IA ? Les mettre en valeurs (faire apparaître les contenus produits dans les résultats de l’IA), les monétiser.
Le cout des données pour l’IA : « Meta, opens new tab said on Wednesday it plans to invest $10 billion to set up an AI data center in Louisiana ».
Quand les médias vendent leurs données « OpenAI and Future partner on specialist content, stating that “OpenAI and Future, the global platform for specialist media, has today announced a strategic partnership to bring content from Future’s 200–plus media brands to OpenAI’s users…including websites, newsletters, videos, magazines, and live events. ».
Ou encore, « Harvard lance un gigantesque ensemble de données gratuit pour entraîner des modèles d’IA, financé par OpenAI et Microsoft. Cette initiative, basée sur des livres du domaine public, vise à démocratiser l’accès aux ressources d’intelligence artificielle et à équilibrer le secteur. ». Avec près d’un million d’ouvrages.
Quand les données de mainframe rencontrent l’IA : les données des mainframe comme garde-fou des biais des données pour l’IA. Ces données sont riches (opérationnelles, transactionnelles), de qualité, complètes, historiques, contextualisées.
Reste le défi d’en extraire les données…
Et quand Uber se lance dans l’étiquetage de données par des travailleurs indépendants. Source : https://www.cio-online.com/actualites/lire-uber-exporte-son-modele-dans-la-data-16018.html
En vrac (Evénements data, Le rôle de data translator, Data visualisation des données qualitatives, Domain data driven et data product, Conserver les données brutes, Une norme pour les données des personnes vulnérables, L’architecture médaillon n’est peut-être pas si bonne, Modélisation des données)
1) Evénements data
Une série de conférence sur la réification du corps humain – source : https://calenda.org/1216137
Et un colloque à venir sur « Fabriques des données dans les organisations : nouvelles épistémologies, pratiques et gouvernances ». Source : https://calenda.org/1212243
2) Le rôle de data translator … de MOA data
Encore la réinvention d’un concept par le monde de la data. L’idée de data translator que l’on peut aussi tout simplement appeler MOA data.
Pour combler le fossé des connaissances entre les équipes métiers et celles des données.
Pourquoi ?
« “The Decision Dilemma” (April 2023), 72% of business leaders have expressed that the enormous volume of data available and the lack of trust and inconsistencies in data sources have stopped them from making decisions and 89% believe that the growing number of data sources has limited the success of their organizations, despite understanding that decisions that are not backed by data can less accurate, less successful and more prone to errors. »
Le paradoxe : « It is becoming increasingly clear that the data knowledge gap is becoming wider despite the availability of abundant data resources. »
La data literacy la réponse : oui et non.
Les données ce n’est pas si simple entre savoir bien les utiliser, les comprendre, les produire, identifier leur défaut, leur cout, le tout en ayant une bonne connaissance du contexte métier.
Un consommateur de données peut-il maîtriser toutes ces dimensions ?
Difficile d’où l’idée de data translator … dédié à cette maîtrise pour le compte de consommateurs de données, mais aussi de producteurs via l’idée de data product.
En synthèse savoir-faire, principes, attitudes et compétence d’une MOA s’appliquent bien entendu aussi aux données.
3) La visualisation de données qualitatives
En général la data visualisation est réservée aux données quantitatives. Avec l’émergence de l’IA, les données qualitatives prennent de plus en plus d’importance. Comment les exploiter au travers de data visualisation.
Source : https://www.storytellingwithdata.com/blog/swdchallenge-visualize-qualitative-data
4) Domain data driven et data product
5) Conserver toutes les données brutes, malgré le volume, sans avoir à choisir lesquelles conserver, une solution de stockage … brutale.
6) La norme data SAVVI (UK – Scalable Approach to Vulnerability Via Interoperability) – pour les données des personnes vulnérables.
Sources :
https://www.ukauthority.com/articles/savvi-vulnerability-data-project-enters-phase-four/, https://www.localdigital.gov.uk/funded-project/savvi/ et le modèle conceptuel de données https://coda.io/@savvi/welcome/the-savvi-concept-model-21
7) L’architecture médaillon n’est peut-être pas si bonne
« L’application d’une structure de données rigide à trois couches pour toutes les sources entraîne des inefficacités lorsque certains ensembles de données ne nécessitent pas de nettoyage ou de transformation approfondis. »
Sa complexité, sa centralité (concentration des données), sa latence, sa logique curative a posteriori versus a priori …sont à qualifier avant de l’adopter.
8) Modélisation des données
Retour de la préoccupation de modélisation, des données non seules, en contextes fournit par des modèles.
Avec le question de l’efficacité d’interrogation des données brutes directement versus passer par un modèle …
RDV maintenant en février 2025 pour la revue et les actualités de janvier.

Les commentaires sont fermés.