Press "Enter" to skip to content

Revue data du mois (Janvier et Février 2025)

Comme d’habitude une suite de revues commentées de sujets data en lien avec un ensemble d’articles publiés au cours des mois de janvier et février.

Sur : le partage de données, les limites des données, la qualité des données, la data ingénierie, la data analytique et les données de trace.

Trois publications à noter : la dernière version du journal de l’OMG dédié aux données, la publication par la CNIL de son plan 2025-2028 et la publication de l’Observatoire de la Maturité Data et IA des Entreprises (OMDE).

Et une rapide revue d’une sélection d’articles data.

Sommaire :

Partager des données ne va pas de soi

Ce sujet a été bien décrit par différents auteurs (du monde de l’open data et du monde scientifique).

Il est paradoxalement moins explicitement formalisé dans les entreprises, alors que c’est un sujet récurrent. Il est traité techniquement, mais moins sur la dimension intelligibilité des données qui sont partagées, échangées, récupérées.

Une source de référence dans la monde des données scientifiques – Christine Borgman – article publié en février sur la réutilisation des données : https://hdsr.mitpress.mit.edu/pub/2mvqwgmf/release/1

« The embeddedness of data in contexts is a topic well studied in philosophy, social studies of science, history, and within scientific domains. Also common to findings about the embeddedness of data are the difficulties of making data ‘travel’ beyond their origins.
Considerable information loss occurs when data are removed from their original contexts (Bowker, 2005; Latour, 1987, 1993; Latour & Woolgar, 1979; Leonelli & Tempini, 2020; Loukissas, 2019). »

Elle introduit une idée que j’aime bien : « Théorie de la distance entre les créateurs de données et ceux qui utilisent ». Et l’impact de la distance sur la réutilisation des données.

Avec une déclinaison de cette distance suivant différents axes : entre domaines scientifiques, entre méthodes scientifiques, entre les personnes et organismes de recherche, entre supports de conservation des données, entre objectifs scientifiques, entre temporalités.

Et aussi l’intérêt du partage de données, avec un article sur le sujet à l’échelle de l’Europe et de la lecture du rapport Draghi (https://legrandcontinent.eu/fr/2024/09/09/le-rapport-draghi/ ).

Y est abordé : la chaîne de valeur du partage des données, les espaces de données (voir l’initiative dataspaces – https://internationaldataspaces.org/), les éléments de gouvernance – réglementation et les recommandations (dont le sujet de l’interopérabilité des données – sur ce sujet voir aussi le thème interopérabilité et gouvernance abordé ici – https://www.datassence.fr/2025/02/25/notes-sur-la-gouvernance-des-donnees-suite/#_ftn7 ).

Source : https://legrandcontinent.eu/fr/2025/02/08/le-partage-des-donnees-a-lere-de-lia-verticale-et-du-rapport-draghi/

Dans ce cadre voir l’adoption par le Conseil de l’Union européenne du règlement relatif à l’Espace européen des données de santé (EHDS). . https://www.consilium.europa.eu/en/press/press-releases/2025/01/21/european-health-data-space-council-adopts-new-regulation-improving-cross-border-access-to-eu-health-data/

L’OMG – Object Management Group consacre la dernière version de son journal à la data

Toujours une référence de qualité à exploiter.

Source : https://www.objectmanagementgroup.org/journal-of-innovation/journal-of-innovation-february-2025-edition/ et cité ici – https://www.bigdatawire.com/2025/02/06/data-centric-world-insights-from-object-management-groups-latest-journal/

Lire par exemple l’article : Unlocking The Full Potential of Enterprise Data – Managing Valuable Data Assets Through Their Lifecycle. Auteur : Bassam Zarkout – IGnPower Inc.

Avec le lien naturel mais pas tout le temps pris en compte entre la transformation digitale des entreprises et les données.

Et bien entendu l’apport de l’OMG dans les standards, avec l’article : Applying Standards to

Information Centric Operations. Auteur : Mike Bennett – Object Management Group

Limites des données et comment les lever

1) Les données ne sont qu’un outil, dont il faut connaître les limites :

  • Les limites de leurs origines et portées,
  • Les limites de leur intelligibilité suivant le contexte dont on dispose, avec comment assurer la représentation de ce contexte (quoi, jusqu’où) et son lien avec les données (lien données – métadonnées. Voir par exemple ce qui est proposé dans l’idée de data product : DPDS – Data Product Descriptor Specification),
  • Et les limites de nous tous, humains lorsqu’on est face à des données (avec les biais connus – exemple l’erreur de McNamara – le risque de dépendre uniquement des données pour prendre des décisions ou accorder une importance disproportionnée aux données)

Et rappels : une donnée n’est pas neutre, une donnée sans contexte n’a pas de sens.

Sources :

https://www.economist.com/business/2025/01/02/beware-the-dangers-of-data

https://medium.com/@community_md101/lost-in-translation-data-without-context-is-a-body-without-a-brain-0c41cab6cb8d

2) Sur la non neutralité des données : le volet données d’empoisonnement

Sources :

https://www.numerama.com/cyberguerre/1885258-une-ia-empoisonnee-par-un-hacker-pourrait-tromper-un-medecin-ou-un-tank.html et https://www.numerama.com/cyberguerre/1913919-lia-doit-asservir-lhumanite-des-chercheurs-ont-rendu-fous-des-chatbots.html

Et une cartographie du sujet vu ici https://needtoknow.fyi/card/poisoning/

Auteur : Baldur Bjarnason – https://needtoknow.fyi/

Voir aussi : https://www.datassence.fr/2024/02/01/la-fausse-innocence-des-donnees/

Le sujet des données empoisonnées n’est qu’une facette heureusement minoritaire des données. Mais d’une façon générale, une donnée n’est jamais neutre. Et c’est dans la nature profonde de sa définition, de son environnement de naissance et de vie. Et ce n’est que la première couche de la non neutralité, la couche suivant de ses usages n’est pas non plus neutre. Et c’est bien exprimé ici au travers du regard de l’IA : https://www.linkedin.com/videos/urn%3Ali%3Aactivity%3A7297933379239358464/

3) Sur le rôle des métadonnées dans la lecture et la gestion des données.

Elles sont indispensables. On peut (devrait) plus facilement en disposer via les pipelines dédiés aux données ou au sein d’espaces centralisés de données. La difficulté porte sur les données sous-produit des chaînes de traitement et des services supports aux processus, chaînes de valeur d’entreprise (où la donnée n’est pas centrale, où on parle de chaînes applicatives).

Ensuite une fois qu’on dispose des métadonnées, il faut savoir s’en servir : pour offrir une vue statique voire dynamique des données, mais aussi pour agir sur les données tout au long de leur cycle de vie.

Sources :

https://datacrossroads.nl/2025/01/06/data-management-across-contexts-a-unified-perspective

https://medium.com/@kessler.viktor/towards-actionable-metadata-342d067dc3cf

(voir l’exemple traité et souvent rencontré – extrait : « Change: Imagine the Marketing department decides to update the schema of their table, deleting or modifying fields.

Conflict: The Sales analyst, unaware of this change, may see their reports break without understanding why. Resolution: This typically results in a lengthy, costly process where support teams need to investigate the issue, communicate with the data producers, restore the table, and more. This is time-consuming and error-prone. »

Et une vision ambitieuse : « With architectures like Iceberg and frameworks like data contracts, metadata is becoming a first-class citizen — no longer a passive element, but an integral part of the data lifecycle that powers automated systems, ensures compliance, and aligns business goals with technical operations. The next evolution of actionable metadata will bring deeper integrations with AI models, automated change tracking, and advanced computational governance. This will enable organizations to manage both their data and AI-driven systems through a single, unified platform. ». Maintenant il faut attendre de voir comment il va être possible de mettre cela en route à grande échelle, avec les couts associés et la difficulté de vendre ce type d’investissement en sachant que c’est difficile à rendre visible (et déjà que le sujet ROI data n’est pas simple).

https://gpsingh07331-28028.medium.com/metadata-102-standard-format-to-organize-and-capture-metadata-of-a-data-asset-f8311e682861. Un tour d’horizon de la standardisation des métadonnées (indispensable sinon la mise en place d’un système de métadonnées est rédhibitoire).

https://www.actian.com/what-is-metadata-management/ Un tour d’horizon sur le metadata management.

4) Le rôle de la data literacy pour appréhender les données en toute connaissance de cause :

Sources :

https://hbr.org/2025/01/how-to-make-everyone-great-at-data : Avec l’importance de la prise de conscience du rôle essentiel des personnes qui interviennent à la conception et la naissance des données (parfois vues de façon péjoratives comme les petites mains des données … ce qui est une erreur fondamentale. Il faut valoriser les créateurs de données) : https://hdsr.mitpress.mit.edu/pub/mioxv9zf : développement d’une approche communautaire de maîtrise des données (peut être le retour des communautés de pratique du début des années 2000).

Qualité des données

Un rapide tour d’horizon de solutions (MonteCarlo, Collibra, Talend, Ataccama, Dataprep – Trifacta, AWS) :

https://medium.com/@getindatatechteam/monte-carlo-vs-collibra-vs-talend-data-fabric-vs-ataccama-one-vs-dataprep-by-trifacta-vs-aws-glue-43c4487beda2

Un modèle d’analyse sur la qualité des données intéressant en proposant les distinctions suivantes, qualités : intrinsèques, contextuelles, représentatives et d’accessibilité.

Source : l’article original – https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00468-0

Et l’exercice de projection de ces distinctions par rapport à la problématique de l’IA :

« – Intrinsic: Data may not be complete, or conform to correct types etc.

– Contextual: Data may not be relevant or suitable. Data may be structurally correct but factually wrong.

– Representational: AI systems that produce outputs in complex or inconsistent formats can hinder user understanding. For example, if an AI model presents data in a convoluted manner without clear explanations, it can lead to misinterpretations, affecting decision-making processes.

– Accessibility: If AI systems do not implement robust access controls, sensitive information could be exposed. »

Vu ici : https://www.hotds.dev/p/humans-of-the-data-sphere-issue-7

Et le fait qu’une qualité totale des données n’est pas possible, qu’elle est toujours relative, et qu’il faut moduler le regard que l’on sur les données en fonction de leur origine ou des éventuelles vérifications effectuées. Source : https://connectedbydata.org/weeknotes/2025/01/20/tim-weeknotes (1ère partie sur la qualité des données) – A noter les nuances que cela peut avoir dans l’exercice de modélisation des données – par exemple ne pas parler de code postal, mais de « code postal signalé » ou « code postal vérifié », en référence à la proposition Beneficial Ownership Data Standard (BODS) https://standard.openownership.org/en/0.4.0/ . NB : il y a débat sur cette façon de modéliser. Faut-il introduire le statut de la données dans sa définition ?!

Data ingénierie

1) « 10 dures vérités sur l’ingénierie des données que personne ne vous dit ! » … A lire, bien dans le concret : 1. Vos données sont toujours plus compliquées que vous ne l’imaginez, 2. Les parties prenantes attendent de la magie, pas de l’ingénierie, 3. La mise à l’échelle est 10 fois plus difficile que la création, 4. La gouvernance des données est ennuyeuse mais essentielle, 5. Traitement par lots ou en continu ? La réponse est « ça dépend », 6. Votre travail sera répétitif (et ce n’est pas grave), 7. Tout le monde accuse les ingénieurs de données d’être responsables des mauvaises données, 8. Aucun outil ne résoudra tous vos problèmes, 9. Une bonne ingénierie des données est invisible, 10. L’IA ne vous remplacera pas, mais les ingénieurs paresseux seront remplacés.

Sur les outils aucun de vous permettra de rattraper votre retard sur les fondamentaux data.

Source : https://medium.com/@shenoy.shashwath/10-hard-truths-about-data-engineering-no-one-tells-you-a9e080ecfef1

2) L’impact des choix d’ingénierie sur les couts (achats et fonctionnements). Source : https://medium.com/@aa.khan.9093/why-your-data-engineering-team-is-bleeding-money-the-shocking-truth-about-airflow-vs-prefect-in-02287fab8654

3) La data ingénierie face aux changements continus (normal dans le monde des données … reflet direct du monde de l’entreprise) et comment faire évoluer une maison quand des personnes y vivent au quotidien. Et parce que dans l’ingénierie des données, il y une double dimension à maîtriser : le contenu (les données) et les conteneurs (les systèmes de données : pipelines, stockages…).

Extrait « Realities of Data Engineering. The data is messy, incomplete, wrong, and full of surprises. Requirements change constantly — there is no end or finish line. You must have data quality checks. If you don’t, someone will find bad data and call you out. That’s embarrassing. The data you need is not always easy to get. The schema will change, and you will be the last to know. That file with “final” in the name is not the final one — there are seven others. No one wants to document anything. Skip over security and permissions at your peril. Your quick fix will live on in song — long after you’ve left. Think twice. If what you build is too expensive to run, it’s pointless. The business couldn’t care less how you do it — until you break the bank. »

Source : https://medium.com/art-of-data-engineering/why-data-engineering-is-never-set-and-forget-62f9e610b0fe

Un métier aux multiples dimensions à maîtriser.

Source : https://blog.det.life/end-to-end-data-engineering-04bdc511908c

4) « Data integration is a difficult problem to work on. In fact, in my experience, it’s one of the hardest data science tasks. » et je suis d’accord (les problématiques d’intégration sont depuis l’aube des temps informatique, le problème n°1). Et cela doit être vu dès la naissance des données jusqu’à leur consommation (exemple de la normalisation des saisies, en passant par la gestion rigoureuse des nomenclatures, jusqu’à la rationalisation des systèmes sources hélas souvent multiples de par l’histoire du S.I.)

Source : https://maxhalford.github.io/blog/hard-data-integration-problems-at-carbonfact/?ref=blef.fr

5) Le graal du format tout usage des données … open et donc multi fournisseurs (moins de dépendance), entre les historiques modèles relationnel (et ACID) et décisionnel, puis Hadoop et ses limites. L’émergence actuelle d’Iceberg après la bataille entre Apache Iceberg et Delta Lake et l’annonce Databricks que les formats Iceberg et Delta Lake seraient fusionnés au fil du temps. Et aussi la contribution de Snowflake via Polaris (catalogue de métadonnées pour Iceberg).

Pourquoi Iceberg ? Le meilleur de chaque monde dans l’organisation des données (relationnel, ACIDité, décisionnel, évolutivité des schémas, datasets pour les besoins de l’IA…) et exploitable par différents moteur de requêtage de données suivant les besoins (OLAP, SQL, recherche vectorielle, graphe…)… A suivre sa place dans les architectures de données.

Sources : https://www.bigdatawire.com/2025/01/13/why-data-lakehouses-are-poised-for-major-growth-in-2025/

https://towardsdev.com/the-true-power-of-apache-iceberg-revolutionizing-modern-data-architectures-044146d463c6

Et derrière la multiplication des formes de stockage des données (anciennes, spécifiques, nouvelles), le sujet de la migration de données devient une problématique récurrente… à industrialiser. Source :

https://medium.com/what-is-your-data-migration-plan/my-book-introduction-data-migration-framework-to-overcome-the-tech-debts-of-legacy-systems-0a947f82d780

6) Comment conserver le contexte, la logique métier associée aux données dans les architectures data ? Sujet au combien central (sans contexte une donnée seule n’a pas de sens). Historiquement c’est le processus et sa chaîne de traitement qui fournissait le contexte. Maintenant que les données sortent de ces environnements, comment conserver le contexte ?

« Business context is key to derive insight from data

Data without any business context (or metadata) is by and large worthless. The less you know about the schema and the logic that produced the data, the more difficult is it to derive information from it. ».

« Remember, I’m not only talking about the data schema, which is generally considered important. It’s about the complete business context in which the information was created. This includes everything needed to re-create the information from the available sources (source data or the source application itself, the schema, and the logic in digitalized form) and information that helps to understand the meaning and background (descriptions, relations, time of creation, data owner, etc.). ».

Et à nouveau on retombe sur le rôle clé de la gestion des métadonnées. Source : https://medium.com/@bernd.wessely/modern-data-and-application-engineering-breaks-the-loss-of-business-context-7d0bca755adb

7) Pour finir sur ce sujet de la data ingénierie, le volet green architecture. Source :

https://karetech.medium.com/data-architecture-the-interior-walls-of-modern-data-platforms-episode-v-green-architectures-5c1504e33d25

Et vu dans cette conversation – quelques noms de « Data engineering influencers » – https://www.reddit.com/r/dataengineering/comments/1ix8r5u/best_data_engineering_influencers/?

Autour de la BI, de l’analytique, des KPI

Comment est vu l’analytique (la prestation des équipe data) dans les organisations – vue des managers : contrôler mes données … corroborer mon récit (les bonnes et mauvaises nouvelles), contrôler les ressources d’analyse vers ce qui me préoccupe mais ce n’est pas vers cela que les données mènent, la responsabilité des résultats analytiques ne veut pas dire la responsabilité de décision (politique), savoir contrôler les conflits internes entre résultats d’équipes data (la mienne, la centrale, celle de l’autre partie, la régionale…). Vu du manager d’une équipe data – savoir challenger ses parties prenantes, être l’avocat du diable par les données, remettre en question les hypothèses et non les arguments, remettre en question le « quoi » et non le « comment », remettre en question l’exhaustivité des données d’entrée. « Le spécialiste de l’analyse des données est généralement la personne la mieux placée pour déterminer si la collecte des données d’entrée utilisées dans le processus de prise de décision et de délibération est complète. ».

Sources : https://eric-sandosham.medium.com/the-politics-of-analytics-5291dc45e8c0 et https://eric-sandosham.medium.com/playing-the-devils-advocate-with-data-e9a1166ddb76

Vous avez toujours eu du mal à exploiter vos données (BI), on vous vend la révolution IA avec des agents IA capable d’extraire les bonnes analyses de vos données pour vous.

Sources :

https://www.lebigdata.fr/grace-a-lia-agentique-vous-etes-devenu-expert-en-data-voici-comment-monetiser

https://techcrunch.com/2025/01/30/data-analytics-startup-athenic-ai-wants-to-be-an-enterprises-central-nervous-system/

Mais comment cela va se percuter avec la BI classique ? Source https://joereis.substack.com/p/old-school-bi-vs-ai-bi-corporate

Et aussi, comment la fonction Text to SQL des IA générative apporte des gains de productivité (attention le retour d’expérience montre que cela se prépare)  : https://medium.com/wrenai/how-uber-is-saving-140-000-hours-each-month-using-text-to-sql-and-how-you-can-harness-the-same-fb4818ae4ea3

Mais avec des limites : https://medium.com/madhukarkumar/why-text-to-sql-is-failing-for-agents-and-how-to-fix-it-6cb4065d40e9

Pourquoi ce tableau de bord affiche des données obsolètes ? Pourquoi personne ne comprend comment ce tableau de bord est alimenté ?…

Questions classiques en BI et qui n’ont fait que s’empirer au fil du temps et de la multiplication des environnements data.

Souvent vécu : « A few years ago, I was involved in a small consulting engagement to understand and document the data architecture for a logistics company. Their existing system was a patchwork of Python scripts ingesting IoT sensor data, a Kafka cluster that nobody in the business fully understood, and a Snowflake warehouse that occasionally stopped loading data. When the CFO asked why revenue forecasts were delayed, the internal team had spent days tracing data across numerous subsystems. ».

Pour s’en sortir l’auteur propose de s’appuyer sur une représentation en 4 couches – C4 model (https://c4model.com/ ) : 1- la couche pourquoi (Who interacts with the system? What external systems are involved? Why does this architecture exist?), 2- la couche containeur (Where is data stored? How do systems communicate?), 3- la couche composants – traitements effectués dans les conteneurs (exemple contrôles des données, transformations…), 4- la couche coding – et spécifications des implémentations. Source : https://blog.datatraininglab.com/c4-modelling-for-data-teams-from-chaos-to-clarity-a9f499007e20

Et l’éternel débat de la distinction entre données opérationnelles et analytiques. Pourquoi et doit-on les distinguer ? L’auteur propose plutôt la distinction données sources et données dérivées.

Pour rappel, la distinction entre données opérationnelles et analytiques repose sur deux postures différentes, une posture de gestion et une posture d’observation. Et ces postures impliquent une façon de traiter les données différentes (par exemple en observation, on doit figer à un instant T une vue des données). Source : https://medium.com/towards-data-science/operational-and-analytical-data-54fc9de05330

Et un sujet récurrent sur datassence, les arbres d’indicateurs « Lessons Learned Implementing Metric Trees » – https://sqlpatterns.com/p/lessons-learned-implementing-metric

Pour finir, trop de données tue les données (on veut plus de données, surcharge, gaspillage, perte de confiance … versus moins de données mieux utilisées). Source : https://medium.com/@alxsbn/lost-in-the-data-fog-your-company-might-be-overdosing-81cb8f8ddb57

Dans la même idée, trop de KPI tue les KPI, à garder celle centrée sur l’humain (client, prospect, employé, fans…)

« Ce dont les entreprises ont besoin aujourd’hui, c’est d’une approche plus centrée sur l’humain pour les KPI. Au lieu de mesures génériques et sèches, considérez les KPI comme des outils pour garder les gens intéressés, informés, impliqués et inspirés. Voici comment… ». Source : https://ehandbook.com/kill-your-kpis-use-this-approach-instead-3f50e26b91b8

Données de trace et suivre les données à la trace

C’est un des sujets pilier des données : les données de trace.

C’est un sujet souvent liés aux données personnelles.

Pas mal d’actualité sur le sujet :

https://apnews.com/article/tesla-las-vegas-explosion-cybertruck-elon-musk-789dc864a0c138fd7c36ca8c94b0fbfd

https://www.journaldunet.com/adtech/1537565-comment-tf1-pilote-sa-strategie-de-collecte-de-donnees/?gbmlus=64f38e80ad0b1a516eca1afb156d930d364aa17a560512a25abb1c027f740418

https://danslesalgorithmes.net/2025/01/06/reguler-la-surveillance-au-travailhttps://techcrunch.com/2025/01/15/governments-call-for-spyware-regulations-in-un-security-council-meeting/

https://journals.sagepub.com/doi/abs/10.1177/20539517241307892?ai=2b4&mi=ehikzz&af=R

Et dans l’au-delà ( !) que deviennent les traces de notre vie après notre mort ?

Source : https://linc.cnil.fr/Donnees_post-mortem_y_a-t-il_une_vie_numerique_apres_la_mort

Et encore, suivre les données à la trace. On ne suit plus des personnes mais les données elles-mêmes

Dont lien observabilité et traces : https://www.bigdatawire.com/2025/01/06/2025-observability-predictions-and-observations/https://medium.com/@gregorysnelson/data-observability-what-every-executive-should-know-196d39ae87d4

En vrac (Enrichissement par les données sans votre consentement, Interview du CDO d’Intuit, Usages des données : du vin à la modélisation de la Terre en passant par la santé !, Pouvoir des données, L’état data dans les entreprises en 2024, Publication par la CNIL de son plan stratégique 2025-2028, Retours d’expérience data : prédictif et vieillissement, données et jeux vidéo, Data workers, Dataops)

1) Enrichissement par les données sans votre consentement

Quand les captchas cacheraient en réalité un vol de données :

https://www.lemondeinformatique.fr/actualites/lire-collecter-et-vendre-des-donnees-la-double-vie-des-captchas-96073.html?

Et aussi :

https://www.20minutes.fr/societe/4136367-20250130-data-brokers-inconnus-connaissent-gouts-habitudes-gagner-argent-dos

2) Interview du CDO d’Intuit.

Un conversation avec Ashok Srivastava, vice-président principal et directeur des données chez Intuit (https://www.intuit.com/fr-ca/ ). Conversation très centrée sur l’IA avec quand même une vue sur les données avec l’exemple de la classification.

« Now, it turns out that making classifiers to do this is really hard because the categories are user-defined. We’ve literally reinvented our platform so that each person can have their own model that allocates spending to the user-defined categories. This means we have millions of models in operation at any given point in time, and those millions of models are getting updated regularly and frequently, because people’s preferences change and the transactions that come in are different. » Source :

https://hdsr.mitpress.mit.edu/pub/5bupaly7

3) Usages des données : du vin à la modélisation de la Terre en passant par la santé !

Sur le vin – le regard amusé et amusant d’un statisticien sur la notation des vins : https://hdsr.mitpress.mit.edu/pub/vun3lbag

Sur la santé – voir l’apport des données dans l’analyse de la maladie de Parkinson – https://www.bigdatawire.com/whitepaper/transforming-healthcare-with-data/

Sur la Terre – comment les technologies d’observation de la Terre créent de la valeur –  https://www.weforum.org/stories/2025/01/5-uses-earth-observation-satellite-data-for-business-and-planet/

5 cas évoqués : 1. Suivi de la déforestation pour des chaînes d’approvisionnement durables, 2. Optimiser la sélection des sites d’énergie renouvelable, 3. Gérer efficacement les ressources en eau dans l’agriculture, 4. Planification urbaine pour des villes résilientes au changement climatique, 5. L’observation de la Terre pour améliorer la réponse aux catastrophes et le rétablissement.

4) Pouvoir des données

Le côté obscure des données au grand jour : Trump / Musk et les données.

On ne peut pas faire l’impasse sur le rôle des données dans la gestion Trump / Musk … comment tout ramener à des données et comment cela leur confère un pouvoir déplacé mais gigantesque (via leur utilisation mais aussi via leur occultation).

Il y a beaucoup d’articles sur le sujet.

Quelques sources : https://flowingdata.com/2025/01/31/data-cdc-gov-goes-offline/ https://flowingdata.com/2025/01/31/census-gov-is-down/ https://flowingdata.com/2025/02/04/geographic-boundary-data-from-census-bureau-is-offline/

5) L’état data dans les entreprises en 2024

A voir la publication de l’Observatoire de la Maturité Data et IA des Entreprises (OMDE) : https://observatoire-data.fr/resultats/observatoire-data-2024

Source : https://www.journaldunet.com/intelligence-artificielle/1537907-l-observatoire-de-la-maturite-data-2024-devoile-ses-resultats-un-paysage-en-pleine-mutation-entre-defis-structurels-et-ambitions-ia/

Dont le constat éternel sur le problème de la qualité des données.

6) Publication par la CNIL de son plan stratégique 2025-2028

Source : https://www.cnil.fr/sites/cnil/files/2025-01/plan_strategique_cnil_2025-2028.pdf

Source : CNIL – https://www.cnil.fr/fr

7) Retours d’expérience data : prédictif et vieillissement, données et jeux vidéo

Un retour d’expérience original sur le pourvoir prédictif des données (et sa tendance normalisatrice … imposée) pour aller plutôt vers comment les données peuvent aider à déterminer son futur. Avec l’exemple du vieillissement. En incluant les questions sur les types de données collectées pour représenter la vie des personnes âgées et les processus de vieillissement. Source :

https://journals.sagepub.com/doi/abs/10.1177/20539517241306363?ai=2b4&mi=ehikzz&af=R

Et un deuxième retour d’expérience sur comment les données sont prises en compte dans l’univers du développement des jeux vidéo. Une visite intéressante de cet univers avec un œil data. Où on retrouve les préoccupations classiques sur les données et aussi des spécificités (quoique) comme la possibilité de configurer des jeux en temps réel. Source : https://journals.sagepub.com/doi/abs/10.1177/20539517241309892?ai=2b4&mi=ehikzz&af=R

8) Data workers : ils sont indispensables pour labéliser les données nécessaires aux moteurs d’IA (en apprentissage, en contrôle). Il faut les outiller. Ils sont de plus en plus nombreux (directs et indirects … nous tous). Ce n’est pas un travail sans risques.

Sources :

https://medium.com/@kanerika/data-labeling-tools-and-best-practices-everything-you-need-to-know-9a0244130e46

https://buttondown.com/datadash/archive/label-data-by-hand?

https://lexpress.mu/s/qui-sont-les-data-workers-les-sacrifies-de-lintelligence-artificielle-542944https://next.ink/169487/antonio-casilli-lintelligence-artificielle-est-lune-des-industries-extractives-de-notre-epoque/

9) Dataops

Le besoin : le besoin de réactivité, de traitements agiles, automatisés devient de plus en plus critique dans l’univers des données. Les approches traditionnelles ne suffisent plus à répondre aux demandes de données.

Un atout : le Devops appliqué aux données… Dataops.

Le problème : la complexité des environnements de données et l’absence de norme industrielle pour le Dataops.

Les solutions du marché – voir https://www.bigdatawire.com/2025/01/30/navigating-dataops-isg-buyers-guides-to-the-best-solutions/


RDV maintenant en avril 2025 pour la revue et les actualités de mars.


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.