Dernière modification le 22 juillet 2025

Comme d’habitude une suite de sujets data en lien avec un ensemble d’articles data du mois de mai.

La suite sur les données sont des armes.

Les sujets récurrents sur l’ingénierie data, les métadonnées, la modélisation, la data gouvernance et le data management, l’usage des données en entreprise, la data et l’IA.

Le retour de la data et le sport.

Deux sujets finalement proches : la datafication des frontières et l’interopérabilité.

Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.

Sommaire :

Les données sont des armes (suite)
Le marché des données
La datafication des frontières
Data modélisation
Etat des données dans les entreprises
L’interopérabilité n’est pas qu’un sujet technique
Data ingénierie
Data gouvernance et data management
Data et IA
Data et sport
Vrac (Lancement du portail de données du secteur médico-social, Se préparer au Data Act, Bienvenue dans le dataïsme, Tout n’est pas réductible à des données, Capture des émotions, Les données à la base du passeport numérique des produits)

Les données sont des armes (suite)

Dans la suite du thème les données sont des armes (voir la revue du mois d’avril : https://www.datassence.fr/2025/05/21/revue-data-du-mois-avril-2025/#_ftn1 ).

1) Aux US : « Trump Taps Palantir to Compile Data on Americans » – « In March, President Trump signed an executive order calling for the federal government to share data across agencies, raising questions over whether he might compile a master list of personal information on Americans that could give him untold surveillance power. » Et cela s’appuie sur Palantir (offre Foundry https://www.palantir.com/platforms/foundry/ ) qui devient l’infrastructure de consolidation des données des agences américaines. Source : https://www.nytimes.com/2025/05/30/technology/trump-palantir-data-americans.html

2) Du côté de l’Europe, « La Commission européenne prépare une proposition de loi visant à conserver structurellement les métadonnées. Cela devrait non seulement simplifier les enquêtes judiciaires, mais cela signifie également que de nombreux services, tels que les VPN, ne pourront plus opérer de manière anonyme. ». Avec l’idée d’une standardisation des métadonnées afin de mieux les partager, consolider à l’échelle de l’Europe. Source :https://datanews.levif.be/actualite/europe/leurope-entend-conserver-structurellement-les-metadonnees/

Le texte est ici : https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/14680-Impact-assessment-on-retention-of-data-by-service-providers-for-criminal-proceedings-_fr et il est possible d’apporter son avis. Et pour approfondir, les recommandations du groupe de travail : https://home-affairs.ec.europa.eu/document/download/1105a0ef-535c-44a7-a6d4-a8478fce1d29_en?filename=Recommendations%20of%20the%20HLG%20on%20Access%20to%20Data%20for%20Effective%20Law%20Enforcement_en.pdf&prefLang=fr

3) Quand des données supprimées sur le changement climatique doivent être rétablie par décision de justice parce qu’utile aux agriculteurs US. Source : https://flowingdata.com/2025/05/20/farmers-sued-over-deleted-usda-data-and-it-worked/

4) Et le pire, des décès suite à des tornades avec le soupçon d’absence d’alerte et la suppression de données climatiques « Just one day before the disaster, on May 15, the New York Times ran an investigative piece about how DOGE cuts were undermining weather forecasting improvements. ». Source : https://www.mesoscalenews.com/p/tornado-warnings-delayed-because

Le marché des données

Un article intéressant sur le cout d’arrêt donné au secteur du courtage des données aux US par le CFBP (Consumer Finance Protection Bureau) l’année dernière et abrogé par l’administration Trump. Pour rappel, aux US tout était quasi permis en termes de vente de données personnelles (secteur déréglementé). « Data brokerages combine data about your movements, purchases, friends, medical problems, education, love life, and more, and bucket you into categories that marketers (or scammers) can buy access to. There are over 650,000 of these categories, including « seniors with dementia, » « depressed teenagers » and « US military personnel with gambling problems »».

« Killing the CFPB’s data broker rule is a pure transfer from the Trump base to Silicon Valley oligarchs, whose hunger for our private data know no bounds. ». Source : https://pluralistic.net/2025/05/15/asshole-to-appetite/

NB : source à lire avec intérêt – publication de Cory Doctorow (auteur prolifique et de référence).

Autres sources : https://flowingdata.com/2025/05/22/privacy-from-data-brokers-canceled/ et https://www.wired.com/story/cfpb-quietly-kills-rule-to-shield-americans-from-data-brokers/

Et sans oublié les risques de brèche, vol – Source : https://techcrunch.com/2025/05/28/data-broker-giant-lexisnexis-says-breach-exposed-personal-information-of-over-364000-people/

Et dans la même lignée, la mise en place par la gouvernement US d’un guichet unique permettant aux agences gouvernementales de renseignement d’acheter des données.

« Rather than each agency purchasing CAI individually, as has been the case until now, the “Intelligence Community Data Consortium” will provide a single convenient web-based storefront for searching and accessing this data, along with a “data marketplace” for purchasing “the best data at the best price,” faster than ever before, according to the documents. It will be designed for the 18 different federal agencies and offices that make up the U.S. intelligence community,… ». Source : https://flowingdata.com/2025/05/27/marketplace-for-government-agencies-to-buy-all-the-personal-data-about-americans/ et https://theintercept.com/2025/05/22/intel-agencies-buying-data-portal-privacy/

Voir aussi l’étendue du sujet et la longue liste des données collectées par le DOGE dans la revue du mois d’avril : https://www.datassence.fr/2025/05/21/revue-data-du-mois-avril-2025/#_ftnref1

La datafication des frontières

Quand passer une frontière géographique devient passer une frontière numérique.

Applications de collecte de données sur smartphone pour passer les frontières, mise en place d’identifiants uniques des voyageurs – IATA One ID – aviation internationale, contrôle numérique des individus (filtrage), contrôle des profils via le contenu de son smartphone, frein numérique pour décourager les migrants, à vous de prouver votre légitimité via vos données, définition de normes d’interopérabilité pour faciliter l’intégration multimodale de sources de données (enjeux géopolitiques) … Une analyse approfondie de ces dispositifs et de leurs conséquences (biais, inégalités de traitements…) : Source : https://journals.sagepub.com/doi/abs/10.1177/20539517251319996

Data modélisation

1) L’AI ne vous sauvera pas du problème de la modélisation des données… alors que les modèles de données sont plus important que jamais… pour l’IA. Et cela concerne aussi bien les données structurées et les données non structurées. Le modèle de données fournit une part du contexte indispensable aux moteurs d’IA pour produire des résultats les plus utiles possibles. On parle de modélisation de données polyglottes (graphe de connaissance, modèle relationnel, ontologie, couche sémantique, modèle d’un ERP…)

« For example, consider the chat interaction below with a GenAI-powered assistant for flights. The assistant needs to know recent flights, upcoming flights, the layout of a plane and the customer’s preferences for flying. The most reliable up-to-date information to properly contextualize the prompt for the AI lives in the operational layer of the app stack, like the airline reservation system. ».

« While foundation models are incredibly smart, they can also be incredibly dumb. They have vast general knowledge but lack context and your information. They need structured and unstructured data to provide this context, or they risk hallucinating and producing unreliable outputs. ».

Les modèles servent de référence aux agents IA. Avec l’attention à porter sur les dérives possibles des modèles. Source : https://thenewstack.io/ai-wont-save-you-from-your-data-modeling-problems/

2) Les niveaux de modélisation (conceptuel, logique, physique) sont-ils obsolètes ? NB : vieux questionnement existentiel depuis plus de 40 ans ! La réponse est non. Mais il faut aller vite, taper directement dans les bases physiques et avec l’IA c’est inutile ?? Pourquoi s’embêter avec une modélisation amont ? « Conceptual thinking still happens. It might live in someone’s head, not a shared diagram. Just because the conceptual modeling level was “skipped” doesn’t mean it wasn’t done. It wasn’t intentionally done in collaboration with stakeholders, with a diagram or documentation as an artifact. But conceptual modeling still happened. Logical structure still matters, even if it’s implicit in code. Physical modeling deals with performance, storage, and platform-specific optimization. People practice the levels, but perhaps not in order or to the degree some might preach. ». Cela a toujours été le cas, ce n’est pas une séquence mais une suite d’allers-retours entre le conceptuel, le logique et le physique ; Source : https://practicaldatamodeling.substack.com/p/are-the-levels-of-data-modeling-outdated

3) Et la suite « Nous n’avons pas le temps pour la modélisation de données ». Avec le fardeau d’expérience du type « Infamous among these tales is the Big Design Up Front of a humongous Enterprise Data Model that took several years and an army to build. These enterprise data models had difficulty adapting to a faster business climate. Sadly, when this data model was produced, it was outdated and didn’t accurately reflect the business. And the slow introduction of the model was only the down payment ». A cela s’ajoute un problème de formation à la modélisation (NB : qui se rappel de ses cours sur Merise ?!). Et l’agile n’a pas arrangé les choses. Le travail de modélisation, de conception de modèle n’est pas une tâche de livraison dans un sprint. Source : https://practicaldatamodeling.substack.com/p/we-dont-have-time-for-data-modeling

Etat des données dans les entreprises

1) L’éternel indicateur de réussite des projets analytique : « Why 80% of data initiatives fail

Gartner once estimated that only one in five data analytics projects deliver measurable results. »

Avec l’éternel erreur de mettre la data « à côté » : « And here’s the kicker: when responsibility for data is handed off to junior staff or parked in IT, data gets reduced to a back-office task instead of becoming the business enabler it’s meant to be. ».

Et l’argument de la confiance : d’un côté les managers manquent de confiance pour remettre en question le travail des équipes data et de l’autre côté, les équipes data manquent de confiance pour obtenir l’adhésion à leurs travaux. Le tout se traduisant par un manque de confiance dans les données. La solution mettre les données dans l’action et non « à côté ». Source : https://dataconomy.com/2025/05/08/the-biggest-myth-in-data-analytics-and-why-its-costing-you-millions/

2) Etat des données dans les entreprises : un constat constant !

« One seriously overlooked risk to an organization is the vulnerability related to tribal knowledge about data. Data dictionaries are often out-of-date or incomplete. The deep understanding of an organization’s data exists solely in the heads of the key subject matter experts, many of whom are too busy fighting fires to document what they know. These folks are often senior in tenure (highly paid) and can be targets of cost-cutting initiatives. Any project downtime is the perfect opportunity to put a process in place to document what they know about data. This includes definitions, known problems, proper record systems, and classification.

One recommended action step is to uncover the underlying data quality issues facing your organization. Data quality often takes a backseat without a strong external driver (e.g., audit or lawsuit). We talk about it, send people to conferences, and buy software, but we don’t turn this talk into action. This starts with investing time and resources to understand the root causes of your data problems. »

Source : https://tdan.com/the-art-of-lean-governance-future-proofing-during-times-of-high-uncertainty/32660

3) Sur l’erreur courante de penser que les données quantitatives sont objectives et les données qualitatives subjectives. Les données quelques soit leur nature sont orientées. Tout est subjectif. « Firstly, it’s important to note that there is no such thing as objective or subjective data. Those descriptions refer to information, which is derived from data when you interpret it. The sheer fact that data needs to be interpreted to turn it into information makes the latter subjective and probabilistic. So, ALL information is subjective…». Une donnée est le résultat d’une construction, de choix, d’un processus de collecte, d’un environnement. Ce contexte influe sur l’interprétation des données. Donner du sens, générer des explications de l’observé à partir des données, tester des hypothèses relèvent du cœur de métier du data analyst. Source : https://eric-sandosham.medium.com/quantitative-vs-qualitative-data-in-data-analytics-71501420d436

4) Dans le même esprit, une analyse de la difficulté de produire des tableaux de bord qui influencent les décisions. Avec comme contrainte, la réalité des données jamais parfaites (dispersées, de qualité différente, partiellement accessibles, sans métadonnées – contexte, sans définition formelle…). Cela implique de faire des choix en lien avec l’interprétabilité des données et être dans l’adaptation permanente. Et cela demande un effort supplémentaire par rapport à un codage « en dur » d’indicateurs figés (programmation paramétrée, tableaux de bord dynamique – ajustable, introduire de la rétroaction…). Les données ne sont pas le reflet parfait du monde et l’application parfaite de modèles de data science est trompeuse. Bilan sans perfection, l’humain est indispensable. Source : https://www.dataversity.net/analytics-in-the-trenches-tactical-approaches-for-robust-data-insights/

5) Pourquoi la data ne peut pas être à côté – tout est dit ici : « We’ve spent years talking about how business leaders need to become more data-fluent. But not enough people are saying the quiet part out loud: data professionals need to become business-fluent. ».

« The best data engineers, analysts, and scientists I’ve worked with didn’t wait around for executive approval.

They didn’t need permission to drive impact, they found the problems, solved them, and made sure the right people noticed. ». Source : https://seattledataguy.substack.com/p/why-your-data-team-doesnt-have-a

NB : c’est tellement choquant d’entendre encore des décisions de création d’organisations data dédiées, en intersection avec le métier et l’IT. Alors que sa place est dans le métier.

L’interopérabilité n’est pas qu’un sujet technique

L’interopérabilité n’est pas qu’un sujet technique, mais aussi géopolitique, économique, de pouvoir / contre-pouvoir. L’article s’intéresse à casser l’utopie de l’interopérabilité comme moyen vertueux de casser les silos, pour le bien des utilisateurs de systèmes numériques, favoriser l’intégration de systèmes, les échanges de données.

L’article montre que l’interopérabilité est perçue comme l’antidote aux silos, posant implicitement un cadre idéologique où les silos sont mauvais et l’interopérabilité est vertueuse — un cadre exploité par les grandes plateformes et géants de la tech. L’interopérabilité est au cœur de leur business model pour recentraliser les données dans leur environnement fonctionnel et économique. Source – « The political economy of platformed silos: Theorizing data storage reconfigurations in the age of interoperability capitalism » : https://journals.sagepub.com/doi/abs/10.1177/20539517241303144

Rappel certains silos sont à casser (redondants) et d’autres sont à préserver (spécialisés).

Et l’interopérabilité ou son absence est une forme de protection, de résistance.

Voir aussi – source « Outside the social making of interoperability: Problematizing the absence of civil society in border security R&D programmes » : https://journals.sagepub.com/doi/abs/10.1177/20539517251334093

L’interopérabilité vue comme un projet politico-technique visant à connecter différentes bases de données de sécurité européennes (SIS, VIS, etc.) afin de mieux contrôler les mobilités et identifier les personnes en déplacement. Avec les dérives déjà évoquées du risque de marginalisation de personnes concernées par ces systèmes. La discussion, l’interopérabilité comme bouclier / masque technique à des ambitions politiques. Et qui permet d’exclure les citoyens, le public, les CSO – Civil Society Organization du débat, de la conception de ces systèmes.

Data ingénierie

1) Un inventaire de bonnes pratiques dans le design d’un pipelines de données (modularité, réutilisabilité / composabilité, idempotence, observabilité intégrée, intégration de data contracts, paramétrage – configuration…). Source : https://medium.com/@mustafaisonline/data-engineering-design-principles-c9807bcf7d95

2) Les multiples visages de l’architecte de données : la face vision d’entreprise, la face solutions data, la face modélisation des données, la face facilitateur pour la data science, l’IA, la face expert cloud data, la face data product architect. Et je rajouterai la face volet data d’une démarche d’architecture S.I. ainsi que le lien avec la data gouvernance dont l’architecture des métadonnées et encore tout ce qui concerne les données non structurées. L’article poursuit ensuite cette déclinaison pour répondre au besoin de l’IA. Source : https://medium.com/@community_md101/the-role-of-the-data-architect-in-ai-enablement-51a097f6eb7d

A lire sur l’architecture des métadonnées. Un tour d’horizon du sujet. Source : https://medium.com/@mustafaisonline/metadata-lineage-propagation-in-data-engineering-29e1a053732c

3) En complément dans cet article 12 facteurs qui conditionnent une architecture de données –

Domain-Driven Data Design
Single Source of Truth & Common Vocabulary
Pipelines as Code (Versioned & Reproducible)
Separate Configuration from Code
Loosely Coupled & Modular Components
Continuous Integration & Deployment (CI/CD)
Stateless, Idempotent Processing
Scalable & Elastic Infrastructure
Data Quality Assurance at Source
Observability & Lineage
Security & Privacy by Design
Self-Service & Democratization of Data

Source : https://blog.det.life/the-12-factor-data-architecture-37b3b0b852a5

4) Un zoom sur les différentes catégories de bases de données et leur rôle dans une architecture de données :

Data warehouse
Data lake
Transactional database
Document database
Key-value store
Graph database
Time-series database
Vector database
Multi-model database

Source : https://blog.det.life/why-are-there-so-many-databases-87d334c5dce6

Et une discussion intéressante sur pourquoi ajouter une nouvelle base de données ?

Avec orthogonalement, l’obsession d’une vue (base) unique de ses données (pour rappel un mythe en terme d’architecture). Le tout bien entendu dans le contexte de l’IA. L’essentiel (de bon sens), se préoccuper d’abord de la matière première c’est-à-dire des données avant de penser aux solutions de stockage. « Why, though? Why are analytical initiatives so valuable for a handful of companies, and failures for so many others? We have thousands of fancy tools; we have an industrialized training program for analysts; we have communities, conferences, and an endless circular supply of self-referential soapboxing. What’s still missing?

One explanation remains—the problem is the data itself:

Even if we have the tools that companies like Netflix, Google, Airbnb, and others have, and even if we copy their cultures and hire their employees, we’re still missing the third leg of their gold-plated analytical stool: Their data. ». Source : https://benn.substack.com/p/we-need-a-new-database

NB : on peut ajouter aussi le sujet des bases de données distribuées dans le cadre du edge computing (voir point suivant n°7).

5) Et la recherche du langage universel de gestion des données capable de couvrir les SGBDR et la bases NOSQL – « NewSQL isn’t just a buzzword — it’s a category of databases designed to bridge the chasm between SQL and NoSQL. ». Source : https://levelup.gitconnected.com/sql-is-dead-nosql-is-dying-and-newsql-is-quietly-taking-over-114a17986cfe

NB : rien de new, sujet historique dans le monde des bases de données.

6) Quel problème métier résout Apache Iceberg ? Bonne question ! Certes il est indépendant des fournisseurs. Il réduit des frictions techniques face à la multitudes de formats et des transferts de données que cela occasionne … est-ce suffisant pour y migrer ? Conclusion attention à la réaction technophile avec l’arrivée d’Iceberg dans le panorama des solutions data. Source : https://seattledataguy.substack.com/p/apache-iceberg-isnt-coming-to-save

7) Distribution des bases de données avec l’essor du edge computing. Source : https://www.datasciencecentral.com/the-power-of-distributed-data-management-for-edge-computing-architectures/

8)Le temps réel – live data de plus en plus pressant. Source : https://thenewstack.io/live-data-is-rapidly-reshaping-product-development-practices/

9) Le sujet de l’orchestration de traitement de données et ici de data products. Avec une logique architecturale basée sur la gestion d’événements – Event-Based Reactive Scheduling. Source : https://p-platter.medium.com/data-product-orchestration-606a22a1009a

NB : sujet complexe, crucial en terme d’exploitation (éviter les effets dominos liés aux interdépendances ou encore le blocage de traitement dans l’attente d’autres, découplage producteur / consommateur, par exemples) dont la résolution ne doit pas être complexe !

10) Data link de Precisely (https://www.precisely.com/solution/data-link) – quand les éditeurs de data platforms s’attaquent logiquement à la matière première (les données) via la constitution d’un écosystème de sources de données. Et l’annonce d’un partenariat avec Dun and Bradstreet, dans le rôle de référentiel d’entreprises autour de l’identifiant DUNS. Source : https://www.precisely.com/blog/data-enrichment/data-link-for-dun-bradstreet-is-a-game-changer-heres-why

Data gouvernance et data management

1) Annonce de DCAM V3

« data is more critical than ever, and yet harder than ever to manage effectively. » et l’annonce de l’EDM Council de la publication fin juin de la V3 de son framework d’encadrement des données – DCAM.

« Key Enhancements in DCAM v3 : Expanded Support for AI and Cloud (dont la prise en compte des dernières avancées en termes de pipelines de données), Stronger Emphasis on Governance and Security, Updated Regulatory Alignment… » Voir la suite dans l’article. Source : https://tdan.com/eyes-on-data-best-practices-and-excellence-in-data-management-matter-more-than-ever/32655

NB : pour un tour d’horizon des cadres de gouvernance voir https://www.datassence.fr/2025/02/25/notes-sur-la-gouvernance-des-donnees-suite/#_ftn3

Et aussi ce mois un article de rapprochement entre le Dmbok du DAMA et DCAM. Source : https://datacrossroads.nl/2025/05/12/aligning-dama-dmbok-dcam-revolution-in-the-industry/

2) Trois philosophies sur la gouvernance des données.

N°1) La philosophie de la gouvernance à la source (naissance des données) N°2) La philosophie de la gouvernance des réservoirs (environnement de stockage des données – bases, data lake, DW…et alimentations) N°3) La philosophie de la consommation garantie des bons usages et du bon traitement des données). L’auteur emploie pour décrire ces philosophie, l’analogie avec la distribution d’eau (de la source à la consommation). Source : https://tdan.com/the-canal-of-data-governance-at-the-source-course-and-consumption/32639

3) Un article sur l’urbanisme des données. Avec comme élément centrale le data town plan. Autrement dit l’idée de modèle de données d’entreprise. Avec le discours sur son intérêt dans une vision d’ensemble / systémique et aussi l’argument qu’il est possible de le construire rapidement (cela doit). Source : https://tdan.com/embracing-data-town-plans-as-a-bridge-between-the-business-and-it-part-2/32644

Et qui fait suite à l’article : https://tdan.com/embracing-data-town-plans-as-a-bridge-between-the-business-and-it-part-1/32591 (qui traite des sujets classiques sous l’angle des données, du fossé métier / IT et de l’équilibre entre contrôler une vision d’ensemble (à l’échelle) et une mise en œuvre pragmatique locale à court terme).

Data et IA

1) L’annotation de données

« Global data empires: Analysing artificial intelligence data annotation in China and the USA ».

Le travail et marché de l’annotation de données vu de Chine et des US. Avec du côté Chinois, une stratégie d’état, encadrée et l’accompagnement d’usines à annotation (Data Labelling Factories). Où l’état investit dans les data labelling (et y intègre ses orientations politiques). Et du côté US, un laissé faire avec appel à la sous-traitance, à un marché en développement (globalement dans les états du sud – avec la problématique de la précarité). Finalement l’annotation de données reflètent la différence fondamentale classique entre les deux pôles US – Chine : un modèle capitaliste libéral et un modèle étatique et souverainiste. Source : https://journals.sagepub.com/doi/full/10.1177/20539517251340600?mi=ehikzz

2) From Metadata to Meaning: The Knowledge Infrastructure- un long article de Jessica Talisman qui revient sur l’histoire de la gestion des connaissance (métier) jusqu’à l’essor de l’IA. Mais peu d’entreprises disposent d’une infrastructure de connaissance. Et c’est une faiblesse pour l’exploitation de moteurs d’IA (dont l’idée de RAG : voir https://www.datassence.fr/2024/04/10/revue-data-du-mois-mars-2024/?highlight=RAG#_ftn2 ). Mais à la place d’y investir « Instead, the vast majority of enterprises are falling into doom spirals, holding out hope for some kind of self-healing solution for rigid, unstructured data ecosystems ». Et pourtant « Because information and knowledge management are multidimensional, organizations must mature their data strategies and evolve into knowledge infrastructure strategies—capable of capturing the nuances of business knowledge and rich semantics that give data context and meaning. ». Et toutes les connaissances ne se valent pas. Construire une infrastructure de connaissance ne se fait pas naturellement ou simplement par la mise en place d’un lieu de dépôt de documents. « Building and sustaining this infrastructure requires more than goodwill; it demands the right blend of tools, processes, systems, and cultural enablers. Intuitive collaboration platforms, formalized taxonomies, metadata-driven repositories, ontologies and clear governance frameworks streamline the capture, transfer, and reuse of knowledge ». Avec au cœur, de la sémantique, des métadonnées. Un point important de rapprochement avec les données structurées. Ces dernières courent à ce que l’on leur adjoigne de la connaissance pour mieux leur donner du sens. Et la connaissance coure à ce que l’on leur adjoigne des données structurées (métadonnées) pour mieux exploiter le contexte qu’elle intègre.

« Data can be plentiful and even big, but without context it remains inert. Consider a spreadsheet filled with timestamps, user clicks, or sensor readings — valuable for analysis, but meaningless on its own. Knowledge, by contrast, embeds context: relationships between entities, causal links, definitions, and constraints that give data purpose and direction. ».

Le tout étant indispensable aux moteurs d’IA. Source : https://jessicatalisman.substack.com/p/from-metadata-to-meaning-the-knowledge

3) Cohabitation statistiques et IA

Renforcer la rigueur théorique dans les modèles IA (forêts aléatoires, deep learning…).

Et réciproquement s’approprier les modèles employés dans l’IA.

l’IA comme un nouveau type de source de données pour de nouveaux modèles statistiques adaptés aux données générées par l’IA.

L’efficacité économique des statistiques pour la préparation de données pour les moteurs d’IA

Valoriser la reproductibilité scientifique.

Mettre en avant la science véridique (veridical data science) fondée sur prévisibilité, calculabilité, stabilité (PCS). Source : https://hdsr.mitpress.mit.edu/pub/a7kmqk35/release/1

Data et sport

L’annonce de l’ouverture de la plateforme ouverte des données publiques du sport – https://data.sports.gouv.fr/pages/accueil/ Source : https://patrickbayeux.com/actualites/data-sports-plateforme-ouverte-des-donnees-publiques-du-sport/

La ballon de rugby intégré de capteur. Source : https://diginomica.com/data-pitch-sensors-rugby-teams-cross-line. Voir aussi dans le monde de rugby le sujet du protège dents connecté, qui collecte l’intensité des chocs reçus au niveau de la tête (avec des relevés jusqu’à 40g !). Et sur la data et le rugby avec la vision de Y. Nyanga – voir l’article : https://www.datassence.fr/2023/09/21/fiche-de-lecture-de-louvrage-data-et-sport-la-revolution-comment-la-data-revolutionne-le-sport-editions-de-lobservatoire-auteurs-yannick-nyanga-et-aurelie-jean/

Quand l’utilisation de Strava – https://www.strava.com/ ne reflète plus une activité physique mais une activité factice pour augmenter ( !?) sa popularité (son égo) sur le réseau social. NB : aussi poussé par Strava avec la course aux performances sur les segments (vu sur une bosse de 900m à côté de chez moi un record à 51 km/h à vélo). Plus besoin de tricher avec une voiture, une application aide à générer des fausses performances. Sources :

https://www.numerama.com/tech/1974703-arretez-de-payer-des-gens-pour-courir-a-votre-place-ce-site-genere-des-fausses-sorties-strava.html https://www.numerama.com/tech/1975431-comment-strava-a-elimine-des-millions-de-fausses-courses-a-pied.html

Vrac (Lancement du portail de données du secteur médico-social, Se préparer au Data Act, Bienvenue dans le dataïsme, Tout n’est pas réductible à des données, Capture des émotions, Les données à la base du passeport numérique des produits)

1) Lancement du portail de données du secteur médico-social – « « Valoriser les données du secteur médico-social ». C’est l’ambition de la Caisse nationale de solidarité pour l’autonomie (CNSA) qui vient de lancer le portail « Data Autonomie » – https://data-autonomie.cnsa.fr/pages/accueil-accessibilite/ . Source : https://www.lemediasocial.fr/data-autonomie-le-portail-des-donnees-du-medico-social-est-lance_XR8XMZ

2) Se préparer au Data Act : les points clés à anticiper avant septembre 2025

https://www.journaldunet.com/publishers/1541723-se-preparer-au-data-act-les-points-cles-a-anticiper-avant-septembre-2025

3) La publication d’un ouvrage sur les données – « Bienvenue dans le dataïsme » ou comment la data change notre rapport au monde ». L’ambition est intéressante, mais les données ne sont pas du tout au même niveau que ce qui est dit en présentation de l’ouvrage « Après l’ère religieuse, l’ère scientifique, nous voici dans l’ère du dataïsme… ». C’est faire trop d’honneur aux données !

Source : https://www.editionsdelaremanence.fr/livre/bienvenue-dans-le-dataisme/ et https://www.maddyness.com/2025/05/14/bienvenue-dans-le-dataisme-ou-comment-la-data-change-notre-rapport-au-monde/

4) Tout n’est pas réductible à des données, tout n’est pas calculable … à lire l’interview de Samah Karaki : « Le social est incalculable » par H. Guillaud – source : https://danslesalgorithmes.net/2025/05/06/samah-karaki-le-social-est-incalculable/

5) La course à connaître, capturer vos émotions, au niveau individuel et collectif. Sources : https://journalofbigdata.springeropen.com/articles/10.1186/s40537-025-01177-8 et https://journalofbigdata.springeropen.com/articles/10.1186/s40537-025-01179-6

6) Les données à la base du passeport numérique des produits

Source : https://www.journaldunet.com/retail/1541541-passeport-numerique-des-produits-la-mode-en-route-vers-plus-de-transparence/ Voir aussi le rôle des métadonnées, quelle confiance aux données de ces passeports ? https://www.datassence.fr/2025/02/25/notes-sur-la-gouvernance-des-donnees-suite/#_ftn11

RDV maintenant en juillet pour la revue et les actualités de juin.

L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Revue data du mois (mai 2025)