Press "Enter" to skip to content

Revue data du mois (septembre 2024)

Dernière modification le 12 octobre 2024

Cette revue est basée sur un ensemble de publications du mois de septembre 2024, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Pour ce mois de septembre les sujets récurrents (Data platforms, Data product, Data contract, Data integration, Données empoisonnées, Data driven, Métrologie d’entreprise, L’intégration de données). Un retour sur la complexité des données dans les S.I. La complicité du couple langage naturel / données. Les pièges pour une équipe data.

Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.

Sommaire :

Données et langage naturel une combinaison à prendre en compte

Utiliser des données dans le langage quotidien est habituel.

Sont-elles correctement utilisées ? Cette question fait partie du vaste sujet de l’intelligibilité des données, de leur interprétation pour en tirer des informations, du sens avec les défauts et les biais connus.

Et cela aussi bien par des personnes que par des machines.

Dans l’autre sens, le langage naturel devient la donnée numéro 1 consommée par les moteurs d’IA, pour en tirer des données.

Le tout forme un couple qui s’auto-influence.

Les linguistes ont un travail à mener après avoir été débordé par l’IA générative (voir https://www.pauljorion.com/blog/2024/03/08/grands-modeles-de-langage-pourquoi-les-reseaux-neuronaux-ont-ils-reussi-la-ou-la-linguistique-echouait-par-claude-roux/ et https://www.pauljorion.com/blog/2024/03/15/video-pj-tv-ia-pourquoi-la-linguistique-a-t-elle-echoue/).

Voir l’article qui aborde la convergence entre linguistique et science des données avec des exemples d’applications au sein des entreprises.

Source : https://www.dataversity.net/the-hidden-language-of-data-how-linguistic-analysis-is-transforming-data-interpretation/

Les cinq pièges dans lesquels tombent les équipes data

Ma traduction :

Le piège de la technologie : classique dérive du solutionnisme technique

Le piège de l’action : avec l’expérience du marteau, tout nouveau problème est un problème de clous

Le piège du projet : si celui-ci n’est pas agile (au sens fort du terme -suivre le métier dans sa maturation, l’ajustement de ses besoins et non suivant un plan prédéfini rigide)

Le piège du silo : un travail data n’est jamais isolé, jamais seul au monde, il est collectif et contextualisé

Le piège de la performance avant tout : la performance data science au détriment de la performance business

« Across industries and company sizes, data teams repeatedly face the same frustrating pitfalls. An invisible barrier seems to stop them from achieving their full potential. We call this the Data Death Cycle — a recurring pattern of wasted effort, inspired by David J. Bland’s Product Death Cycle. » Source – The Data Death Cycle : https://craftingdataproducts.substack.com/p/the-data-death-cycle

Complexité des données dans les S.I.

Un article intéressant sur la complexité du paysage des données dans un S.I. en termes de multi-identifications, multi-représentations, multi-stockages et prises en charge par des applications avec des exemples concrets comme le n° de sécurité social que l’on va retrouver stocké sous n bannières (id client, user id…).

Avec une piste de solution pour maîtriser cette complexité, la mise en place d’un modèle de base reposant sur le principe du knowledge graph du W3C.

Source : https://tdan.com/the-data-centric-revolution-dealing-with-data-complexity/32043 Article à rapprocher de l’exercice que j’ai tenté de faire ici : https://www.datassence.fr/2023/06/23/lequation-des-donnees-dans-les-systemes-dinformation/.

La problématique des données empoisonnées pour les modèles d’IA

Est-ce légal de diffuser des données empoisonnées que les IA utiliseraient pour la construction de leurs modèles et ainsi les rendre inefficientes ?

Ou les modèles ont-ils atteint un niveau de qualité, de stabilité qui les rend insensibles aux données empoisonnées ?

Sujet qui ouvre la porte à plein de questions… et la première qu’est-ce qu’une donnée empoisonnée formellement ?

Source : https://www.lesswrong.com/posts/RuL7rr65wec2ZCFNH/is-it-legal-to-maintain-turing-tests-using-data-poisoning

Avec la question de fond, un modèle stable est-ce réaliste face à un monde ouvert, en évolution continue ? Exemple du vocabulaire employé. Source : https://www.presse-citron.net/que-signifie-le-chiffre-143-que-les-jeunes-senvoient-sur-whatsapp-et-tiktok/

NB : toujours l’éternel combat du numérique entre la nécessité d’une représentation fermée d’un monde d’un côté et de l’autre côté un monde ouvert, en mouvement.

Et dans la suite de ce sujet, quand les IA servent à générer des fausses données que d’autres IA vont prendre en compte (dans l’article des données fictives d’expériences scientifiques mais aussi des fausses images ou encore des témoignages altérés).

Comment éviter que les IA manipulent les données, alors qu’elles démontrent une habilité à cela ? Source : https://maisouvaleweb.fr/de-la-manipulation-de-donnees-scientifiques-avec-lia-generative/

Métrologie d’entreprise : KPI et IA

Comment construire un agent IA pour présenter, questionner des indicateurs de performance ?

L’idée est d’aller au-delà de la présentation traditionnelle sous forme de tableau de bord, en étant capable de questionner les données, par exemple en termes de tendances.

Source : https://medium.com/firebird-technologies/kpai-a-new-way-to-look-at-business-metrics-75eaf0da8dbd.

Qu’apporte l’idée de produit de données à la business intelligence ?

Comment l’utiliser ?

L’idée est de calquer et bâtir les produits de données sur la base d’un arbre de métriques afin de couvrir un ensemble de questions et de dépendances entre métriques. Et de permettre ainsi de répondre aux questions nécessitant de croiser des données entre-elles. Voir à ce propos, cette représentation en arbre des métriques déjà abordée ici https://www.datassence.fr/2024/07/12/revue-data-du-mois-juin-2024/#_ftnref2 et ici https://www.datassence.fr/2024/01/18/revue-data-du-mois-decembre-2023/#_ftn5).

Source : https://medium.com/@community_md101/metrics-focused-data-strategy-with-model-first-data-products-d2e5d23de7b9.

Data product

L’idée se formalise (standardisation, open définition), se répand, se discute et en septembre beaucoup d’articles sur ce sujets.

Extraits – idées clés :

– Rôle d’une couche sémantique (taxonomie – ontologie, objets métier, métadonnées, modèles de données, glossaire métier, politique d’accès). dans la constitution de data products : comme support unifié des sources de données utilisées pour constituer les data products. A noter en retour les data products renforcent la couche sémantique par leurs méta-données d’usage

-«  In the modern data landscape, the Data Product Layer represents the combination of code, data, and metadata, resulting in reusable consumable Data Products that drive business value…The model within the Data Product Layer encompasses entities, metrics, measures, and dimensions derived from the semantic layer model, borrowing entities and context and extending them based on the use case’s requirements. »

– Apport en qualités de la couche sémantique aux data products : cohérence sémantique entre sources, facilité de compréhension (niveau conceptuel versus physique des données + métadonnées), interopérabilité sémantique (définitions, nomenclatures), sécurité (gestion de politiques), découplage sources – consommation,

NB : sur cette idée de couche sémantique ou de vue unifiée des données attention aux limites de faisabilité – voir ici : https://www.datassence.fr/2024/09/23/retours-dexperience-gouvernance-des-donnees/#_ftn13.

Source : https://medium.com/@community_md101/semantics-and-data-product-enablement-a-practitioners-secret-5199dc4ade67

Extraits – idées clés :

– Data fabric Microsoft comme usine de production. Avec comme exemple :

« For example, the Finance domain leveraged this platform and built data products organized into product streams and data products as follows:

Global Financial Services > Record to Report | Procure to Pay | Order to Cash > Productivity & Operations* | Service Quality Indicators* | Benefits Tracking*

Corporate Reporting > Management Reporting > Group Operations Leadership Reporting* | Supply Finance Reporting* | Gross Margin Analysis* | Data Products*

Each data product had a separate business case with corresponding costs & benefits being tracked. »

Et les défis rencontrés :

Voir la suite dans l’article. Source : https://sigmoidanalytics.medium.com/implementing-data-products-and-data-mesh-on-microsoft-fabric-3e54267297ef

Data product as a code, dans le cadre des réflexions sur l’Open Data Product Specification (ODPS) – https://opendataproducts.org/

Les data products décrits sous forme de métadonnées actives interprétables par les data platforms, outils de gouvernance, marketplace data, solutions de data observabilité, solutions de data qualité… : description du data products – spécifications, règles des politiques de données embarquées, règles qualité, SLA, consommations…

Source : https://blog.opendataproducts.org/how-do-we-apply-computational-thinking-and-everything-as-code-in-data-product-management-f233bc16a082

Autres sources : une série de 4 articles très complets sur le cycle logiciel des data products – design – build – deploy and evolve – https://medium.com/@community_md101/how-to-build-data-products-design-part-1-4-312ff3ef4813https://medium.com/@community_md101/how-to-build-data-products-evolve-part-4-4-bb909fb3a974

Et aussi : https://medium.com/@community_md101/where-exactly-data-becomes-product-illustrated-guide-to-data-products-in-action-38cfe1db92cd.

Conduite assistée par les données

Data driven : oui mais vous comme pilote et les données comme passager / assistant (« suggestions data driven »)

Parce que : les sources de données peuvent être biaisées voire non crédibles pour votre problématique, l’exploitation des données est-elle reproductible dans votre contexte, n’êtes-vous pas sujet au biais de confirmation (les données montrent l’opposé de ma direction … je ne les considère pas), le passage des données à de l’information est sujet à caution… Source : https://towardsdatascience.com/stop-being-data-driven-583b5e7abe7b.

L’intégration de données un sujet pas si simple que cela

Comment bien les proposer (par un producteur de données avec le bon contexte, la bonne étiquette) ? Comment bien les interpréter (prise en compte du contexte source) ? Comment bien les « nettoyer » pour son besoin de consommation (en fonction de son contexte). Toutes ces questions relèvent de la problématique d’intégration de données. Jusqu’à ce que de nouveaux métiers émergent, de type traducteur en données normalisées, partageables… (voir un exemple dans le monde de la santé déjà cité ici : https://www.datassence.fr/2023/11/13/revue-data-du-mois-octobre-2023/#_ftn6 – le cas des RN coders – Registered Nurses). Source : https://www.lesswrong.com/posts/7L8ZwMJkhLXjSa7tD/the-great-data-integration-schlep.

Gouvernance des données à l’échelle

Gouvernance des données à l’échelle du monde de la santé par le Forum Economique Mondial – https://www.weforum.org/ avec les 4 axes habituels : 1- Normalisation et interopérabilité, 2- Valeur ajoutée du partage des données, 3- Changements culturels dans la perception des données, 4- Gouvernance et droits des données.

Source : https://www.weforum.org/agenda/2024/09/data-in-healthcare-standardization-governance-and-sharing-can-cut-global-mortality/

A ajouter au dossier sur la gouvernance résultat de retours d’expérience : https://www.datassence.fr/2024/09/23/retours-dexperience-gouvernance-des-donnees/.

Data platforms

1) Salesforce investit pour devenir une data platform de référence – avec l’acquisition d’une solution de sécurisation des données (sauvegardes) de Own Company https://www.owndata.com/ – Source :https://techcrunch.com/2024/09/05/salesforce-acquires-data-management-firm-own-for-1-9b-in-cash/

2) On entend pas mal parler de CData https://www.cdata.com/ qui a levé fin juin 350 millions de dollars dans le domaine de l’intégration de données. Sa force un écosystème de plus de 2000 connecteurs à différents types de sources data (bases de données, progiciels, dans le cloud…), une offre ETL et une solution de virtualisation de données. Dans le but d’offrir une facilité plug and play d’intégration.

Source : https://www.journaldunet.com/big-data/1533461-cdata-la-pepite-incontournable-de-la-connectivite-des-donnees/ – voir aussi https://www.cdata.com/company/press/cdata-software-secures-350-million-in-strategic-growth-funding/

Sur ce sujet voir aussi, Airbyte – https://airbyte.com/ – qui propose la création automatique de connecteurs à partir de documents de spécification d’API – source : https://techcrunch.com/2024/09/24/data-platform-airbyte-can-now-create-api-connectors-by-reading-the-docs/

3) Et aussi, mettre en conformité ses sources de données de façon à répondre aux enjeux d’extraction de données – être proactif : normaliser la présentation des données exposées par la source, politique de la source dans le choix des données « exposables », réglementations à respecter, le tout en métadonnées actives (la documentation de la source) pour les solutions d’intégration, de gouvernance, de développement (IDE), de sécurité… Et cela en préparation des contrats de données. Source :https://medium.com/@dlthub.com/standardizing-ingestion-and-its-metadata-for-compliant-data-platforms-ef9476b3ce3b

4) Pas mal de levées de fond aussi dans le domaine de l’analytic augmenté par l’IA. Exemple Zenlytic https://www.zenlytic.com/ et un agent IA analytic, une couche cognitive (sémantique), un agent conversationnel pour discuter des données et générer des représentations

Source : https://www.bigdatawire.com/2024/09/30/zenlytics-9-million-funding-round-aims-to-transform-data-analytics-for-non-technical-users/

Et la promesse d’un agent IA ingénieur data capable d’accompagner vos équipes data.

Introducing Raden The world’s first AI Data Engineer. Raden augments your data team with distinguished engineer expertise for: Automated Data Observability, Continuous Spend Optimization, Automated Data Quality, Performance  Optimization, Usage and Governance ».

Sources : https://techcrunch.com/2024/09/04/revefi-seeks-to-automate-companies-data-operations/ et https://www.revefi.com/

5) Le sujet classique du couplage sources de données (transactionnelles souvent) et des moyens analytics (par des pipelines), avec la dépendance aux changements des sources impactant l’analytic.

NB : sujet classique d’architecture S.I. – exemple front / back. Et solutions également classiques (contrats d’interface, ½ interfaces, hub data, base tampon répliquée ou asservie, gestion incrémentielle et versionnée des pipelines…). Ici l’idée a été de basculer dans une data platform centralisant les données à partir d’une logique de data product ; (NB : repousse le problème pour moi). Mais au moins cela met le doigt sur un problème récurrent, avec toujours le même leitmotiv : l’intégration est le sujet clé.

Source : https://medium.com/renaissance-learning-r-d/data-platform-transform-a-data-monolith-9d5290a552ef

6) Quand les états configurent des plates-formes de données multi-sources, internes et externes avec la problématique de l’équilibre entre contrôle – réglementation des données (dont personnelles) et la réponse à une problématique d’état facilitée par le croisement de données (« The Bavarian police have a project called the “Cross-Procedural Search and Analysis Platform” »).

Un exemple disséqué – d’une plate-forme pour les forces de police Allemande – HessenData avec également la particularité de s’appuyer sur l’offre de Palantir.

Extraits :

Définition d’une plate-forme data :« While the phenomena related to the term “platform” are very diverse, they still share some basic traits: a connectivity-oriented infrastructure that aims to facilitate interactions by at least two third parties, a mode of functioning based on massive and diverse data, and a modular architecture (e.g., Andersson Schwarz, 2017; Rieder and Hofmann, 2020; van Dijck et al., 2018). Platforms are often connected to novel ways of monetizing surveillance, data, and data-driven decision-making (Srnicek, 2016; Zuboff, 2019).

Platforms are often connected to novel ways of monetizing surveillance, data, and data-driven decision-making (Srnicek, 2016; Zuboff, 2019). Hence, digital platforms can be understood as “infrastructural arrangements that situate digital operability on proprietary systems that are, to some degree, programmable and/or customizable by the system users, making possible one- or multi-sided market exchanges” (Andersson Schwarz, 2017: 375). Andersson Schwarz adds that, as “surfaces on which social action takes place, digital platforms mediate—and to a considerable extent—dictate economic relationships.” (Andersson Schwarz, 2017: 375). 

In summary, the platform literature agrees that platforms are characterized by three properties: datafication, modularity, and multilaterality. NB : modularité au sens framework – structure d’accueil de services.

Summing up, hessenDATA is characterized by datafication, modularity, and multilaterality. Multilaterality results from the linkage of databases and, hence, data.»

L’article aborde ensuite l’état de l’art en termes de réglementations. Dont le difficile équilibre protection des personnes et recherche de signaux de criminalité.

L’objectif de la plate-forme : « The goal of hessenDATA is to enable human analysts to find associations between entities (e.g., people, spaces, objects) with a view to preventing terrorist attacks or discovering organized crime networks. »

Ses fonctions :

«The hessenDATA platform works as a “dragnet,” as it allows the relationships between people, objects, and places to be represented in the form of a network (see also Brayne, 2017). Investigators can use a search interface (see Figure 1) to analyze this web of relationships from any node.

« Significantly, this type of analysis platform is characterized by the “desilozation” of databases, that is, the breaking up of “data silos,” allowing officers to access different data banks within one platform from one central virtual place. Associated with this, there is the potential to link numerous sources of data (internal police data and external data), which enables analyses at high speed. »

L’article aborde ensuite les effets, les conflits générés par la plate-forme. Avec par exemple l’impact sur la responsabilité des différents acteurs.

Puis comment celle-ci est mise en œuvre : contrôle des accès, politique de suppression des données, lieu de stockage, non connexion à internet (mais ambigu) …

Source : https://journals.sagepub.com/doi/abs/10.1177/20539517241255108?ai=2b4&mi=ehikzz&af=R

7) Et pour finir, une analyse pertinente, sur la sur-technologie – sur sophistication, des data platforms pour gérer en réalité des volumes et des calculs plus limité que l’on ne le pense (NB :déjà vrais pour les premiers Big Data qui parfois n’avaient rien de Big). L’avenir au data platforms simplifiées, agentifiées (encore l’IA) et facilement accessible à tous ? – Source : https://siliconangle.com/2024/09/07/modern-data-stack-skis/.

Coopératives de producteurs de données poussées par les besoins en données de l’IA

Quand il y a besoin de cadres contractuels, de modèles de diffusion, de réglementations lorsqu’on s’intéresse aux données que l’on produit et ingérées par les moteurs d’IA.

On ne parle pas ici des données personnelles, mais des données que l’on produit implicitement et explicitement dans nos activités (exemple des artistes, scénaristes, de l’open data, de datasets constitués, d’articles publiés, de données issues d’un processus métier).

L’article, présente l’exemple des coopératives de données où il est possible de mettre en commun des données afin d’avoir en volume un pouvoir de négociation et de monétisation avec les entreprises qui exploitent les données. Exemples cités : « Swash, datum, MIDATA, Gener8, SAOS, GISC, and the Data Worker’s Union ».

Et le besoin en données des IA est exponentiel mais surtout continu, sinon les modèles utilisés deviennent rapidement obsolètes (on parle de dégradation des modèles faute d’avoir des données récentes, non décalées – driftées…).

L’article évoque aussi la charge qui va être demandée aux salariés de produire des données pour les moteurs d’IA. Parce qu’ils sont la source des données.

Et c’est ici qu’un nouveau pan de la gouvernance des données (processus, contrôle, valorisation) est à considérer : comment solliciter les employés – comme data workers – dans le production des données nécessaires aux moteurs d’IA ?

Extrait : « By updating employment contracts to include clauses that recognize employees’ rights to their data and outline how their data can be used in cooperation with data cooperatives, organizations can position themselves as pioneers in this area. » -> à intégrer dans les politiques de l’entreprise … et aligner les politiques de données dessus.

Source : https://hbr.org/2024/09/data-collectives-are-the-next-frontier-of-labor-relations

Voir aussi sur ce sujet, le colloque : Travailler (avec) les données de santé.

Qui aborde, l’impact de la production de données sur le travail des soignants, avec – extrait du programme :

« Panel 1 : De nouveaux métiers ?

10h35 Olivier Leroy, Coaching, care, et cure : nouveaux métiers de la donnée et extensions du travail soignant

11h Laurène Assailly et Fanny Thomas, L’activité médicale du Département d’Information Médicale : travail des données hospitalières et mises en (in)visibilité des coulisses de la clinique

11h30 Louis Braverman et Marie Ghis Malfilatre, « L’algorithme, c’est comme un enfant, il faut le nourrir ». Tensions et incertitudes dans le travail d’annotation d’un algorithme d’IA destiné au travail soignant »

Source : https://calenda.org/1189339.

En vrac (Data vault et gouvernance des données, Sécurité, Open data, Protocole de partage de données, Automobiles et data, Google acteur d’un référentiel data commons, Scraping de données pour l’IA – le cas Linkedin, Data activism)

1) Data vault et gouvernance des données

Avec pour moi un point d’attention, le data vault est une technique de modélisation intéressante mais qui a le défaut de rajouter un mur dans la lisibilité des données par des acteurs non techniques / métier. C’est une data friction dans l’accessibilité aux données.

Source : https://www.decideo.fr/Combiner-l-architecture-Data-Vault-et-une-gouvernance-des-donnees-orientee-metier_a13918.html

2) Sécurité

Sécurité centrée sur les données : The Next Generation Internet: Data-Centric Access Control. Source : https://www.solvewithvia.com/the-next-generation-internet-data-centric-access-control/

Le défi de la sécurité des données : volume, complexité (voir point précédent), surfaces d’attaque de plus en plus grandes (exemple cloud), de plus en plus de traitements temps réel des données, équilibre couts de la sécurité / menaces, réglementations complexes, décentralisation des données et self data (exemple data mesh), l’impact des usages de l’IA, de l’IoT.Source : https://medium.com/@kanerika/data-management-trends-2024-whats-new-and-what-s-next-6355ffa82a80

Data room – un concept pour le contrôle de partage des données. Source :

https://dataconomy.com/2024/09/04/why-businesses-are-switching-to-data-rooms-for-enhanced-security/. NB : et une des plus belles offres du marché – le CASD, Centre d’accès sécurisé aux données – https://www.casd.eu/

Et aussi sur l’exercice de la cryptographie des données – voir https://interstices.info/quel-est-le-prix-a-payer-pour-la-securite-de-nos-donnees/

3) Open data

Toujours intéressante, l’actualité open data : https://opendatafrance.fr/lactualite-opendata-du-mois-22/

4) Protocole de partage de données

Un travail clé pour les data spaces – https://internationaldataspaces.org/ , la définition d’un protocole de partage des données inter dataspaces, séparant le plan des données et le plan du contrôle (gestion des accès, routage).

Source : https://internationaldataspaces.org/the-dataspace-protocol-a-game-changer-for-interoperability-and-data-sharing/

Et aussi une autre forme de partage de données – via la formalisation de data contracts et l’accent mis sur le problème du drift (décalage dans le temps de concepts, changements chez le producteur de données, évolution de la qualité des données) – source : https://medium.com/data-cloud-architecture/why-monitoring-data-contracts-is-crucial-for-secure-data-sharing-45d5b138b5ce

5) Automobiles et data

Real time data streaming et F1 : l’exploitation temps réel des données de course (voitures, pilotes, conditions de course… pour définir sa stratégie mais aussi pour les fans…) – Source : https://diginomica.com/mechanics-real-time-streaming-formula-1-data

Et toujours dans l’automobile – Data as a service des données des véhicules pour gérer des flottes. Source : https://www.auto-infos.fr/article/volkswagen-group-franchit-le-cap-du-data-as-a-service-en-ouvrant-ses-donnees-aux-flottes-automobiles.283920

6) Google acteur d’un référentiel data commons (encore un fer au feu… mais le pilier autorité n’est pas viable – cf : https://www.datassence.fr/2023/12/01/les-4-piliers-dun-referentiel-de-donnees-lexemple-journalism-trust-initiative-jti/

Google se pose comme garant d’un ensemble de données de référence pour l’IA via DataGemma : « Data Commons : A vast repository of publicly available, trustworthy data » –

« Data Commons is a publicly available knowledge graph containing over 240 billion rich data points across hundreds of thousands of statistical variables. It sources this public information from trusted organizations like the United Nations (UN), the World Health Organization (WHO), Centers for Disease Control and Prevention (CDC) and Census Bureaus. » – Source https://blog.google/technology/ai/google-datagemma-ai-llm/

7) Scraping de données pour l’IA – le cas Linkedin – Source : https://techcrunch.com/2024/09/18/linkedin-scraped-user-data-for-training-before-updating-its-terms-of-service/

8) Data activisme

Analyse du mouvement data activism – Source : https://journals.sagepub.com/doi/full/10.1177/20539517241266416.


RDV maintenant en novembre pour la revue et les actualités d’octobre.


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.