Press "Enter" to skip to content

Revue data du mois (janvier 2024)

Dernière mise à jour le 12 février 2024

Cette revue est basée sur un ensemble de publications du mois de janvier 2024, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Pour ce mois de janvier, la suite des tendances 2024 (voir les premières annonces en décembre – https://www.datassence.fr/2024/01/18/revue-data-du-mois-decembre-2023/#_ftn6), des actualités sur le sujet récurrent data et IA, une suite d’articles sur la valeur des données, structurer les données non structurées, Pierre Bonnet lance une initiative IA et data management, les données synthétiques le bien et le mal.

Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.

Sommaire :

Suite des tendances data 2024

  • Le rôle essentiel des métadonnées actives, indispensables pour la gouvernance des données – la data observabilité (et d’une façon générale pour tout usage des données). Avec l’architecture de données qui doit être en mesure de les fournir, jusqu’à être bâtie by design sur ces métadonnées. Toute stratégie de données doit commencer par une réflexion sur les métadonnées.
  • Et dans la suite de cette idée des métadonnées, la bataille des data catalogues est lancée entre : offreurs cloud (exemple AWS Glue), fournisseurs de stacks data (Snowflake, Databricks), solutions spécialisées… et cela pour le moment sans interopérabilité avec la dépendance à un fournisseur en perspective. Voir aussi l’intéressante réflexion d’un acteur qui a connu Collibra et Alation – https://tdan.com/crossing-the-data-divide-data-catalogs-and-the-generative-ai-wave/31505 sur l’évolution des data catalog (comme base de connaissance, base d’actifs, base de partage, support de gouvernance) et avec l’IA comme moyen (miraculeux un peu) pour réunifier les métadonnées.
  • La pression du temps réel est de plus en plus forte (objets connectés, analyse – alerte en temps réel) sur l’architecture de données (capacité de streaming, gestion de bout en bout du temps réel).
  • L’IoT, les objets connectés poussent à traiter les données à la source (edge computing) avec l’idée d’aller jusqu’au edge analytics (l’analytique à la source sans attendre le transfert et regroupement des données).
  • Le choix d’architecture entre centralisation et distribution des données est toujours problématique (entre la facilité de disposer d’un point de référence unique, de mutualiser des ressources, des capacités de gestion des données – qualité par exemple, et des données à fédérer, plus proches du local, plus riches, dans leur contexte d’origine).
  • Dans les consommateurs de données, à prendre en compte l’arrivée de nouveaux clients : les IA agents, à l’exemple des custobots – des robots clients capables de traiter des transactions commerciales de façon autonome (voir ce qu’en dit le Gartner – https://www.gartner.com/en/publications/when-machines-become-customers).
  • L’évolution des moyens de partage de données au sein d’écosystèmes (data sharing) : formats de partage, espaces de partage (exemple data clean room), évolution des fonctions des data marketplaces, normes de partage (modèles). Et exemple dans la recherche, l’initiative RDA – « The Research Data Alliance builds the social and technical bridges to enable the open sharing and re-use of data. » – https://www.rd-alliance.org/about-rda . NB : à voir le lien également avec les technologies du web sémantique et ce qu’il se passe au niveau des métadonnées – https://open-metadata.org/ ).
  • La qualité des données toujours l’élément critique numéro 1. Et cela avec les données toujours plus sur le devant de la scène (data démocratisation, réglementations, IA).
  • La prise en compte des données non structurées hors de leur cadre habituel pour les besoins de l’IA et exploitées par l’IA (stockage adapté, métadonnées spécifiques, gouvernance et data management adaptés…).
  • Ne pas croire que le self serve data est une chose facile. Ou quand la culture de génie logiciel doit a minima être comprise par les métiers et appliquée aux données, sinon le chaos data n’est pas loin (redondances, duplications, recouvrements, non réutilisations, création de dépendances non maîtrisées… voir la popularité de Dbt pour résoudre cela – https://www.getdbt.com/ ).
  • Le self serve data étendu au support de la gouvernance des données, par sa capacité à définir et implémenter des politiques de données pour suivre les exigences de compliance qui se multiplient (versus les traiter au cas par cas – en mode task force … rédhibitoire au vu du nombre de règlements, de normes existantes et à venir). A suivre les idées, de gouvernance à la source des données (et non plus une fois que celles-ci ont été centralisées / fédérées), d’agile compliance au service des Chief Data Officer.
  • Contrat de service, contrat d’interface … les contrats existent depuis longtemps entre systèmes producteurs et systèmes consommateurs (rappel de l’époque des EAI – Enterprise Application Integration, du SOA et également de l’API management). Les contrats de données sont dans la même logique, couvrant aussi bien les aspects techniques que métier de la relation entre un producteur de données et un consommateur de ces données. Avec l’évolution vers l’idée de data products, le besoin en gestion de ces contrats est de plus en plus pressant (Dbt s’y lance – https://www.getdbt.com/, Y42 en propose – https://www.y42.com/ , voir aussi Gable – https://www.gable.ai/ )
  • L’alignement organisationnel, stratégique, opérationnel de l’univers des données avec le reste de l’entreprise comme défi (voir dans ce sens, ce qui est dit ici : https://www.datassence.fr/2023/10/02/je-naime-pas-la-data-a-cote/#_ftnref4 ).
  • Le stockage Hadoop Hive est dépassé par de nouvelles formes de structuration du stockage des données poussées par les éditeurs (exemple Databricks), les offreurs cloud (exemple AWS) et de nouveaux acteurs spécialisés (exemple Vast Data).
  • Data fabric et data mesh sont complémentaires et non concurrents autour de l’idée de data products et cela va modeler les réflexions d’évolution d’architecture de données des S.I. (voir https://www.datassence.fr/2023/06/02/data-centric-data-driven-data-hub-data-warehouse-data-lake-data-fabric-data-mesh-sauriez-vous-situer-ces-differents-paradigmes-data/ ). Avec en fond de réflexion quelle stratégie d’unification des données (data unification, semantic layer, plan unifié des métadonnées).
  • La sécurité data toujours et toujours … et la capacité à gérer les conséquences de brèches de données.
  • Et avec pour finir, bien entendu l’IA, le plus gros consommateur de données qui va tirer les tendances.

Et si vous avez du temps « 90 Data Management Predictions from 55 Experts for 2024 »  https://solutionsreview.com/data-management/data-management-predictions-from-experts-for-2024/

Sources :

IA et Data (IA à la place des data scientists, IA et gouvernance des données, IA et culture data, Le défi des données pour l’IA)

Thème récurrent jusqu’à ce qu’une IA assure elle-même cette rubrique. Ce qui existe déjà (veille et résumé d’articles par l’IA), que j’ai testé, mais jugé non totalement satisfaisant pour le moment …et peut être pas assez intelligent pour utiliser une IA.

1) L’IA à la place des data scientists … mais l’IA laisse à désirer sur de nombreux points clés – comme commenter correctement et contextuellement une data visualisation (l’IA peut donner de fausses conclusions). Ce qui confirme l’option copilote de l’IA versus pilote autonome … (cela rappelle le graal de la voiture autonome sans cesse plus lointain … et on sait pourquoi). Sources : https://blog.gdeltproject.org/the-achilles-heel-of-gpt-4-as-data-scientist-it-writes-code-but-fails-as-multimodal-or-data-analyst/, https://towardsdatascience.com/exploring-data-analysis-via-natural-language-approach-1-224965d1fb16?source=rss—-7f60cf5620c9—4

 et aussi https://www.datanami.com/2024/01/16/maximizing-ais-impact-with-master-data-management/.

2) Pas d’IA sans gouvernance des données digne de ce nom

https://www.kdnuggets.com/can-data-governance-address-ai-fatigue

3) Quand la culture data dans les entreprises ne progresse plus (voire diminue), l’IA est là pour la faire décoller parce qu’il y a un problème de données derrière !

https://hbr.org/2024/01/survey-genai-is-making-companies-more-data-oriented

4) Le défi des données pour l’IA : de qualité, suffisantes en volume, non biaisées, diversifiées (non limitées aux cas dominants), non périmées, dans le respect des données sensibles. Avec la façon d’accéder aux données de les partager : idée d’être data centric (envoyer les calculs des IA aux données versus envoyer les données à ces calculs), l’idée d’espace de partage de données sécurisé où les moteurs d’IA peuvent s’exprimer (mots clés : data collaboration, data sharing, data spaces). L’IA modifie l’approche des data platforms dans la gestion des données (citées dans l’article d’HBR : Snowflake,  Sherpa.ai, Tune Insight, TripleBlind, DSpark, Data Republic, Ocean  Protocol, Gaia-X, Dawex, Enigma, and Transformers).

Source : https://hbr.org/2024/01/how-data-collaboration-platforms-can-help-companies-build-better-ai

Data et IoT

Un tour d’horizon ici (partiel) – savoir : combiner cloud et edge computing, filtrer les données utiles (exemple signaux d’alertes), sécuriser l’infrastructure de stockage et de communication, traiter les problèmes d’interopérabilité entre appareils IoT, exploiter la multimodalité de captures pour alimenter une IA… Sources :

https://www.datasciencecentral.com/mastering-iot-data-management-for-business-success/ et https://www.dataversity.net/iot-data-governance-taming-the-deluge-in-connected-environments/

Structurer les données non structurées

Quand les bases de données orientées graphes permettent de représenter les relations, les interactions entre les contenus des données non structurées (exemples d’avis, de commentaires sur un produit, voir les avis en suivant un réseau d’utilisateurs, avec qui ils ont communiqué, liens entre articles, natures des liens…). NB : rejoint aussi l’idée d’exploiter l’IA pour extraire des données structurées des contenus des données non structurées. Source : https://www.datasciencecentral.com/graph-databases-unveiling-the-hidden-connections-in-unstructured-data/

Les données comme actifs – valeur des données

Une suite intéressante d’articles débutée en décembre sur la valeur des données. Quelques points clés extraits :

  • Les données vues comme un actif de l’entreprise : c’est une ressource qui peut être valorisée, l’investissement pour la produire est effectué,
  • Transformer les données en actif informationnel : la ressource doit être disponible pour en tirer de l’information. Cette transformation (l’effort, la façon dont elle est réalisée) est ce qui va déterminer la valeur des données. Déterminer indirectement une valeur métier – signaux/analyses sur des ventes, rationalisation d’un processus via une approche Six Sigma et aussi par la capacité d’échanger des informations entre partenaires pour en tirer une valeur collective – idée de « Virtual Value Streams ». Mais aussi directement une valeur monétaire par la vente de données,
  • Des données brutes figées et accumulées n’ont pas de valeur. C’est en mettant en mouvement les données qu’elles permettent de produire de la valeur (de l’importance de faciliter la mise entre les mains les données auprès d’un maximum de personnes : découvrabilité, testabilité, utilisabilité). Les données doivent être vues comme un actif circulant,
  • Les données n’ont de sens / valeur qu’au travers des usages. Et les données seules ne suffisent pas à déterminer les usages. Il y a besoin des métadonnées, c’est-à-dire du contexte associé aux données (contexte de production et contexte de consommation),
  • Comme tout actif, il doit être géré. Et comme tout actif ce qui compte dans sa gestion ce sont les processus d’acquisition, d’évaluation, d’enrichissement, de provisionnement et d’utilisation (NB : un actif non géré … n’est plus un actif !),
  • Toutes les données ne sont pas au même niveau d’actif, entre des shadow données sous excel, des données qualifiées dans un processus outillé et des données canoniques qui couvrent toutes l’organisation (ou données relevant du bien commun), la gouvernance des données doit trancher et mettre en avant les « bonnes » données,
  • La valeur des données va aussi se décider par rapport à la confiance qu’on leur accorde. C’est le rôle des métadonnées d’apporter cette confiance en fournissant les traces (la transparence) de leur production, transformation, gestion, utilisation (leur rôle dans l’entreprise), risques induits,
  • Comment se mesure la valeur des données ? Le Gartner propose six approches (NB le Gartner parle de valeur de l’information … attention à la distinction donnée et information) https://www.gartner.com/smarterwithgartner/why-and-how-to-value-your-information-as-an-asset : l’information/les données comme contributrices à la performance d’un processus, comme valeur marchande, comme coût en cas de perte/corruption, comme valeur ajoutée informationnelle…
  • Qui doit effectuer la mesure de la valeur des données ? L’auteur cite le CDO (NB : personnellement, c’est une situation « à côté » – voir https://www.datassence.fr/2023/10/02/je-naime-pas-la-data-a-cote/ . La mesure doit se faire au plus près de là où la donnée est utilisée).

Sources :

Les données synthétiques : le bien et le mal

Sujet qui revient régulièrement dans ces revues data mensuelles.

Avec toujours le même débat entre, les données synthétiques sont la solution à de nombreux problèmes (exemple apprentissage d’IA sur des données personnelles, ou des données qui posent des problèmes juridiques, de confidentialité) et les données synthétiques sont dangereuses.

Voir ce qu’il est dit dans ces trois publications de ce mois :

  • Les données synthétiques doivent être vues selon deux origines : comme données créées artificiellement pour alimenter des bases d’apprentissage et comme données générées par les moteurs d’IA.
  • Le mauvais côté : les données générées par les moteurs d’IA sont issues de données d’apprentissage issues du terrain, collectées sur le web et comportant en leur sein des biais, des problèmes de qualité, de bruits. Et ces données synthétiques générées reproduisent ces déformations. Elles se retrouvent (inondent) sur le web. Et à leur tour deviennent sources d’apprentissage … accentuant encore plus le phénomène (boucle réflexive toxique).
  • Le bon côté : générer des données synthétiques pour corriger/réduire dès le départ les défauts des données issues du terrain, collectées sur le web.
  • Le mauvais côté : les données synthétiques sont générées à partir d’un modèle, qui est forcément réducteur et donc va limiter la capacité d’apprentissage (la réalité est différente de sa réduction synthétique).
  • Le bon côté : les données synthétiques permettent d’étendre les capacités d’apprentissage sur des situations exceptionnelles, de crises, limitant la disponibilité de données terrain (exemple de l’apprentissage d’IA dans un contexte militaire). Elles permettent aussi de faire des tests de résistance des modèles d’IA.

On le comprend les données synthétiques sont une épée à double tranchant !

Sources :

Pierre Bonnet lance la communauté « Engage-Meta » : data management et IA

Pierre sait de quoi il parle, comme fondateur d’une des meilleures plateforme de Master Data Management (solution EBX d’Orchestra Networks), qu’il a développé pendant plus de 15 ans avant qu’elle soit rachetée par Tibco. Et comme auteur de nombreux ouvrages de références sur les S.I. et la data gouvernance. Dans le monde de la donnée, l’expérience MDM est un très bon socle de départ : fonctionnel, déploiement, usages et organisationnel.

Dans cette nouvelle aventure, Pierre propose de développer un framework d’outils méthodologiques et de bonnes pratiques (sous licence creative commons) visant à résoudre la pression de l’équation suivante : l’IA et les données sont au centre des préoccupations des entreprises, leurs systèmes existants (dont le support des données), leurs organisations (fonctionnement, gouvernance) existantes doivent être transformés vers une nouvelle cible à construire. Cette équation est complexe et unique à chaque entreprise. Pour la résoudre, il y a besoin de disposer d’un cadre (framework) sur lequel se reposer et permettant de procéder pas à pas la résolution de l’équation. Ce cadre est fondamentalement non neutre. Il intègre dans sa constitution (et va s’enrichir grâce à la communauté), tout un ensemble d’expériences et de savoir-faire. Il porte aussi une vision sur la place des données dans le S.I., avec l’idée de couche sémantique fédérative, orientée graphe. Couche sur laquelle, l’IA pourra s’appuyer. Derrière cette vision, on voit bien que l’expérience MDM est un atout.

Pour plus d’informations, je vous laisse découvrir cette initiative, c’est ici : https://engage-meta.com/ et Pierre en parle sur Linkedin – https://www.linkedin.com/in/pierre-bonnet-engage-meta/

En vrac (Le data act entre en vigueur, Le pouvoir de découper en données, Relai de l’actualité Open Data, Rédiger une définition de donnée – data académicien !, Rédiger une politique de données – data politicien !)

1) Le data act entre en vigueur

Avec le droit de disposer de ses données et les conséquences pour les entreprises : accès à ses données collectées par des appareils connectés, par des services, pouvoir transférer ses données à des tiers (avec les sujets de la portabilité et de l’interopérabilité), pouvoir contrôler l’utilisation de ses données. Source : https://www.forrester.com/blogs/the-eu-data-act-is-now-in-force-what-it-means-for-you-and-your-organization/

2) La puissance du numérique par sa capacité à discrétiser les objets – les découper en données. La tokenisation des actifs du monde réel – real-world asset (RWA) tokenization. Exemples dans l’immobilier, dans le monde financier – le fractionnement de la propriété de biens pour pouvoir gérer des fractions de biens (Source : https://dataconomy.com/2024/01/04/rwas-have-already-tokenized-hundreds-of-millions-which-industries-will-have-the-biggest-growth-in-2024/

3) Toujours l’excellente actualité open data par Open Data France

https://opendatafrance.fr/lactualite-opendata-du-mois-17/

4) Rédiger une définition de donnée – data académicien !

Glossaire, définitions de données que l’on va retrouver dans les catalogues de données, dans les métadonnées. Mais l’exercice n’est pas si évident. Sans se prendre pour un académicien, produire une définition s’apprend. Source : https://www.nicolaaskham.com/blog/2024/1/18/defining-data-definitions-and-how-to-write-them

Et sur ce sujet – voir les procédés publiés il y quelques années avec l’aide d’un linguiste dans le cadre de l’open method Praxeme (www.praxeme.org) – sources :

Procédé – Définir un terme ou une expression – « Comment aborder efficacement les vocabulaires de l’entreprise et faire gagner du temps en évacuant les imprécisions, ambiguïtés, incompréhensions… » – https://www.praxeme.org/download/terminologie-introduction/

Procédé – Définir un terme ou une expression – « Produire une définition d’un terme donné, la plus concise, claire et efficace possible pour faciliter la communication et l’apprentissage
Obtenir une bonne définition n’est pas si facile. Il existe des règles à respecter. » – https://www.praxeme.org/download/terminologie-definir/

5) Rédiger une politique de la donnée – data politicien !

Les politiques de données sont clés dans la formalisation de la gouvernance des données. Ces politiques sont majoritairement décrites au travers de documents. Même si certaines data platforms permettent de les caractériser à partir de règles, tout commence par un effort d’écriture. Source : https://www.dataversity.net/creating-a-data-governance-policy/

Et sur ce sujet – voir le procédé publié dans le cadre de l’open method – Praxeme – (www.praxeme.org) – source : Procédé – Politique de la donnée de l’entreprise X – « Formulaire à utiliser pour rédiger une politique de la donnée » – https://www.praxeme.org/download/data-policy-form/


RDV maintenant en mars pour la revue et les actualités de février


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.