Press "Enter" to skip to content

Revue data du mois (décembre 2023)

Dernière mise à jour le 6 février 2024

Cette revue est basée sur un ensemble de publications du mois de décembre 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Pour ce mois de décembre, des actualités récurrentes sur les data platforms, le data mesh, la data et l’IA, le début des tendances pour 2024, la publication du courrier des statistiques de l’Insee avec deux articles sur les référentiels de données du monde de la santé et du monde de l’éducation, des liens vers l’idée d’arbres de KPI, le sujet de la traçabilité des données et comment dépasser les poncifs sur la gouvernance des données.

Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.

Sommaire :

Actualité récurrente sur le Data mesh (publication CIGREF, data gouvernance, orientation services et data mesh même combat, data product, data fabric et data mesh)

La publication par le CIGREF d’un rapport « Pilotage de l’entreprise par la donnée : extraire la valeur de la donnée à l’échelle de l’entreprise » avec mise en avant de l’orientation data mesh https://www.cigref.fr/pilotage-de-lentreprise-par-la-donnee-extraire-la-valeur-de-la-donnee-a-lechelle-de-lentreprise . Deux points d’attention en complément à ce qui est bien décrit : l’obligation d’exposer ses données par un domaine métier n’est pas une chose facile et demande beaucoup de changements et d’investissements, la cohérence d’ensemble entre domaines métier n’est pas naturelle mais ne doit pas être déléguée « à côté » mais au plus près des data product owner (voir sur ce sujet : https://www.datassence.fr/2023/10/02/je-naime-pas-la-data-a-cote/ ).

Un article sur l’intégration de la data gouvernance dans le data mesh : le rôle de data product owner prend du poids mais aussi l’idée en filigrane d’un data mesh product owner (responsable de la qualité d’ensemble des data products, du maillage constitué)

Source https://www.nicolaaskham.com/blog/2023/11/30/navigating-data-mesh-and-evolving-data-governance-a-practical-guide

Un article sur l’idée (que je partage) de même combat entre approche services et approche data mesh. – Source https://www.rhapsodiesconseil.fr/service-mesh-event-mesh-data-mesh/ Il y a beaucoup à retenir des retours d’expérience sur l’approche orientée services pour le maillage de données (et aussi les problèmes de granularité, de dépendance, de recouvrement, de gestion de variantes…).

Un article de définition de ce qu’est un data product  – Source : https://www.dataversity.net/what-are-data-products-and-why-do-they-matter/ Voir aussi l’évolution de définition d’un data product dans les tendances 2024, avec l’idée d’y inclure des blocs de traitements de données (réutilisables), des agents IA – Source https://siliconangle.com/2024/01/06/predictions-2024-deciphering-gen-ais-effect-data-governance-skill-gaps/

Enfin les concepts de data mesh et de data fabric sont complémentaires – on le sait (voir : https://www.datassence.fr/2023/06/02/data-centric-data-driven-data-hub-data-warehouse-data-lake-data-fabric-data-mesh-sauriez-vous-situer-ces-differents-paradigmes-data/ ) et c’est redit ici https://insideanalysis.com/data-fabric-vs-data-mesh-cut-from-the-same-cloth/

Actualité récurrente sur les Data platforms : de l’IA, la manipulation des données n’est pas simple, idées sur les ETL, Data machines ?, Partage de données, La data platform de l’espace

1) Toujours de plus en plus d’IA dans les data patforms

Exemple Dremio : étiquetage (production de métadonnées) automatique sur les données, text to SQL pour interroger les données – https://www.dremio.com/press-releases/dremio-delivers-genai-powered-data-discovery-and-unified-path-to-apache-iceberg-on-the-data-lakehouse/

2) Quand manipuler les données n’est pas simple

La vue d’un ingénieur des données qui doit jongler entre différentes plates-formes : https://towardsdatascience.com/dbt-core-snowflake-and-github-actions-pet-project-for-data-engineers-815991a48b44?source=rss—-7f60cf5620c9—4, et la vue d’un acteur métier avec le mythe du self serve data « sans effort » https://diginomica.com/self-service-all-problem-self-service-analytics

NB : Et de l’importance d’éviter le chaos data dans les data platforms en maîtrisant les développements / le self serve data (tendance de l’idée de retour aux Ateliers de Génie Logiciel – AGL … cette fois orientés data !).

Voir dans ce sens les efforts des éditeurs de data platforms à s’intégrer avec des solutions IDE (exemple Databricks et la synergie avec Posit – open source IDE pour R https://www.r-bloggers.com/2023/12/posit-x-databricks-a-game-changing-synergy-for-data-teams/)

Voir aussi des solutions d’optimisation d’environnements BI (maîtrise de la prolifération des tableaux de bord, des KIP définies à différents endroits … pour du nettoyage BI !) – exemple https://www.datalogz.io/ – source https://techcrunch.com/2023/12/14/datalogz-raises-5-million-to-cut-business-intelligence-costs-for-large-corporations/

3) L’idée d’ETL évolue

Le concept d’ETL a évolué (exemple https://hevodata.com/ ) avec l’idée d’ELT, de reverse ETL et jusqu’à l’idée de zéro-ETL (réduire les déplacements de données, par la virtualisation, par la gestion de requêtes distribuées) – un tour d’horizon du sujet ici : https://www.kdnuggets.com/evolution-in-etl-how-skipping-transformation-enhances-data-management

Et sur le reverse ETL (réalimenter les systèmes opérationnels avec les données d’analyse) : https://www.dataversity.net/data-activation-the-key-to-taking-data-reports-to-the-next-level/

4) Data machines ?

Le rôle de plus en plus important des données … et l’IA poussent jusqu’à imaginer de nouveaux types d’infrastructure de stockage voire de machines orientées data. L’idée de VAST Data

https://techcrunch.com/2023/12/06/vast-data-lands-118m-to-grow-its-data-storage-platform-for-ai-workloads/  et https://www.lebigdata.fr/vast-data-platform

5) Partage de données

Le partage de données (data sharing) avec le support de l’idée de data clean room (espace de partage, de collaboration, de sécurité entre partenaires data) – Snowflake rachète Samooha spécialiste du sujet : https://techcrunch.com/2023/12/18/snowflake-goes-all-in-on-data-clean-rooms-with-samooha-acquisition/

6) La data platform des données de l’espace

Et pour finir, dans les data platforms verticales, celle-ci – https://www.oursky.ai/ – dédiée aux données de l’espace (exemple de réseaux de télescopes) – https://techcrunch.com/2023/12/06/oursky-lands-9-5m-seed-to-build-out-developer-platform-for-space-data/

Publication du numéro de décembre du courrier des statistiques de l’INSEE – 2 articles sur les référentiels de données

Avec une auto-promotion et la publication d’un article auquel j’ai contribué sur FINESS, le Fichier (référentiel) National des Établissements Sanitaires et Sociaux : https://www.datassence.fr/2023/12/11/finess-un-referentiel-de-donnees-de-plus-de-40-ans/ et https://www.insee.fr/fr/information/7722095?sommaire=7722116.

A noter, si vous vous intéressez aux référentiels de données, un article sur le référentiel RAMSESE, le répertoire académique et ministériel sur les établissements du système éducatif : https://www.insee.fr/fr/information/7722097?sommaire=7722116.

Source : https://www.insee.fr/fr/information/7722116

L’actualité récurrente data et IA (sécurité, pas de sens sans contexte, parler à ses données, le data management indispensable à l’IA)

Beaucoup d’articles sur la sécurité des données avec l’IA générative – exemple :

https://www.wired.com/story/chatgpt-poem-forever-security-roundup/

Le besoin de contexte des IA (et d’une manière générale, une donnée seule n’a pas de sens, il y a besoin de son contexte pour en tirer du sens) : graphes contextuels, versions des données utilisées, étiquettes formalisant les relations entre données/objets – source : https://www.datasciencecentral.com/whats-wrong-with-data-labels/

L’IA comme interface d’accès aux données : interroger les données en langage naturel, l’IA se charge de la traduction SQL, dialoguer avec les données – Source https://insideanalysis.com/time-for-a-chat-with-your-data/. Voir aussi DataGPT https://datagpt.com/  : parler à ses données en langage courant (explorer, interroger : qu’est-ce qu’il se passe, pourquoi tel indicateur est en baisse…, demander des statistiques) – source https://www.kdnuggets.com/2023/12/datagpt-talk-directly-data-everyday-language

Comme il devient possible de se passer d’outil d’analyse, certains soutiennent (à tort) que l’IA va remplacer les data analysts. Mais l’IA peut les aider – source : https://towardsdatascience.com/can-llms-replace-data-analysts-building-an-llm-powered-analyst-851578fa10ce?source=rss—-7f60cf5620c9—4 et https://towardsdatascience.com/can-llms-replace-data-analysts-getting-answers-using-sql-8cf7da132259

Les besoins de l’IA en données, tirent vers le haut le data management (accès aux données, qualité, sensibilité, stewardship – Source https://www.datanami.com/2023/12/08/is-your-data-management-strategy-ready-for-ai-5-ways-to-tell/

Et ce qu’implique l’AI Act de l’EU en termes de data management : traçabilité, utilisation des données en toute connaissance de cause (contextualisée), avec l’idée de « données intelligentes » qui embarquent avec elles leur contexte, leurs relations avec d’autres données (au sein de vue unifiée sémantique voire ontologique) – Source https://www.datasciencecentral.com/data-management-implications-of-the-ai-act/ – voir sur ce sujet aussi la gestion de la traçabilité (§ Traçabilité des données)

Les arbres de performance de Georges Garibian redécouverts ?!

Quand le chaos data touche les indicateurs et comment mettre de la cohérence. Avec l’idée que les indicateurs KPI, ne sont pas isolés, ils s’enrichissent les uns des autres, ils doivent être cohérent, non redondants, organisés entres eux ils contribuent à évaluer la performance des entreprises.

Cette idée a été formalisée par G. Garibian sous l’idée d’arbre de performance. Cette formalisation a enrichit le fond de la méthode publique Praxeme en 2011 : https://www.praxeme.org/wp-content/uploads/2020/04/Mgmt.Integre.Dynamiquev1.pdf et intégré à la méthode https://www.praxeme.org/conception-des-indicateurs-de-performance/

Auteur G. Garibian

Pourquoi ce retour dans le passé, pour faire référence à un article de décembre chez Octo sur l’outil KPI tree : https://blog.octo.com/le-kpi-tree–un-outil-data-et-visuel

Un premier tour des tendances 2024 en attendant celles publiées en janvier

Le site Dataversity (https://www.dataversity.net/) a publié tout une suite de tendances, quelques extraits :

– Le rôle de plus en plus important des modèles de données (entité-relation, graphe) pour faciliter le partage des données et des data products avec l’idée (vieille) de langage commun limitant le travail de traduction d’un jeu de données, facilitant le maillage entre données, autorisant le self serve data par les métiers (versus le passage par une vue technique des données via l’IT), faciliter la gouvernance des données et tout cela à l’échelle de domaines d’activités. Comment suivre la tendance : en observant (et faisant) que de plus en plus d’acteurs métier aient un certain niveau de maîtrise de la modélisation de données.

– Sur le data management et la data gouvernance qui devront : faire avec les données réparties (et non pas attaché à un stockage central unifié), faire avec des données sous contrôle métier (inclure dans le self serve data l’idée de self serve governance sous contrôle), passer à l’échelle des produits de données (et de leur maillage – cf. data mesh), garantir la qualité et l’intégrité des données absorbées par les moteurs d’IA, piloter la charge financière de stockage cloud des données, mettre au plus tôt dans les données (à la source) les règles de sécurité et de gouvernance (versus une fois que les données auront été centralisées), déployer des politiques (sécurité, compliance) et être en mesure de les faire évoluer dynamiquement, répondre à la multiplication des règlements sur les données (dont le Data Act et le Digital Service Act de l’UE), résoudre le challenge de la sécurité hybride -multi cloud en passant par la capacité d’observabilité des données ainsi réparties, répondre aux besoins de data sharing (data catalogage, espaces de partage, traçabilité) …bref de beaux défis !

– Sur les bases de données, à retenir l’idée de bases de données autonomes, dans le sens où leur gestion est confiée à une IA (prédiction des volumes, traitements des défauts, gestion des sauvegardes, inspections qualité… une part des tâches de DBA remplacées par des IA)

Et ce qui se cache derrière toutes ces tendances, la capacité à gérer les métadonnées de gestion, d’observation, de définition, de consommation, de gouvernance, techniques et métier … des données. Avec le rôle des data catalogue, le rôle de l’IA pour « découvrir » ces métadonnées, le rôle des data platforms qui sauront gérer nativement ces métadonnées.

Sources :

https://www.dataversity.net/data-modeling-trends-in-2024/
https://www.dataversity.net/data-management-predictions-for-2024-five-emerging-trends/
https://www.dataversity.net/data-management-trends-in-2024/
https://www.dataversity.net/trends-in-data-governance-and-security-what-to-prepare-for-in-2024/
https://www.dataversity.net/database-management-trends-in-2024/
https://www.dataversity.net/2024-data-trends-from-collaborative-data-sharing-to-ai-driven-operations/
https://www.dataversity.net/supercharging-value-from-data-in-2024/

Autres tendances relevées :

– 14 prédictions Big Data pour 2024 : les bases de données vectorielles (pour l’IA), éloignement de la logique copier et stocker (centraliser) pour aller vers une logique d’orchestration – de vue fédérée des données, le défi des données non structurées, le graal de l’IA pour soulager le data engineering (définition des pipelines, supervision, data analyse…), le retour au on premise versus cloud pour le stockage de ses données (pour plus de contrôle), l’importance du traçage des données comme clés des systèmes de décision autonomes – classiques (sur la base de KPI) et IA (avec l’idée de certification par blockchain), les mesures de gouvernance et de sécurité des données au plus tôt dans le parcours des données – si possible dès leur naissance/collecte, les produits de données dans l’expérience utilisateur et le maillage des données (logique data mesh).

– Sur le data management : l’IA pour générer les métadonnées indispensables à la gestion des données non structurées, savoir déplacer (migrer) les données plus rapidement entre infrastructures de stockage (cloud, hybride, on premise) – pour maîtriser ses coûts, limiter sa dépendance à des moyens propriétaires.

Sources :

https://www.datanami.com/2023/12/13/fourteen-big-data-predictions-for-2024/
https://www.datanami.com/2023/12/21/data-management-predictions-for-2024/

Et pour terminer, les défis de la protection des données et les tendances 2024 : https://tdan.com/data-protection-trends-and-predictions-for-2024/31402

Traçabilité des données

La traçabilité des données est un enjeu pour : la gouvernance, la confiance (preuve, auditabilité, transparence), la compréhension des données.

Cette traçabilité repose sur des métadonnées et différentes approches techniques (data catalogage, métadonnées dynamiques…) et démarches. On parle aussi d’étiquetage des données.

Voir la formalisation proposée par Datactivist – Écrire les métadonnées – La méthode « Datasheets for datasets » –  : https://open.datactivist.coop/docs/datasheets-datasets – et https://arxiv.org/pdf/1803.09010.pdf

NB : date d’octobre mais je suis passé à côté … rattrapage.

Voir aussi la proposition de la data platform Orkestra pour laquelle l’étiquetage des données est centrale : https://orkestra-data.com/

Et sur la même idée, le lineage des données, la certification des données :

Sources :

https://blog.masterdata.co.za/2023/12/05/what-is-the-importance-of-data-lineage-in-certifying-a-report/ et https://blog.masterdata.co.za/2023/12/12/how-data-observability-powers-reliable-report-certification/

https://towardsdatascience.com/why-understanding-the-data-generation-process-is-more-important-than-the-data-itself-f1b3b847e662

Gouvernance des données : où la situer, dépasser les poncifs

Où doit se positionner la data gouvernance : au sein des domaines métier, à compléter d’une vision centralisée, l’inconvénient de la mettre sous la responsabilité IT (cela devient un sujet technique, ce qu’il n’est pas, l’IT n’a pas la compréhension profonde et quotidienne du métier), au sein de services métier centraux (habitués et efficaces dans ce type de problème) … en conclusion équilibre à trouver entre local et central. Source : https://tdan.com/where-data-governance-should-live/31378

Et un excellent article sur la nécessité de dépasser les poncifs sur la data gouvernance – ou « enfonçages de portes ouvertes » (elle est centrale, besoin de leadership, nommer un responsable, favoriser une culture de la donnée … !) – voir https://diginomica.com/solve-data-governance-failures-past-nonsensical-advice

En vrac (Experts publics data, Ouverture des données, Données synthétiques, Les données ne dorment jamais, PESTEL et les données, Deux rapports de l’Etat où les données sont à enjeu : la santé et l’écologie)

1) Appel aux experts publics de la data

« Experts publics de la data et de l’IA : l’État dévoile les projets de la saison 2 du programme 10% et incite tous les agents publics experts de la data et de l’IA à intégrer cette communauté dédiée au partage et à l’innovation au sein de l’État » –

https://www.numerique.gouv.fr/espace-presse/experts-publics-de-la-data-et-de-lia-letat-devoile-les-projets-de-la-saison-2-du-programme-10-percent-et-incite-tous-les-agents-publics-experts-de-la-data-et-de-lia-a-integrer-cette-communaute-dediee-au-partage-et-a-linnovation-au-sein-de-letat/

2) Ouvrir les données avec les algorithmes

Ouvrir les algorithmes (disposer du code source) ne suffit pas, avec un petit mot à la fin sur aussi ouvrir les jeux de données – article de l’excellent blog de Olivier Ertzscheid- https://affordance.framasoft.org/. Source  https://affordance.framasoft.org/2023/12/ouvrir-le-code-des-algorithmes-ne-suffit-plus/

3) L’actualité open data

Toujours l’actualité open data du mois, avec deux villes qui définissent leur stratégie data et ouvrent leur données : Dijon Métropole ouvre ses données au plus grand nombre et Angers Loire Métropole publie sa stratégie data

Source : https://opendatafrance.fr/lactualite-opendata-du-mois-16/ – Document de la stratégie data d’Angers – https://www.angersloiremetropole.fr/fileadmin/user_upload/alm_strategie_data_web_20231204.pdf

4) Marché de la donnée, un outil pour créer des données synthétiques :

https://techcrunch.com/2023/12/07/datacebo-launches-commercial-version-of-popular-open-source-synthetic-data-library/

5) Les données ne dorment jamais

Les données ne dorment jamais : https://www.datanami.com/2023/12/15/domo-data-never-sleeps-report-shows-latest-trends-in-data-usage/ Avec la célèbre vue fascinante du volume de données générées chaque minute

Source : https://www.domo.com/learn/infographic/data-never-sleeps-11

6) PESTEL et les données

Le cadre de pensée PESTEL (Political, Economic , Social, Technological, Environmental, Legal) appliqué aux données – aligner les facteurs pour qu’un projet data réussisse

https://towardsdatascience.com/why-data-projects-fail-to-deliver-real-life-impact-5-critical-elements-to-watch-out-for-as-an-46015a82ddfe

7) Deux rapports de l’Etat où les données sont à enjeu : la santé et l’écologie

Le rapport « Fédérer les acteurs de l’écosystème pour libérer l’utilisation secondaire des données de santé » – le sujet de la réutilisation des données de santé – publié le 05/12/23 – https://sante.gouv.fr/IMG/pdf/rapport_donnees_de_sante.pdf. Qui peut se lire en complément du rapport du Sénat sur la gouvernance des données de santé publié en juillet 2023 – https://www.senat.fr/rap/r22-873/r22-873_mono.html

Et le rapport « Mettre le numérique et les données au service de l’écologie » – publié le 22/12/23 – https://www.gouvernement.fr/france-nation-verte/a-proposfeuille-de-route-numerique-donnees


RDV maintenant en février pour la revue et les actualités de janvier


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.