Press "Enter" to skip to content

Revue data du mois (avril 2023)

Cette revue est basée sur un ensemble de publications du mois d’avril 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Sommaire :

Le stress data : chief data officer, data engineer, data scientist … personne n’y échappe

Les promesses de l’ère des Big data, plus de valeur, plus d’efficacité ont poussé les entreprises à investir dans des environnements complexes, coûteux, faisant appel à de nouvelles compétences, manipulant l’objet « données » d’une façon différente et qui viennent s’ajouter aux silos de données qui perdurent, sans oublier l’activité data shadow qui n’a jamais été aussi active.

Pour des résultats (retour sur investissement) « délicats » en étant politiquement correct (voir aussi dans la revue de février « Big data is dead » https://www.datassence.fr/2023/03/10/revue-data-du-mois-fevrier-2023/#_ftn6).

Les CDO sont mis à l’épreuve et doivent rendre des comptes sur la mise en place de data lake.

Les data scientist passent toujours plus de temps sur la préparation des données et perdent le sens réel qu’ils peuvent tirer des données.

Enfin les data engineer doivent résoudre les problèmes data de tout le monde face à une prolifération gigantesque de solutions – plates-formes – technologies data.

A lire :

  • L’idée de Data OS pour faciliter l’usage et la gestion des données : https://www.datasciencecentral.com/enterprise-data-is-broken-heres-how-to-fix-it/
  • La prochaine crise data est déjà là – des années d’investissement, pour quoi ? Pour imiter les GAFAM !? Mais quid pour notre business ? La solution (retour vers le passé … bon sens !) : reprendre son bâton de pèlerin et retourner voir les métiers (cahier des charges, recueil des exigences, analyse, écouter les retours métier) … coller au métier … voire lui laisser la responsabilité des données  : https://towardsdatascience.com/the-next-big-crisis-for-data-teams-58ac2bd856e8 (extrait qui fait mal au bon sens génie logiciel de base : « It is virtually impossible to create a semantic layer, sometimes referred to as a metrics layer, without having deep conversations about how the business thinks about and uses data. »)
  • Les tableaux de bord sont morts, les data analysts sont en crise … 3 ans après la renaissance est possible (données comme produit, data mesh seraient la solution ? Mais aussi encore un retour vers le passé … revenir à la rigueur portée par les environnements décisionnels historiques) : https://towardsdatascience.com/dashboards-are-dead-3-years-later-72347757bfa6 (extraits : « I’ve met too many data analysts over the last 5 years that were so cynical, and so let down by their time as an analyst that they were giving up their data careers entirely », « Today the main objective seems to be building trust through reliability and accuracy »)
  • Quand le rôle de data engineer déjà difficile se percute chaque jour à de nouvelles idées et approches technologiques pour traiter les données : Zero ETL, data product container, One Big Table strategy et IA… https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c

Le changement de mindset sur les données : penser produit (data product)

A lire :

Le back office des data products – plats de spaghetti de data pipeline, environnement industriel ?

Cela commence toujours par un traitement en pipeline rapidement mis en place et efficace. Et cela se termine souvent par des plats de spaghetti formant un écosystèmes de pipelines interconnectés et de calendriers d’orchestration se recoupant.

Cet environnement back office évolue et doit évoluer.

A lire :

Sens, valeur et confiance : les trois dimensions auxquelles les données sont associées et dont dépend le besoin en qualité de données

1) Sur la valeur :

2) Sur le sens :

3) Sur la confiance :

Volet data security :

Volet data trust : la confiance passe par la certification

L’idée d’IDS (International data spaces) certification des espaces de données dans le cadre de l’initiative Européenne data spaces : https://internationaldataspaces.org/hannover-messe-2023-building-trust-in-data-spaces/ et https://internationaldataspaces.org/offers/certification/

4) Qualité de données (et intégration)

La fin de vie des données

Souvent négligée la fin du cycle de vie des données – deux situations évoquées :

– Les données orphelines et qui finissent oubliées. Lien https://www.dataversity.net/the-looming-threat-of-orphaned-data-how-abandoned-files-could-destroy-your-business/

– La mort violente de données. Lien https://www.numerama.com/tech/1349832-la-bibliotheque-dimgur-brule-tout-nest-pas-permanent-sur-internet.html

Données et IA (impossible d’y échapper !)

De fait les données sont le carburant des moteurs d’IA. Et ce carburant ou plutôt cette multitude de carburants est clé (voir déjà dans la revue de mars https://www.datassence.fr/2023/04/12/revue-data-du-mois-mars-2023/#_ftn10).

Vaste sujet qui mérite un approfondissement.

Quelques liens du mois :

Quand les données peuvent se faire rare – que peut-on faire ?

L’environnement des données : data portabilité, changement d’environnement, lien données – objet

L’environnement de naissance des données est clé (origine, chaîne d’acquisition, défauts, objets concernés). Il est partie prenante du sens des données. Il est lié à une finalité, des usages. Lorsqu’on réutilise des données, s’il y a changement d’environnement, celui n’est pas neutre. Comment s’extraire de l’environnement d’origine, comment s’intégrer dans le nouvel environnement ?

A noter sur ce sujet, la brillante réflexion déjà citée dans la revue de décembre 2022 – d’Antoine Courmont : Quand la donnée arrive en ville – Open data et gouvernance urbaine – Antoine Courmont (EAN13 : 9782706147357) | PUG : livres papiers et numériques en ligne, avec l’idée de détachement er rattachement des données.

Liens du mois :

Sur la portabilité des données : https://www.techdirt.com/2023/04/11/techdirt-podcast-episode-350-the-data-transfer-initiative/ (et sur ce sujet à revenir sur l’actualité récente des annonces du gouvernement sur les directives de la future loi sur le numérique avec un volet portabilité des données personnelles)

Une analyse détaillée de la problématique de réutilisation de données de santé en fonction de leur origine, par rapport aux aspects éthiques, légaux et de consentement. Lien https://journals.sagepub.com/doi/abs/10.1177/20539517231163174?ai=2b4&mi=ehikzz&af=R

Un sujet clé de l’environnement des données est la capacité à les associer aux bons objets.

Voir aussi le sujet du drift des données du § précédent sur les données et l’IA.

En vrac (green data, British data awards, open data, métrologie, capture de données à partir de données non structurées, data physicalisation, encore des tendances data 2023)

1) Green data : impact des données sur l’environnement – deux articles dans le journal du net

2) British Data Awards : toujours intéressant les palmarès data (voir les catégories dans le lien. Extrait : Innovation of the Year, Data Transformation of the Year, Start-Up of the Year, Education Initiative of the Year, Data Vendor of the Year). A suivre les vainqueurs ce mois de mai.

https://predatech.co.uk/british-data-awards-2023-finalists-announced/

3) Open data : lancement d’une enquête nationale pour identifier et valoriser les cas d’usages de la donnée à fort impact déployés par les collectivités territoriales. Enquête ouverte jusqu’au 15 mai. A suivre les résultats. Lien : https://www.opendatafrance.net/2023/04/12/data-impact-identifions-ensemble-les-cas-dusages-territoriaux-de-donnees/

4) Métrologie : un grand classique sur la mesure – en lien avec la loi de Goodhart « « Lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure » – https://www.radiofrance.fr/franceculture/podcasts/le-pourquoi-du-comment-science/pourquoi-toute-mesure-appauvrit-elle-ce-qu-elle-mesure-9170481

5) Capture de données : extraction de données structurées à partir de données non structurées

6) Data physicalisation : l’exercice de rendre physique les données pour interpeller nos sens https://dataliteracy.com/making-data-physical/

7) Le sujet récurrent de la data literacy :

8) Encore un article sur les tendances data 2023 : https://www.itpro.fr/les-8-tendances-de-la-data-et-de-lia-en-2023/ Data Productization, Data Low Code Platform, Data Protection in SecNumCloud, Data Insights, Data Ecosystem Simplicity, Data RESET (Responsabilité Environnementale, Sociétale, Économique et Technologique en matière de Données)…

Et pour terminer – un cadeau science-fiction – Le rôle de « Data » dans star trek

https://boingboing.net/2023/04/14/brent-spiner-talks-about-his-early-days-as-data-on-star-trek-the-next-generation.html

Source image : https://en.wikipedia.org/wiki/Data_%28Star_Trek%29

https://fr.wikipedia.org/wiki/Data_(Star_Trek)


RDV maintenant en juin pour la revue et les actualités de mai !


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.