Dernière modification le 11 avril 2023
Cette revue est basée sur un ensemble de publications du mois de décembre 2022, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.
Sommaire :
- L’économie de marché des datasets
- Data mesh : entre centralisation / décentralisation de la gestion des données quand le pendule oscille et propose un cadre de réponse
- La data literacy et l’open data : un kit pédagogique pour les agents publics
- Comment définir sa stratégie data ?
- Développement (Devops) et Data (Dataops) même combat
- Comment rendre visible le cout invisible des données : stockage, émission de CO2 ?
- La data sauve le monde !
- Pour un regard décalé sur les données : en décembre s’est tenu le dernier atelier du cycle SED 2021-2022 (La science à l’épreuve des données – la vision de sociologues)
- Les data scientists dans tous leurs états
- Briques data : data pipelines, data catalog, data observability, data base management, data visualization
- Sur la collecte de données
- Nouvelle feuille de route du numérique en santé 2023 – 2027
L’économie de marché des datasets
Les datasets, jeux de données sont devenus un produit industriel soumis à une logique de marché.
Je ne suis pas économiste, mais le nouveau statut des données (comme produit économique), fait qu’un marché complet s’est créé, avec de nouveaux acteurs, de nouvelles valeurs économiques, de nouveaux types de criminalités, de nouveaux règlements, de nouvelles dérives, de nouveaux rapports de force, etc.
Ce marché se traduit par :
- L’existence historique de nombreuses places de marché de la donnée (data brokers),
- Des accords de capture et d’échanges de données entre partenaires (exemples autour du déploiement de trackers, mais aussi simplement entre partenaires d’un même éco-système),
- L’apparition d’entreprises spécialisées dans l’extraction de données (web scrapping, exploitation de dispositifs de stockage embarqué, data forensic, opérateurs verticaux sur des domaines dédiés – exemple la santé, la mobilité …) qui ne feront que se développer avec la prolifération des objets embarquant des données (des voitures à l’aspirateur autonome en passant par les appareils d’analyses médicales),
- Les vols de données par des groupes de hackers et la revente de ces données dans le darkweb,
- Un volet open data avec la volonté de mettre à disposition des données ouvertes,
- Un volet en lien avec le monde scientifique : open science (FAIR), catalogues de datasets à destination des scientifiques, partage de données avec ce monde scientifique,
- Une consommation effrénée accentuée par la vague IA et son énorme besoin intrinsèque de consommation de jeux de données et donc d’appels à des usines plus ou moins formelles de construction de ces jeux de données (dont la construction de données de synthèse – synthetic data),
- La construction de plates-formes data à visée de collection et de partage de données, avec des enjeux de souveraineté, de maîtrise de cette industrie de la donnée,
- L’émergence de business unit data chez les industriels historiques,
- La mise en place de régulations de ce marché par différentes autorités et la multiplication d’accords commerciaux.
L’actualité sur ce marché est constante. En ce mois de décembre à retenir :
1) Sur les besoins de l’IA :
Lire les excellents articles de Antonio Casilli, qui mettent en lumière ce marché de la donnée et ses dérives « colonialistes », sources de domination à venir :
- https://www.humanite.fr/social-eco/intelligence-artificielle/antonio-casilli-de-sujets-coloniaux-des-data-subjects-774160
- Dans La Croix, trois pages sur le micro-travail (13 déc. 2022) | Antonio A. Casilli
Un exemple de processus industriel de production de ces données : Annotation Strategies for Computer Vision Training Data – DataScienceCentral.com
2) Sur la régulation et la multiplication des accords, règlements sur les échanges internationaux de données (sujet récurrent dans ces revues mensuelles, voir https://www.datassence.fr/2022/12/08/revue-data-du-mois-novembre-2022/#_ftn2)
La chine qui restreint les échanges de données produites par ses acteurs économiques : How China’s data rules will impact its trade competitiveness | World Economic Forum (weforum.org)
Les accords Europe – USA sur les transferts de données personnelles : L’UE pense que les USA ont assez changé pour retransférer des données personnelles chez eux – Numerama
3) Sur la maîtrise (souveraineté, développement) des infrastructures support aux données
Sur la souveraineté : Data Sovereignty Battles Continue To Dominate The European Public Cloud Market (forrester.com)
Retour sur le data act et data gouvernance act au niveau de l’union européenne avec la volonté de favoriser les échanges de données entre acteurs économiques au sein de l’Europe : L’usage des données industrielles au cœur de l’agenda européen (journaldunet.com)
Et à suivre l’actualité régulière de l’initiative GAIA-X Home – Gaia-X: A Federated Secure Data Infrastructure avec ce mois décembre un article qui traite le sujet de la conformité au sein de la plate-forme dans l’esprit du célèbre article de Lawrence Lessig « Code is law ».
L’article aborde, le contrôle (sa conformité au travers de services de preuves) de la plate-forme au travers la définition de vocabulaires, de taxonomies et d’ontologies contrôlées. L’idée est de maîtriser la sémantique des espaces de données au sein de la plate-forme (traçabilité et interopérabilité sémantique).
« In conclusion, Compliance as Code is a mean to consistently produce digital proofs that are legally relevant, using semantic interoperability of a shared ontology and a software stack capable of ensuring traceability and integrity of the rules execution. »
4) Sur les business unit data chez les industriels
A retenir : L’annonce du groupe Stellantis (annonce de ce début janvier, mais information déjà apparue dans la vague d’offres d’emploi data de Stellantis du mois de décembre) : La nouvelle Business Unit « Mobilisights » développera l’offre croissante de data et services connectés de Stellantis | Stellantis et Head of Data Science & Analytics- Stellantis Data Business Unit, FCA Job #2000355, Auburn Hills, MI (fcagroup.com)
5) Et pour finir sur les professionnels de l’extraction de données, cet article : Law Enforcement Is Extracting Tons Of Data From Vehicle Infotainment Systems | Techdirt avec une référence à cette société : Berla.co et son offre iVe pour l’extraction de données des véhicules (iVe Software v4.2 Release – Berla.co) « Data is stored by vehicle systems as it is collected and processed. The information contained in those repositories is critical evidence that is extremely valuable during an investigation. ».
Derrière cela, on imagine très bien l’évolution de ce type d’offre à partir de tout objet connecté et faisant appel aux données (et les dérives : https://www.presse-citron.net/filmees-aux-toilettes-par-son-aspirateur-ses-images-finissent-sur-facebook/).
Voir aussi sur une offre de service plus large, un opérateur Français sur le domaine de la mobilité Vianova – Plateforme de données sur la mobilité pour les villes et les prestataires de services de transport avec une levée de fonds annoncée en décembre Vianova builds a location data platform for shared mobility companies and cities | TechCrunch
Data mesh : entre centralisation / décentralisation de la gestion des données quand le pendule oscille et propose un cadre de réponse
Le sujet data mesh a fait l’objet d’une forte actualité en 2022.
Le sujet n’est pas tari.
Il reste d’actualité comme tendance importante mais certains pronostiquent déjà sa mort :
- Data Mesh In 2023 And Beyond (forrester.com)
- Et 2022 Gartner Hype Cycle for Data Management | Denodo – Data mesh obsolète (Gartner d’après la source Denodo – juin 2022) et ici aussi ‘Data mesh is dead; it just doesn’t know it’ (analyticsindiamag.com)
Linkedin n’est pas en reste en ce mois de décembre avec de nombreuses conversations consacrées à ce sujet (quelques références) :
- https://www.linkedin.com/feed/update/urn:li:activity:7009052568647540736?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity%3A7009052568647540736%29
- https://www.linkedin.com/feed/update/urn:li:activity:7010902373585833984?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity%3A7010902373585833984%29
- https://www.linkedin.com/feed/update/urn:li:activity:6988102717327953920?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity%3A6988102717327953920%29
- https://www.linkedin.com/feed/update/urn:li:activity:6996089201477697537?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity%3A6996089201477697537%29
Ce sujet mérite un approfondissement au travers d’article complet (votre problème est-il compatible data mesh ?).
En attendant quelques réflexions rapides :
- La référence de base à consulter avant tout : Data Mesh Principles and Logical Architecture (martinfowler.com) et les articles associés,
- Dans l’esprit data mesh, on y retrouve des réflexions et cadres / principes historiques : DDD (Domain Driven Design), SOA et microservices, la logique de conception par framework d’accueil, positionner les données au plus près des responsabilités métier (vision organisationnelle – management), contractualiser les dépendances (matérialiser les frontières, contrats d’interface / d’échange de données), favoriser l’autonomie dans un cadre commun, esprit des communautés de pratique (COP), etc.
- Et vient s’inviter de nouveaux concepts à l’exemple de l’idée de Modern Data Stack (What is the Modern Data Stack? (airbyte.com)) … mais sur une problématique ancienne et clé : l’intégration
La data literacy et l’open data : un kit pédagogique pour les agents publics
Data literacy, acculturation data, culture de la données … au vu de l’actualité continue, on sent bien un sujet sensible – sur ce sujet voir aussi https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/.
A voir ce mois de décembre :
Comment définir sa stratégie data ?
Vaste sujet :
- Comment définir une stratégie data au niveau d’une organisation, d’un éco-système ?
- Que signifie une stratégie data ? Qu’est-ce que ça recouvre ?
- Au niveau individuel à quoi cela correspond ?
En attendant un article retour d’expérience et formalisation sur datassence.fr, un lien d’actualité du mois de décembre qui donne quelques éléments mais ne rentre pas dans le fond : https://www.dataversity.net/data-strategy-trends-in-2023-toward-organizational-alignment/
Développement (Devops) et Data (Dataops) même combat
Un rapide tour d’horizon ici : Data Operations: How DataOps Can Help Businesses? (dataconomy.com) : Table of Contents
« What is DataOps?
Data operations is not DataOps
How does DataOps work?
What does DataOps as a Service offer?
What’s the role of data operations in a business?
Which problems do data operations address in a business?
What does a data operations engineer do?
Data operations engineer salary
Key takeaways
Conclusion »
Comment rendre visible le cout invisible des données : stockage, émission de CO2 ?
Inspiré du bloc notes de Bertrand Duperrin – Accueil – Bloc-Notes de Bertrand Duperrin : https://www.duperrin.com/2022/12/20/le-futur-du-travail-sera-digitalement-responsable/
Extraits :
« Comme le signalait Arnaud Rayrole sur Linkedin à l’occasion du Lecko In’Pulse Day :
9 collaborateurs sur 10 accroissent leur espace de stockage en ligne chaque mois. 40% ne suppriment rien sur un mois. Cela montre à quel point l’espace de stockage est perçu comme une ressource illimitée et si peu chère qu’on ne la préserve pas. »
« Chaque jour environ 350 milliards d’emails sont envoyés dans le monde. 65% de ces emails sont du spam. 15% seraient des emails publicitaires.
Cela fait environ 50 milliards d’emails publicitaires par jour.
On trouve différents chiffres sur l’empreinte carbone de l’envoi d’un email qui varient en général en fonction de la taille des pièces jointes.
4 grammes pour un mail sans pièce jointe
11 grammes pour un email avec une pièce jointe de 1 MB.
Jusqu’à 50 grammes pour un long email avec des pièces jointes.
On nous dit qu’une newsletter « pèse » dans les 10g. Prenons ce chiffre
Ce qui porte le poids des emails marketing à 500 milliards de grammes par jour. 500 000 tonnes. »
La data sauve le monde !
Better data can help tackle the climate crisis, G20 says | World Economic Forum (weforum.org)
Pour un regard décalé sur les données : en décembre s’est tenu le dernier atelier du cycle SED 2021-2022 (La science à l’épreuve des données – la vision de sociologues)
Atelier de décembre : décembre 2022 – La science à l’épreuve des données (hypotheses.org)
Je n’ai pas manqué un atelier, tous très intéressant avec des regards inhabituels sur les données pour moi (informaticien).
Dès que j’aurai du temps, cela méritera un large compte-rendu.
En attendant vous pouvez consulter le carnet de recherche : La science à l’épreuve des données (hypotheses.org)
Les data scientists dans tous leurs états
- https://www.kdnuggets.com/2022/12/prepare-data-science-interview.html
- https://hbr.org/2022/12/the-risks-of-empowering-citizen-data-scientists (voir aussi l’actualité d’octobre – le mythe du citizen data scientist https://www.datassence.fr/2022/10/27/revue-data-du-mois-octobre-2022/#_ftn5 )
- Et pour finir le burn out du data scientist : Burnout in Data Professionals – A Personal Take | R-bloggers
Briques data : data pipelines, data catalog, data observability, data base management, data visualization
Quelques liens du mois de décembre :
(data pipeline) https://www.smartdatacollective.com/7-ways-avoid-errors-data-pipeline/
(data observability) Data Observability TDWI Report – 5 Best Practices for Success (precisely.com)
Data Observability Explained: Benefits, Tools And More (dataconomy.com)
(data base management) : https://www.dataversity.net/database-management-trends-in-2023/
(data catalog) : How to Build A Data Inventory At Your Organization – DataScienceCentral.com
(data visualization) : Best Data Visualization Projects of 2022 | FlowingData
Sur la collecte de données
Sujet récurrent – voir déjà dans la revue d’octobre : https://www.datassence.fr/2022/10/27/revue-data-du-mois-octobre-2022/#_ftn9
Sur les capteurs, un tour d’horizon : How Do IoT Sensors Work: Wireless Sensors, Types And More (dataconomy.com)
What are IoT sensors?
Wireless IoT sensors
How do IoT sensors work?
Types of IoT sensors
Temperature sensors
Proximity sensors
Pressure sensors
Water quality sensors
Smoke sensors
Chemical sensors
Gas sensors
Image sensors
IR sensors
Level sensors
Motion detection sensors
Optical sensors
Acceleration sensors
Gyroscopic sensors
Humidity sensors
Friend or foe: Is the future looking bright for IoT devices?
Sur la collecte de données en analysant les médias du monde entier : https://blog.gdeltproject.org/gdelt-video-series-media-as-data-a-look-back-at-a-decade-of-tv-news-analysis/
Pour ceux que cela intéresse, cela fait pratiquement 10 ans que je suis l’évolution de GDELT (The GDELT Project), c’est totalement fascinant, avec la construction d’un ensemble de données de tous les événements dans le monde entier.
« Watching The Entire World. GDELT monitors the world’s news media from nearly every corner of every country in print, broadcast, and web formats, in over 100 languages, every moment of every day. »
Ci-après une planche datant de 2018 que je présentais dans un cours sur les données :
Tout peut se collecter, y compris les sentiments : How To Collect Data For Customer Sentiment Analysis – KDnuggets
Nouvelle feuille de route du numérique en santé 2023 – 2027
J’ai eu la chance d’être confronté au contexte de la feuille de route précédente.
Forcément les données y sont un sujet clé, donc à suivre.
A noter l’action 18 :
La réutilisation des données (utilisation secondaire, 2nde vie des données) est un sujet clé.
Pour une analyse pertinente, je vous conseille la lecture de l’ouvrage d’Antoine Courmont : Quand la donnée arrive en ville – Open data et gouvernance urbaine – Antoine Courmont (EAN13 : 9782706147357) | PUG : livres papiers et numériques en ligne
RDV maintenant en février pour la revue et les actualités de janvier !
Les commentaires sont fermés.