Last updated on 10 janvier 2023
Cette revue est basée sur un ensemble de publications du mois de novembre 2022, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.
Sommaire :
- Rattrapage d’octobre : données de synthèse et open data
- Data réglementation : Le transfert de données en Chine, le Data act en Europe
- Métrologie : décisionnel, indicateurs, métriques + Data literacy + Data architecture
- Un sujet « fascinant » : que deviennent vos données après la mort ? Illustration du sujet de la synchronicité entre les objets réels et les objets numériques
- Actualité sur la capture de données : quand l’envahissement ne s’arrête jamais
- Data modeling
- Big data vs « Right data » analytics
- Dans l’idée que les usages extrêmes sont riches d’enseignement – le cas des données et du XV de France
- Référentiels de données – Master Data Management
- Data gouvernance, data management
- L’investissement en data literacy croit sans cesse alors que la capacité d’utiliser les données stagne (source Forrester)
- Big data : histoire, mythes et retour d’expérience : pipeline de construction du sens des données
- Calendrier data : Science Po – Semaine data SHS Parisienne 2022
- En vrac : annotation des données, data qualité, data architect, data catalog-lineage, nocode et data
- Océan de données, données de l’océan
Rattrapage d’octobre :
Données de synthèse : Un article très bien fait de la CNIL sur les données synthétiques (c’est-à-dire des données dites de synthèse, générées à partir de modèles afin de lever les problématiques d’identification sur des données réelles). Source : https://linc.cnil.fr/fr/donnees-synthetiques-dis-papa-comment-fait-les-donnees-12
Voir aussi : « New Book: Synthetic Data – Generation and Applications » https://www.datasciencecentral.com/new-book-synthetic-data-generation-and-applications-2/
Open Data : La synthèse de la rencontre OpenDataFrance qui s’est déroulée le 20 octobre. Source : https://www.opendatafrance.net/2022/11/24/rencontre-opendatafrance-2022-levenement-en-syntheses/
En novembre
Data réglementation : Le transfert de données en Chine, le Data act en Europe
Les règlements autour des données ne sont pas nouveaux, mais le nouveau statut des données (rôles et enjeux) fait qu’on vit une prolifération de réglementations et de négociations sur la souveraineté et le partage des données. Chaque mois voit apparaître de nouvelles lois, de nouveaux accords, de nouveaux débats. Le mois de novembre n’y a pas échappé avec :
- Une analyse sur les impacts de la réglementation chinoise en termes de transfert de données personnelles sur les entreprises chinoises de portée mondiale. Malgré une similitude de définition avec le RGDP, l’article met en avant les freins posés par la réglementation chinoise sur le transfert de données. Deux natures de freins : obligation de stockage local, obligation de déclaration et de contrôle par l’autorité des transferts. A noter un point d’attention à surveiller, le dernier cycle de négociations commerciales au niveau de l’OMC datent de 2001, année de l’adhésion de la Chine avec à cette époque l’absence de l’angle données (rôles et enjeux). Source : https://www.weforum.org/agenda/2022/11/china-data-export-regulations-threaten-trade-competitiveness/
- Toujours en Chine, la Banque Centrale Chinoise oblige les entreprises en ligne et les banques à lui fournir les données de leurs clients dans le cadre du contrôle des prêts à la consommation : https://siecledigital.fr/2022/11/09/chine-la-banque-centrale-oblige-les-geants-de-la-tech-a-partager-les-donnees-de-leurs-utilisateurs/
- En Europe, le data act a fait en novembre l’objet de propositions d’amendements :
- Voir la synthèse proposée par : https://www.euractiv.fr/section/economie/news/data-act-les-principales-propositions-damendements-des-eurodeputes-devoilees/
- Sources de propositions d’amendements : et https://www.europarl.europa.eu/doceo/document/JURI-AM-738512_EN.pdf
- Un commentaire : le data act va définir un cadre structurant pour les données … à venir sur Datassence une analyse technique (non juridique) du sujet (échanges de données, portabilité, interopérabilité, plates-formes data, accès aux données…).
- Toujours en Europe et le sujet des échanges de données, l’adoption d’un nouveau règlement pour le secteur public sur le sujet de l’interopérabilité, au travers d’un cadre de coopération sur les données entre toutes les administrations publiques de l’UE. Source : https://ec.europa.eu/commission/presscorner/detail/fr/ip_22_6907
- Et pour finir plusieurs analyses sur les effets contradictoires des réglementations sur les données (ex relative à la localisation des données)
- L’exigence localisation des données implique des capacités de stockage lourdes ç mettre en place pour une part des acteurs (pays, entreprises), ou comment le cloud rend plus difficile ces exigences de localisation. Source : https://www.journaldunet.com/solutions/dsi/1517299-l-emergence-de-politiques-locales-des-donnees-engendre-des-dommages-a-l-echelle-mondiale/
- Comment la localisation des données avec l’obligation de stockage local et les règles de circulation des données, contribuent à la mise en place de « rideaux de fer » numérique au détriment du rêve initial de liberté numérique d’internet. Source : https://www.weforum.org/agenda/2022/11/government-regulation-internet-freedom/
Métrologie : décisionnel, indicateurs, métriques + Data literacy + Data architecture
Comment se rejoignent :
- La méthode des Objective & Key Results (OKRs),
- La culture data (data literacy),
- Et l’architecture data : la mouvance Modern Data Stack (MDS).
Commentaire :
- La méthode OKR s’inscrit dans la problématique de métrologie d’entreprise. Elle rejoint ainsi les démarches ou approche comme : le Balanced Scorecard, GIMSI (de A. Fernandez), OVAR (Objectifs, Variables d’Action, Responsables), l’Activity Based Costing TDABC, Performance Prism, etc.
- Elle sera d’autant plus pertinente, si elle s’inscrit dans une démarche d’architecture d’entreprise. Comme le cite l’article à propos des échecs de déploiement de la méthode « la cause profonde de ces échecs est souvent le manque de culture data, la vétusté de l’architecture technique et une organisation peu adaptée » ou encore en reprenant une citation du Gartner « Gartner indique qu’une des clés de la réussite d’une entreprise dans les prochaines années sera d’opérer le renversement d’une stratégie comportant un volet data vers des processus de décisions stratégiques imprégnés par la donnée. » … bref tout ce qu’aime bien l’architecture d’entreprise !
- Enfin la solution Modern Data Stack, réintroduit le vieux débat global ou local, comme l’approche data mesh veut le résoudre et en réponse aux silos de données et aux datalake qui deviennent des data swamp ! A noter, qu’à raison elle s’attelle à la problématique d’intégration qui est une des problématiques clé dans l’univers des solutions data.
Pour aller plus loin : voir sur la métrologie d’entreprise l’article https://www.datassence.fr/metrologie-dentreprise-mesures-indicateurs-decisionnel/ et sur la culture data l’article https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/
Un sujet « fascinant » : que deviennent vos données après la mort ? Illustration du sujet de la synchronicité entre les objets réels et les objets numériques
Source : https://www.lebigdata.fr/donnees-apres-la-mort
De façon plus générique, cela pose comme questions :
- L’alignement ou synchronicité entre les états d’un objet physique et les états de sa représentation numérique (mort physiquement et vivant numériquement, et réciproquement vivant physiquement et mort numériquement avec toutes les conséquences que cela peut avoir, jusqu’à devoir prouver que l’on est réellement vivant – https://forum-assures.ameli.fr/questions/2850342-declare-decede-alors-bien-vivant !)
- La capacité du numérique à dépasser les états d’un objet physique (prolonger un objet au-delà de sa mort physique : https://www.sciencesetavenir.fr/archeo-paleo/des-bouddhas-numeriques-reintegrent-la-falaise-de-bamiyan-en-afghanistan_21897 ).
Actualité sur la capture de données : quand l’envahissement ne s’arrête jamais
1) La démocratisation des marqueurs, qui rend accessible les technologies de motion capture ou performance capture
2) « La société OpenSensors utilise de petits capteurs peu coûteux pour surveiller la qualité de l’air et d’autres conditions dans les bureaux. Le moment ne pouvait pas être meilleur. »
Sources : https://www.nytimes.com/2022/11/23/business/opensensor-sensor-technology-offices-health.html et https://www.opensensors.com/
3) Comment la dématérialisation du ticket de caisse augmente la capture de données par de nouveaux acteurs. Sources : https://www.journaldunet.com/ebusiness/commerce/1516805-fin-du-ticket-de-caisse-papier-la-captation-des-donnees-n-est-pas-une-fatalite/
Data modeling
Intéressant et à approfondir (et méritant débat), les tendances 2023 autour de la modélisation des données. En commentaire et à retenir de l’article source :
- L’IA comme support à la modélisation des données en automatisant l’analyse de flux de données et de mapping de données (a priori cela vise à soulager les modélisateurs des tâches fastidieuses de retro-engineering sur les données … un vrai sujet dans le quotidien de construction de modèles ou d’architecture de données).
- Faciliter l’identification des changements possibles dans le cas de la modélisation de séries temporelles (avec le cas échéant une implémentation dans une base de données de type time series databases). Par exemple ce type de modélisation doit parfois tenir compte d’effets de saisonnalité qui impactent les données (exemple de l’effet de vacances scolaires sur des données de consommation, sur des données de mobilité. Autre exemple l’effet climat sur des données de consommation énergétique). L’idée ici en termes de modélisation est d’être en mesure de tenir compte de changements qui affectent ces données et également de les neutraliser pour faciliter des comparaisons ou autres analyses. Exemple de données de consommation énergétique neutralisée du climat ou encore de données désaisonnalisées.
- Le retour des démarches de type Model Driven Architecture (MDA) ?! Sujet d’actualité dans les années 2010 – voir par exemple ce que propose la méthode Praxeme à ce sujet https://www.praxeme.org/wp-content/uploads/2020/04/SLB39b-intriVitrine.pdf
- L’implication des modélisateurs de données dans la définition des pipelines de données (et sous-jacent du lineage des données). La modélisation (logique et physique) doit passer d’une vision locale (une base de données) à une vision d’un écosystème de gestion des données (au travers du Cloud, d’offres de type Data as a service, de bases de données traditionnelles…).
- A l’opposé d’une modélisation big data en vision large (d’entreprise), les modélisateurs doivent être en mesure de produire des modèles en logique small data pour des cas d’usage ciblés (exemple la détection de telle fraude pour telle population et concernant tel produit). L’idée est de décliner et de spécialiser les modèles existants au cas par cas.
- L’alignement entre la gouvernance des données et la modélisation de données. Du bon sens, l’un ne doit pas aller sans l’autre. Un modèle de données comme la gouvernance de données reflètent la même ambition métier. Ils doivent être alignés (les processus de gouvernance doivent instruire les données modélisées et réciproquement, le modèle doit tenir compte des capacités de gouvernance … inutile de modéliser des données dont la gouvernance – l’administration ne pourra pas être garantie). La gouvernance des données doit être acteur dans la validation des modèles de données.
Source : https://www.dataversity.net/data-modeling-trends-in-2023-a-refresh/
Et pour aller plus loin sur le sujet de la modélisation des données – lire l’article : https://www.datassence.fr/2022/10/18/modelisation-des-donnees-qualite-du-modele-qualite-du-magicien/
Voir aussi en lien avec ce sujet :
- Toujours sur le lien gouvernance des données et modélisation des données, la capacité à maîtriser les données (attributs d’objet) ayant un impact réglementaire (catalogage et définitions dans les modèles) – idée de classification des données. Source : https://www.dataversity.net/data-classification-can-make-or-break-data-governance/
- Et une présentation sur les solutions de type multi model database (https://en.wikipedia.org/wiki/Multi-model_database) qui proposent en implémentation pour une même données différents modèles d’accès et de navigation (relationnel, graphe, clé-valeur, document…). Source : https://www.dataversity.net/adv-slides-assessing-new-database-capabilities-multi-model/ « A multi-model database is a single, integrated database that can store, manage and query data multiple models such as relational, document, graph, key-value, column store, cache. It is the opposite approach to Polygot Persistence – the use of multiple databases in a workload » – page 31 . Les différentes implémentations fonctionnant ensemble (voir page 36 du support) pour répondre de façon adaptée à des cas d’usage différents (un modèle graphe pour visualiser les relations entre clients, un modèle document pour les commandes, un modèle clé-valeur pour les sessions de e-commerce, un modèle relationnel pour les données d’inventaire…
- Voir aussi sur ce sujet, base relationnelle vs base graphe : https://www.dataversity.net/not-every-database-is-the-same-graph-vs-relational/
Big data vs « Right data » analytics
Toujours la fausse opposition entre les Big Data et les « right data » analytics (sources : https://www.bigdataflare.com/big-data-analytics-and-trends-for-2023/ et https://www.gartner.com/en/newsroom/press-releases/2022-11-07-gartner-data-analytics-summit-2022-sydney-day-1-highlights
Dans l’idée que les usages extrêmes sont riches d’enseignement – le cas des données et du XV de France
- https://www.rugbyrama.fr/rugby/xv-de-france/2021/xv-de-france-une-banque-de-donnees-de-1438-matchs-larme-fatale-du-staff-des-bleus_sto9228867/story.shtml
- https://www.20minutes.fr/sport/rugby/4010739-20221119-xv-france-mis-reflechir-tout-rien-interdire-data-revolutionne-vie-bleus
Référentiels de données – Master Data Management
Tendances 2023 en faveur des plates-formes de MDM (source éditeur MDM Winpure) :
- Pression sur les entreprises dans leur capacité à intégrer de plus en plus de sources de données de références (enrichissements externes, issues de fusions acquisitions)
- Nœud central pour la maîtrise de la qualité des données, la maîtrise des impacts réglementaires, la capacité à exercer les responsabilités définies par la gouvernance des données. Mais prudence vis-à-vis des approches MDM Multi-Domaine (intégration complexe)
- Productivité dans le traitement des données (préparation, nettoyage…) : contrôle qualité par rapport aux données de référence
- Capacité d’intégration : avec les stockages cloud, avec les besoins en données des plates-formes décisionnelles, IA
- Sources (non forcément récentes) : https://winpure.com/blog/trends-in-master-data-management/ et https://mdmlist.com/
- Et une présentation de l’offre MDM de Precisely (https://www.precisely.com/fr) https://www.dataversity.net/slides-achieving-a-single-view-of-business-critical-data-with-master-data-management/
Sur ce sujet : voir l’offre de service Datassence – https://www.datassence.fr/referentiels-de-donnees/
Data gouvernance, data management
« Social data governance », extension de la portée des données aux données sociales, comment la gouvernance de ces données doit se définir, s’appliquer ?
Article : « Social data governance: From reflective practices to comparative synthesis » publié sur Sage le 22 novembre 2022 – https://journals.sagepub.com/doi/full/10.1177/20539517221139786
L’article introduit le thème de la « social data gouvernance ». Vaste sujet où les données rencontrent les sciences humaines (sociologie, communication), la politique, la gestion des organisations, les modèles économiques.
L’article pose les questions clés auxquelles la « social data governance » doit répondre (extrait) : « For instance, who are the stakeholders when defining what kind of behavior-associated data should be governed and how? Who holds the decision rights and accountability, and in what sense, regarding behavior-related data assets, and who has influence in the decision-making process of data-related policy and practices? How are the answers to the above questions engendered by specific political systems and social settings? »
Avec encore le COVID comme cas éclairant -l’article évoque le cas de Singapour. NB : en France, se rappeler de l’application TousAntiCovid et des débats sur les choix de gouvernance des données (https://bonjour.tousanticovid.gouv.fr/vie-privee/gestion-des-donnees/ . Voir aussi https://www.ifri.org/fr/publications/etudes-de-lifri/gouvernance-donnees-de-sante-lecons-de-crise-covid-19-europe-chine-aux )
Autres sujets vus en novembre sur la data gouvernance :
- La nécessaire coopération entre la sécurité (data security), les acteurs IT data – data fabric et les acteurs de la gouvernance des données et la gestion des risques (réglementaires). Avec ici la présentation d’une offre logiciel qui veut fédérer ces acteurs : https://www.dasera.com/ – autre source https://www.dataversity.net/dasera-demo-operationalize-your-data-governance-with-dasera/
- Agilité et data gouvernance – source : https://data.world/solutions/agile-data-governance/ . Avec le passage d’une gouvernance descendante à une gouvernance agile collaborative
- En vrac :
- Data gouvernance et stratégie cloud (data et multi-cloud, intégration des données dans le cloud, maîtrise des accès, de la sécurité, monitoring data et offres temps réel du cloud
- Gouvernance des données et self service data
- Gouvernance connectée (réactivité attendue – exemple en situation de crise, rôle des méta-données de gouvernance, solutions de data observability)
L’investissement en data literacy croit sans cesse alors que la capacité d’utiliser les données stagne (source Forrester)
Voir le retour d’expérience Datassence qui va dans ce sens : https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/
Big data : histoire, mythes et retour d’expérience : pipeline de construction du sens des données
Une présentation intéressante ici : http://gouvsi.blogspot.com/2022/11/mythes-et-realites-du-big-data.html – de Georges Bressange (09 novembre 2022)
En particulier le retour d’expérience (à partir de la page 41 de la présentation) et son illustration sur comment tirer du sens des données, où autrement dit, l’application des algorithmes big data (ici traitement mathématique de times series) ne suffit pas. Avec l’idée de pipeline constitutif du sens des données (voir page 48).
Calendrier data : Science Po – Semaine data SHS Parisienne 2022
https://datashs-paris2022.sciencesconf.org/resource/page/id/1
En vrac :
- Stratégie d’annotation des données pour les besoins de l’IA : https://www.datasciencecentral.com/annotation-strategies-for-computer-vision-training-data/
- Data qualité : https://www.kdnuggets.com/2022/11/10-common-data-quality-issues-fix.html
- Devenez data architect : https://dataconomy.com/2022/11/data-architects-salary-skills-courses/
- Sur les catalogues de données – data inventory – data lineage – data observability (NB pas un mois sans l’apparition de solutions autour de ces thèmes et de la data gouvernance plus largement … comment s’y retrouver !) :
- https://www.datasciencecentral.com/how-to-build-a-data-inventory-at-your-organization/
- https://www.dataversity.net/zeenea-demo-how-a-data-catalog-supports-agile-data-governance/
- https://www.dataversity.net/ataccama-demo-data-catalog-for-compliance-and-activation/
- https://www.dataversity.net/data-integrity-the-last-mile-problem-of-data-observability/
- https://www.dataversity.net/solidatus-demo-using-data-lineage-and-blueprints-to-reduce-risks-and-improve-efficiency-in-data-governance/ NB : un peu de publicité pour un procédé Praxeme sur la data lineage auquel j’ai participé – c’est ici : https://www.praxeme.org/data-lineage-assurer-la-tracabilite-des-donnees/
- Nocode et data : https://techcrunch.com/2022/11/10/directus-wants-to-democratize-data-across-the-enterprise/
Océan de données, données de l’océan
Et pour terminer cette longue revue et actualité de novembre dans laquelle on peut se noyer, une image « How ocean data innovation is changing how we see the sea »
« It’s not just about generating more data – it’s a matter of getting the right data at the right time, to people who need it and drawing on data sources across government, academia, business and ocean communities, including indigenous knowledge. »
« The next wave of transformation in ocean understanding will come from not just increasing the volume of ocean data, but improving our ability to discover and connect it, giving us a clearer picture of what’s happening under the waves and envisioning new ocean solutions. »
Source : https://www.weforum.org/agenda/2022/11/ocean-data-innovators-change-research-cop27/
Et si vous savez nager, RDV en janvier pour la revue et les actualités de décembre !
Comments are closed.