Press "Enter" to skip to content

Revue data du mois (novembre 2022)

Last updated on 10 janvier 2023

Cette revue est basée sur un ensemble de publications du mois de novembre 2022, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Sommaire :

Rattrapage d’octobre :

Données de synthèse : Un article très bien fait de la CNIL sur les données synthétiques (c’est-à-dire des données dites de synthèse, générées à partir de modèles afin de lever les problématiques d’identification sur des données réelles). Source : https://linc.cnil.fr/fr/donnees-synthetiques-dis-papa-comment-fait-les-donnees-12

Voir aussi : « New Book: Synthetic Data – Generation and Applications » https://www.datasciencecentral.com/new-book-synthetic-data-generation-and-applications-2/

Open Data : La synthèse de la rencontre OpenDataFrance qui s’est déroulée le 20 octobre. Source : https://www.opendatafrance.net/2022/11/24/rencontre-opendatafrance-2022-levenement-en-syntheses/

En novembre

Data réglementation : Le transfert de données en Chine, le Data act en Europe

Les règlements autour des données ne sont pas nouveaux, mais le nouveau statut des données (rôles et enjeux) fait qu’on vit une prolifération de réglementations et de négociations sur la souveraineté et le partage des données. Chaque mois voit apparaître de nouvelles lois, de nouveaux accords, de nouveaux débats. Le mois de novembre n’y a pas échappé avec :


Métrologie : décisionnel, indicateurs, métriques + Data literacy + Data architecture

Comment se rejoignent :

  • La méthode des Objective & Key Results (OKRs),
  • La culture data (data literacy),
  • Et l’architecture data : la mouvance Modern Data Stack (MDS).

Source : https://www.journaldunet.com/solutions/dsi/1517303-okrs-modern-data-stack-deux-faces-une-meme-donnee/

Commentaire :

  • La méthode OKR s’inscrit dans la problématique de métrologie d’entreprise. Elle rejoint ainsi les démarches ou approche comme : le Balanced Scorecard, GIMSI (de A. Fernandez), OVAR (Objectifs, Variables d’Action, Responsables), l’Activity Based Costing TDABC, Performance Prism, etc.
  • Elle sera d’autant plus pertinente, si elle s’inscrit dans une démarche d’architecture d’entreprise. Comme le cite l’article à propos des échecs de déploiement de la méthode « la cause profonde de ces échecs est souvent le manque de culture data, la vétusté de l’architecture technique et une organisation peu adaptée » ou encore en reprenant une citation du Gartner « Gartner indique qu’une des clés de la réussite d’une entreprise dans les prochaines années sera d’opérer le renversement d’une stratégie comportant un volet data vers des processus de décisions stratégiques imprégnés par la donnée. » … bref tout ce qu’aime bien l’architecture d’entreprise !
  • Enfin la solution Modern Data Stack, réintroduit le vieux débat global ou local, comme l’approche data mesh veut le résoudre et en réponse aux silos de données et aux datalake qui deviennent des data swamp ! A noter, qu’à raison elle s’attelle à la problématique d’intégration qui est une des problématiques clé dans l’univers des solutions data.

Pour aller plus loin : voir sur la métrologie d’entreprise l’article https://www.datassence.fr/metrologie-dentreprise-mesures-indicateurs-decisionnel/ et sur la culture data l’article https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/


Un sujet « fascinant » : que deviennent vos données après la mort ? Illustration du sujet de la synchronicité entre les objets réels et les objets numériques

Source : https://www.lebigdata.fr/donnees-apres-la-mort

De façon plus générique, cela pose comme questions :


Actualité sur la capture de données : quand l’envahissement ne s’arrête jamais

1) La démocratisation des marqueurs, qui rend accessible les technologies de motion capture ou performance capture

Source : https://www.numerama.com/tech/1194760-sony-devoile-de-curieux-petits-capteurs-pour-animer-votre-avatar-dans-le-metaverse.html

2) « La société OpenSensors utilise de petits capteurs peu coûteux pour surveiller la qualité de l’air et d’autres conditions dans les bureaux. Le moment ne pouvait pas être meilleur. »

Sources : https://www.nytimes.com/2022/11/23/business/opensensor-sensor-technology-offices-health.html et https://www.opensensors.com/

3) Comment la dématérialisation du ticket de caisse augmente la capture de données par de nouveaux acteurs. Sources : https://www.journaldunet.com/ebusiness/commerce/1516805-fin-du-ticket-de-caisse-papier-la-captation-des-donnees-n-est-pas-une-fatalite/


Data modeling

Intéressant et à approfondir (et méritant débat), les tendances 2023 autour de la modélisation des données. En commentaire et à retenir de l’article source :

  • L’IA comme support à la modélisation des données en automatisant l’analyse de flux de données et de mapping de données (a priori cela vise à soulager les modélisateurs des tâches fastidieuses de retro-engineering sur les données … un vrai sujet dans le quotidien de construction de modèles ou d’architecture de données).
  • Faciliter l’identification des changements possibles dans le cas de la modélisation de séries temporelles (avec le cas échéant une implémentation dans une base de données de type time series databases). Par exemple ce type de modélisation doit parfois tenir compte d’effets de saisonnalité qui impactent les données (exemple de l’effet de vacances scolaires sur des données de consommation, sur des données de mobilité. Autre exemple l’effet climat sur des données de consommation énergétique). L’idée ici en termes de modélisation est d’être en mesure de tenir compte de changements qui affectent ces données et également de les neutraliser pour faciliter des comparaisons ou autres analyses. Exemple de données de consommation énergétique neutralisée du climat ou encore de données désaisonnalisées.
  • Le retour des démarches de type Model Driven Architecture (MDA) ?! Sujet d’actualité dans les années 2010 – voir par exemple ce que propose la méthode Praxeme à ce sujet https://www.praxeme.org/wp-content/uploads/2020/04/SLB39b-intriVitrine.pdf
  • L’implication des modélisateurs de données dans la définition des pipelines de données (et sous-jacent du lineage des données). La modélisation (logique et physique) doit passer d’une vision locale (une base de données) à une vision d’un écosystème de gestion des données (au travers du Cloud, d’offres de type Data as a service, de bases de données traditionnelles…).
  • A l’opposé d’une modélisation big data en vision large (d’entreprise), les modélisateurs doivent être en mesure de produire des modèles en logique small data pour des cas d’usage ciblés (exemple la détection de telle fraude pour telle population et concernant tel produit). L’idée est de décliner et de spécialiser les modèles existants au cas par cas.
  • L’alignement entre la gouvernance des données et la modélisation de données. Du bon sens, l’un ne doit pas aller sans l’autre. Un modèle de données comme la gouvernance de données reflètent la même ambition métier. Ils doivent être alignés (les processus de gouvernance doivent instruire les données modélisées et réciproquement, le modèle doit tenir compte des capacités de gouvernance … inutile de modéliser des données dont la gouvernance – l’administration ne pourra pas être garantie). La gouvernance des données doit être acteur dans la validation des modèles de données.

Source : https://www.dataversity.net/data-modeling-trends-in-2023-a-refresh/

Et pour aller plus loin sur le sujet de la modélisation des données – lire l’article : https://www.datassence.fr/2022/10/18/modelisation-des-donnees-qualite-du-modele-qualite-du-magicien/

Voir aussi en lien avec ce sujet :

  • Toujours sur le lien gouvernance des données et modélisation des données, la capacité à maîtriser les données (attributs d’objet) ayant un impact réglementaire (catalogage et définitions dans les modèles) – idée de classification des données. Source : https://www.dataversity.net/data-classification-can-make-or-break-data-governance/
  • Et une présentation sur les solutions de type multi model database (https://en.wikipedia.org/wiki/Multi-model_database) qui proposent en implémentation pour une même données différents modèles d’accès et de navigation (relationnel, graphe, clé-valeur, document…). Source : https://www.dataversity.net/adv-slides-assessing-new-database-capabilities-multi-model/ « A multi-model database is a single, integrated database that can store, manage and query data multiple models such as relational, document, graph, key-value, column store, cache. It is the opposite approach to Polygot Persistence – the use of multiple databases in a workload » – page 31 . Les différentes implémentations fonctionnant ensemble (voir page 36 du support) pour répondre de façon adaptée à des cas d’usage différents (un modèle graphe pour visualiser les relations entre clients, un modèle document pour les commandes, un modèle clé-valeur pour les sessions de e-commerce, un modèle relationnel pour les données d’inventaire…
  • Voir aussi sur ce sujet, base relationnelle vs base graphe : https://www.dataversity.net/not-every-database-is-the-same-graph-vs-relational/

Big data vs « Right data » analytics

Toujours la fausse opposition entre les Big Data et les « right data » analytics (sources :  https://www.bigdataflare.com/big-data-analytics-and-trends-for-2023/ et https://www.gartner.com/en/newsroom/press-releases/2022-11-07-gartner-data-analytics-summit-2022-sydney-day-1-highlights


Dans l’idée que les usages extrêmes sont riches d’enseignement – le cas des données et du XV de France


Référentiels de données – Master Data Management

Tendances 2023 en faveur des plates-formes de MDM (source éditeur MDM Winpure) :

Sur ce sujet : voir l’offre de service Datassence – https://www.datassence.fr/referentiels-de-donnees/


Data gouvernance, data management

« Social data governance », extension de la portée des données aux données sociales, comment la gouvernance de ces données doit se définir, s’appliquer ?

Article : « Social data governance: From reflective practices to comparative synthesis » publié sur Sage le 22 novembre 2022 – https://journals.sagepub.com/doi/full/10.1177/20539517221139786

L’article introduit le thème de la « social data gouvernance ». Vaste sujet où les données rencontrent les sciences humaines (sociologie, communication), la politique, la gestion des organisations, les modèles économiques.

L’article pose les questions clés auxquelles la « social data governance » doit répondre (extrait) : « For instance, who are the stakeholders when defining what kind of behavior-associated data should be governed and how? Who holds the decision rights and accountability, and in what sense, regarding behavior-related data assets, and who has influence in the decision-making process of data-related policy and practices? How are the answers to the above questions engendered by specific political systems and social settings? »

Avec encore le COVID comme cas éclairant -l’article évoque le cas de Singapour. NB : en France, se rappeler de l’application TousAntiCovid et des débats sur les choix de gouvernance des données (https://bonjour.tousanticovid.gouv.fr/vie-privee/gestion-des-donnees/ . Voir aussi https://www.ifri.org/fr/publications/etudes-de-lifri/gouvernance-donnees-de-sante-lecons-de-crise-covid-19-europe-chine-aux )

Autres sujets vus en novembre sur la data gouvernance :

  • La nécessaire coopération entre la sécurité (data security), les acteurs IT data – data fabric et les acteurs de la gouvernance des données et la gestion des risques (réglementaires). Avec ici la présentation d’une offre logiciel qui veut fédérer ces acteurs : https://www.dasera.com/ – autre source https://www.dataversity.net/dasera-demo-operationalize-your-data-governance-with-dasera/
  • Agilité et data gouvernance – source : https://data.world/solutions/agile-data-governance/ . Avec le passage d’une gouvernance descendante à une gouvernance agile collaborative
  • En vrac :
    • Data gouvernance et stratégie cloud (data et multi-cloud, intégration des données dans le cloud, maîtrise des accès, de la sécurité, monitoring data et offres temps réel du cloud
    • Gouvernance des données et self service data
    • Gouvernance connectée (réactivité attendue – exemple en situation de crise, rôle des méta-données de gouvernance, solutions de data observability)

L’investissement en data literacy croit sans cesse alors que la capacité d’utiliser les données stagne (source Forrester)

Source : https://www.forrester.com/blogs/want-to-improve-employees-insights-driven-decision-making-data-literacy-programs-alone-wont-help/

Voir le retour d’expérience Datassence qui va dans ce sens : https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/


Big data : histoire, mythes et retour d’expérience : pipeline de construction du sens des données

Une présentation intéressante ici : http://gouvsi.blogspot.com/2022/11/mythes-et-realites-du-big-data.html – de Georges Bressange (09 novembre 2022)

En particulier le retour d’expérience (à partir de la page 41 de la présentation) et son illustration sur comment tirer du sens des données, où autrement dit, l’application des algorithmes big data (ici traitement mathématique de times series) ne suffit pas. Avec l’idée de pipeline constitutif du sens des données (voir page 48).


Calendrier data : Science Po – Semaine data SHS Parisienne 2022

https://datashs-paris2022.sciencesconf.org/resource/page/id/1


En vrac :


Océan de données, données de l’océan

Et pour terminer cette longue revue et actualité de novembre dans laquelle on peut se noyer, une image « How ocean data innovation is changing how we see the sea »

« It’s not just about generating more data – it’s a matter of getting the right data at the right time, to people who need it and drawing on data sources across government, academia, business and ocean communities, including indigenous knowledge. »

« The next wave of transformation in ocean understanding will come from not just increasing the volume of ocean data, but improving our ability to discover and connect it, giving us a clearer picture of what’s happening under the waves and envisioning new ocean solutions. »

Source : https://www.weforum.org/agenda/2022/11/ocean-data-innovators-change-research-cop27/

Et si vous savez nager, RDV en janvier pour la revue et les actualités de décembre !


Comments are closed.