Press "Enter" to skip to content

Revue data du mois (octobre 2022)

Dernière modification le 8 décembre 2022

Cette revue est basée sur un ensemble de publications du mois d’octobre 2022, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Sommaire :

Données et Metaverse

Source : https ://www.datasciencecentral.com/the-metaverse-will-be-built-on-big-data-and-user-trust/

En synthèse :

  • De fait au cœur du Metaverse une masse de données sans précédent [comme constituantes, production de données, résultats, traces, métadonnées] ;
  • La blockchain comme nouvel espace et nouvelles frontières pour les données ;
  • Le big data pour le Metaverse et le Metaverse comme source de données pour le big data des entreprises ;
  • Un paysage en développement qui va de pair avec l’apprentissage de l’exploitation des données au travers des canaux virtuels et de l’univers du Metaverse ;
  • Une plus grande fluidité d’acquisition de données via les interactions par avatars à la place des claviers ;
  • La problématique (obstacle) de la confidentialité, de la propriété des données personnelle. Avec l’enjeu de la transparence si l’on veut collecter ces données

La transformation du data management

Source : Data Subassemblies and Data Products Part 1 : Modern Data Management Building Blocks – DataScienceCentral.com

Et Data Subassemblies and Data Products Part 2 : Economics and Journey Maps – DataScienceCentral.com

Et Data Management as a Business Discipline – Part 3 : Enabling Frameworks – DataScienceCentral.com

En synthèse :

  • La bascule du data management par l’IT vers une discipline commerciale dans le but de tirer de la valeur des données;
  • En passant par deux leviers :
    • La monétisation / valorisation du produit d’exploitation de données – Data Products (mesures, scores, profils, indicateurs, prédictif à partir de données de l’entreprise) à destination de clients finaux (non travailleurs des données : marketing, commerciaux, logisticiens, clients…). Exemples : cross selling, prévention du churn
    • La monétisation / valorisation de package de données – Data Subassemblies (dataset) comme matière pour les travailleurs des données (data analyst, data scientists, datalab, concepteur de moteurs d’IA)
  • Par produit d’exploitation des données on entend des résultats analytiques, mais aussi la façon de présenter ces résultats (data visualisation), leur intégration dans des services et un niveau de service défini (fréquence, qualité, calendrier de publication des données, support);
  • Par package on entend les jeux de données en eux-mêmes, mais aussi les métadonnées, les méthodes d’accès aux données, les politiques et procédures de gouvernance des données, les protocoles de sécurité d’accès aux données, les scores de qualité des données, les règles de confidentialité et réglementations, les modèles d’utilisation.
  • Avec les produits d’exploitation de données comme sources pour les packages de données (datasets)
  • L’auteur propose quatre cadres (framework) pour le data management :
    • Le dessin d’un canvas « Data management value creation journey map » qui décrit le parcours en continu de production de produits basés sur les données ;
    • Une grille de niveaux de maturité d’exploitation des données ;
    • Le value engineering framework : capacité à créer de la valeur par les données (valeur business visée, choix des cas d’usage à valeur, valeur résultat des produits de données, valeur des systèmes support pour pérenniser et développer de nouveaux produits de données);
    • Et « Thinking Like a Data Scientist” (TLADS) methodology » : démarche, template.

Rôle des data manager : https://hbr.org/2022/10/why-your-company-needs-data-product-managers et https://www.lebigdata.fr/data-product-manager

  • Les data scientists ont besoin de data manager (logique de partenariat)
  • Data manager : les dessous du métier

Et aussi sur la data gouvernance (qui inclus le data management) :

  • L’effervescence d’achat de solutions data catalog : mais « Rarely does buying software address the problem you’re having » ;
    • La protection des données qui va prendre le dessus sur la gouvernance des données : traiter le risque prend le dessus ;
    • Penser la gouvernance des données dès la conception : rechercher la valorisation des données dès la définition d’un processus, d’un service, d’un produit où la donnée accompagne le produit… ;
    • Disposer d’une équipe dédiée gouvernance des données ;
    • « Pas de gouvernance des données sans qualité des données et pas de qualité des données sans gouvernance des données » et l’IA comme levier qui ne peut se passer de donnée de qualité ;
  • https://www.dataversity.net/six-core-data-management-challenges/ : Traiter les silos de données (systèmes, entrepôts, bases de données des progiciels, sites, hébergées dans le cloud

Traitement temps réel de flux de données pour alimenter et exploiter les services de données (orchestration, data pipelines, data architecture intégration, intégration cloud)

Source : With $17M in funding, Immerok launches cloud service for real-time streaming data | TechCrunch

En synthèse :

  • L’alimentation en flux de données est naturellement critique pour tous les services data hébergés dans le cloud (exemple besoins pour les moteurs d’IA/ML, d’analyse prédictive, d’analyse temps réel) ;
  • Comme problématique d’intégration IT, cette alimentation nécessite des compétences rares (« But the skills required to develop and operate stream processing infrastructure are scarce »). Sans ces compétences, cette intégration est un frein aux services data ;
  • Immerok (Immerok – Apache Flink Cloud Service) sur la base Open Source Flink de la fondation Apache vient de lever 17M$ pour faire de son produit une offre facilitant au maximum le travail d’intégration, limiter la dépendance aux compétences associées ;
  • Immerok se positionne comme voulant limiter la dépendance aux compétences d’intégration et aller plus loin que les offres Amazon Web Services (AWS) Kinesis Data Analytics et le service Apache Flink géré d’Aiven (https://aiven.io/)

La promesse d’Immerok (Google traduction) :

« Immerok a pour mission de fournir aux développeurs la meilleure plate-forme pour créer, exécuter et prendre en charge des applications de traitement de flux basées sur Apache Flink® dans le cloud sans nécessiter une expertise coûteuse en infrastructure… Ne dépensez aucun effort pour créer et exploiter votre propre infrastructure de données en temps réel. »

Commentaire : l’intégration est le point critique des applications/architectures Data (multiplication des composants à un rythme constant, interopérabilité, compétences techniques sur les composants et sur le métier de l’intégration, rythme de construction et d’industrialisation d’architectures complexes non adaptée au time to market data). De nombreuses offres se positionnent sur ce terrain avec parfois jusqu’au monitoring (data observability). Exemple : https://www.chaossearch.io/ – vu ce mois sur Dataversity : .ChaosSearch Overview 2022-07-20.pptx (dataversity.net) (« ChaosSearch uniquely eliminates the architectural complexity that cause today’s solutions to fail. »

Sur le même thème, beaucoup d’actualité sur les data pipelines, la data integration :

Confluent Stream Designer example. Image Credits: Confluent

En lien avec le sujet : le data lineage ou encore la cartographie des chaînes de traitement des données. Trop souvent les projets de mises en place de services autour de la donnée doivent effectuer avant de commencer un travail conséquent de rétro-engineering de l’existant. C’est même la première compétence attendue des travailleurs de la donnée (d’où viennent les données, comment elles sont traitées, par quels circuits, sous quelles contraintes, avec quelle qualité…).

Afin de capitaliser sur cet effort, les solutions de data management incluent le moyen de décrire et de capitaliser le data lineage des données. On trouve ces fonctions par exemple dans les outils de data catalog. En sachant que l’idéal serait de retrouver cette description dans les RDE (Référentiel de Description de l’Entreprise) support aux travaux d’architecture d’entreprise (la donnée n’est pas seule au monde. Elle est une composante du système entreprise).

Dans l’actualité du mois une offre du marché : Octopai 2022.pptx (dataversity.net)

Et pour aller plus loin sur le sujet, on ne peut que conseiller des travaux de 2019 sur le data lineage et auxquels j’ai participé : https://www.conix.fr/guide-pratique-de-data-lineage-procede-praxeme-assurer-la-tracabilite-des-donnees-dans-une-demarche-darchitecture-dentreprise/ et  https://www.praxeme.org/data-lineage-assurer-la-tracabilite-des-donnees/


NoCode et Données

Dans la lignée du thème précédent, simplifier et « démocratiser » les composants techniques data. Comment exploiter les données de production et construire ses propres instances de stockage de données en environnement NoCode : NocoDB (qui se présente comme alternative open source à Airtable).

Source : Techcrunch.com 12/10/22 Article nocodb-takes-on-airtable-with-open-source-no-code-database-that-works-with-production-data

Commentaire : NoCode ne veut pas dire la disparition miraculeuse des principes du génie logiciel. Régulièrement (tous les 7/10 ans) le NoCode est à la mode … NoCode = mythe de Sisyphe 😉 ?


Le mythe du citizen data scientist

Source : https://www.kdnuggets.com/2022/10/debunking-myth-citizen-data-scientist.html

Le concept de citizen data scientist n’est pas viable :

  • Comprendre les données, leur contexte, la façon de les sélectionner – déterminer le poids des bonnes données et le modèle nécessaire, les nettoyer, éviter les biais, retenir les bonnes façons de les exploiter, les présenter n’est pas à la portée des personnes novices;
  • « If you go this route, you’re going to wind up with a classic “garbage in, garbage out” problem. » … « The tool alone can’t make the data better » ;
  • « It’s just not that simple. And again, this doesn’t mean that the citizen data scientist isn’t a viable concept. It’s just important to understand that these roles need to be supplements to, not replacements for, data scientists. ».

… à rapprocher également du sujet précédent sur le NoCode.


Les différents types de tableaux de bord selon dataconomy.com

Source : https://dataconomy.com/2022/10/business-intelligence-dashboard-examples/

L’article explore les différents types de tableaux de bord (extrait) :

  • Operational: It displays operational processes and shorter time horizons.
  • Analytical: It includes enormous volumes of data that analysts have produced.
  • Strategic: It is concentrated on high-level measurements and long-term strategies.
  • Tactical: Mid-management employs it to speed up decision-making.

Les métriques des données particulières pour l’exercice de Data science

Source : https://www.dataversity.net/data-science-metrics-purpose-and-uses/

Les métriques, indicateurs – KPI sont des données particulières pour la Data science. Elles ne sont par nécessairement données ! Elles sont à construire, à aligner sur des intérêts de mesure (de la performance par exemple). C’est leur particularité par rapport à des données sources – résultantes d’activités (par exemple des données de transactions monétiques). Elles relèvent de la métrologie d’entreprise. A noter à ce sujet l’exercice mené par la méthode d’Architecture d’Entreprise Praxeme conjointement avec CONIX sur ce sujet.

A voir sur Datassence une description de la métrologie d’entreprise.


Métrologie d’entreprise, publication d’un nouveau procédé dans le cadre la méthode Praxeme : mettre en place le mesurage

Cela vient d’être publié ce mois ci : Lien Praxeme : https://www.praxeme.org/publication-du-procede-mettre-en-place-le-mesurage/

Pour en savoir plus : lire l’article Métrologie d’entreprise : mesures, indicateurs … décisionnel


La rencontre : Sciences sociales / Sciences humaines et Science des données

De fait tout ce qui relève de l’exploitation des données (data science, data analytics, statistiques, big data) intéresse les sciences humaines (sociologie, ethnologie…). Pour les spécialistes de la data, l’utilisation des données par ce domaine particulier est toujours riche d’enseignement.

Il existe plusieurs initiatives pour rapprocher les deux domaines : sciences sociales / humaines et science des données. A l’exemple de la tenue ce mois ci du colloque : « Big Data » : influence, manipulation et micro-ciblage en contexte numérique.

Dans le même esprit à venir sur ce site des notes de compte-rendu sur les sessions du programme « La science à l’épreuve des données« .


Les usages extrêmes sont toujours riches d’enseignement Télémétrie en F1

Source : How Formula 1 Teams Leverage Big Data for Success (smartdatacollective.com)

  • L’usage des données dans le sport n’est pas récent ;
  • La Formule 1 utilise la télémétrie depuis les années 80 ;
  • Avec comme usage, la recherche du 0,1% de performance supplémentaire qui fera la différence ;
  • L’évolution par rapport à ces années illustre le gigantisme auquel on arrive :
    • « Extrait – For example, the Mercedes AMG F1 W08 EQ Power + is rammed with 200 sensors, while Red Bull’s RB12 tech team are analyzing data from some 10,000 different parts. At one US Formula 1 Grand Prix, it was estimated nearly as much data was transmitted by the competing teams as is stored in the US Library of Congress! »
    • Des centaines (voire milliers de capteurs par voiture), des dizaines de dispositifs d’asservissement (aide au pilotage), des milliers d’indicateurs par tours … à traiter, analyser, restituer en temps réel dans le cadre d’un grand prix de F1 … événement on ne plus tendu par le temps, la vitesse et la performance… Retour d’expérience à s’inspirer !

Aspiration – captures de données pour une couverture++

Source : TikTok aspire vos données, même si vous ne l’utilisez pas ! Comment s’en protéger ? (lebigdata.fr)

Le titre se suffit quasiment à lui-même !

Pour aller plus loin, Tiktok n’est pas le premier (Facebook l’a fait avant), recenser chaque individu et y associer des milliers de données est le reflet de ces plates-formes dans leur course à la portée d’un marché global.

L’équation à maximiser derrière cela : Portée (couverture) de la population que l’on peut toucher + Portée des trackeurs que l’on peut positionner = Portée de la publicité que l’on peut vendre. Et cela que vous soyez utilisateurs ou non de ces plates-formes !

Et aussi ici : https://www.01net.com/actualites/tiktok-collecte-donnees-personnelles-meme-utilisez-pas-application.html et dans le même esprit : Quelles données collecte Amazon et comment l’empêcher ? Le guide complet (lebigdata.fr)


Data strategy

Source : https://www.dataversity.net/developing-a-data-strategy-roadmap/

Donne une première approche et façon d’aborder la définition d’une stratégie data.

Approche classique qui fournit une liste de sujets à traiter. Mais aborde très peu la partie « création » et structuration de la stratégie par rapport aux spécificités de la data.

Exemple non abordé (qui sera développé dans un prochain article), l’exploitation de la matrice KnownUnknown (https://en.wikipedia.org/wiki/There_are_known_knowns ) pour définir / orienter un plan de capture de données aligné sur ambitions et potentialités stratégiques.

Matrice KownUnknown appliquée aux données (datassence.fr)

Sur la collecte de données

L’appel de la NASA à la population française : https://www.presse-citron.net/la-nasa-a-besoin-de-vous-si-vous-habitez-dans-cette-zone-en-france/

Des capteurs de plus en plus présents et intégrés – vos vêtements comme capteurs : https://www.medgadget.com/2022/10/conductive-cotton-thread-for-wearable-sensors-in-commercial-textiles.html

Les défauts de capture arrivent même aux meilleurs – la calibration : https://www.numerama.com/sciences/1138574-des-scientifiques-exaltes-par-james-webb-se-sont-un-peu-emballes-avec-ses-donnees.html


Anonymisation versus masquage des données

https://data36.com/data-anonymization-data-masking/ : les pièges de la confidentialité des données, l’avenir de l’anonymisation des données (Homomorphic encryption, AI-generated synthetic data, Differential privacy, Federated learning)


Faciliter l’exploitation des données issues des transactions financières, via une sémantisation (catégorisation / labélisation) et normalisation par modèle.

Les transactions financières :

  • S’expriment au travers de nombreux formats techniques non forcément immédiatement lisibles ;
  • Sont de multiples natures (transactions de prêts, transactions commerçants, transactions internationales…) ;
  • Peuvent être classées / catégorisées / labélisées de multiples façons et suivant les usages visés (par type de commerçant, par type de produit, par lieu, par secteur d’activité, par nature de transaction, suivant les métadonnées…)
  • Sont en très grand volumes.

Face à cette situation, de nouveaux acteurs propose d’ajouter une couche pour faciliter l’exploitation des transactions. Leur valeur passe par la définition d’une couche sémantique (catégorisation, labélisation – étiquettes) sous forme d’API avec un effort de normalisation. Permettant ainsi de réduire l’effort d’exploitation et d’interprétation des données de transactions.

La promesse … gagner du temps et de la valeur en intégration (encore et toujours le point critique dans la data. Voir aussi le commentaire dans le sujet traitement des flux de données) « With Ntropy, Vardanyan and Zintchenko aim to cut down on the time and resources needed for fintech companies like Wayflyer, Teampay, Belvo and Monarch (all of which are Ntropy customers) to contextualize and normalize financial transactions. »

Source : https://techcrunch.com/2022/10/12/ntropy-raises-cash-to-normalize-and-classify-transaction-data/

Voir : l’offre de Ntropy : https://ntropy.com/ . Exemple sur le modèle général de transaction défini par Ntropy : https://developers.ntropy.com/api/#operation/ntropy_server.api.v2_2.enrich_transactions_async

Source : Ntropy

Green IT -> Green Data : le coût environnemental des dark data

Même dans le nuage les données finissent toujours sur un support physique. Dans les données, les dark data (données à usage unique, non réutilisées, voire « oubliées » … à l’exemple de vos photos oubliées dans un cloud oublié !) ont un cout environnemental important. Elles ne sont pas neutres en carbone (stockage).

« Currently, companies produce 1,300,000,000 gigabytes of dark data a day – that’s 3,023,255 flights from London to New York. »

Source : https://www.weforum.org/agenda/2022/10/dark-data-is-killing-the-planet-we-need-digital-decarbonisation/


Et pour finir, déjà les tendances 2023 : data analytics, data science

Sources :

https://www.datasciencecentral.com/top-10-future-data-analytics-trends-in-in-2023/ et Top 5 data science trends for 2023 – Dataconomy

Au menu :

  • Artificial Intelligence
  • Data Democratization
  • Edge Computing
  • Augmented Analytics
  • Data Fabric
  • Data-as-a-Service
  • NLP (Natural Language Processing)
  • Data Analytics Automation
  • Data Governance
  • Cloud-based Self-Service Data Analytics
  • In memory computing

Les commentaires sont fermés.