Press "Enter" to skip to content

Revue data du mois (juin 2023)

Dernière modification le 18 juillet 2023

Cette revue est basée sur un ensemble de publications du mois de juin 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.

Pour ce mois de juin, la thématique de l’IA qui fait bouger les lignes des données et réciproquement, toujours le rôle difficile des acteurs data à rapprocher de la difficulté de la data « à côté » et la convergence des solutions data de différentes origines vers l’idée revisitée de data platform.

Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.

Sommaire :

Les technologies data évoluent pour répondre au besoin de l’IA

Pas d’IA sans data : données d’entraînement, données d’interaction (exemple des prompts de ChatGPT), données paramètres des modèles…

Pour avoir une idée de cela à quoi cela ressemble voir ici : https://www.kaggle.com/datasets et aussi https://huggingface.co/datasets

Dans l’actualité de ce mois de juin :

Réflexions beaucoup plus profondes sur quelle vision du monde les données offrent et mettent à disposition aux moteurs d’IA ? Et les débats associés

Premier débat : comment les données représentent le monde.

Vaste sujet historique, aux impacts profonds (sociétaux, scientifiques) : comment les données représentent le monde (pour cela se replonger dans les débats Big Data contre science – à écouter : https://www.radiofrance.fr/franceculture/podcasts/le-pourquoi-du-comment-science/theories-physiques-versus-big-data-qui-l-emportera-8561082 [1]), avec l’arrivée des LLM (Large Language Model) comment le langage tokenisé représente le monde ? Et plus largement avec l’arrivée des IA génératives, comment à partir de données structurées, d’images, de sons, de texte peut-on produire des résultats concordant avec le monde ?

Sujet philosophique, sociologique, scientifique, linguistique … avant tout ! Peut-être un futur sujet du bac de philo ?!

[1] Débat lancé en 2008 par l’article dans wired de C. Anderson – « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete » : https://www.wired.com/2008/06/pb-theory/ avec depuis de nombreuses réfutation à cette idée – par exemple voir les travaux de Guiseppe Longo.

Pas de réponse ici, mais quelques briques de réflexion dans l’actualité du mois.

Un rappel de quelles données on parle et quelle grille de lecture à avoir en tête lorsque l’on parle de modèle :

Données du monde / éléments support au sens des donnéesDonnées structuréesImages, vidéosTextes, paroles
ModèleExemple entité (attributs)-relation mais aussi modèle physiqueExemple vecteurExemple linguistique
Mode de naissance des donnéesCapturées à partir du modèle.   Mais aussi données synthétiques.Enregistrements puis traitement d’image Mais aussi données synthétiques.Enregistrements puis traitements (exemple tokénisation). Mais aussi données synthétiques.
Contextualisation – métadonnées* (sans contexte les données n’ont pas de sens)Sources, lineage, définitions…Sources, lineage, labélisation…Sources, lineage…

NB avec toutes les combinaisons possibles données structurées + images + textes.

Un modèle permet de décrire une représentation du monde (une pince sur le monde), avec toutes les limites d’un modèle (choix, élimination de caractéristiques, théorie sous-jacente : avec la célèbre citation « Tous les modèles sont faux, certains sont utiles ».George Box).

Dans le cas des LLM, le modèle du monde est « caché » dans le langage et les choix associés (avec ici le choix des langues) et également dans les usages retenus du langage (et ici le choix des datasets d’apprentissage – voir de nombreux exemples ici : https://huggingface.co/datasets…conversations twitter, wikipédia… et les biais possibles).

A lire un début de débat : quels modèles du monde implicites derrière les LLM – https://www.lesswrong.com/posts/wkws2WgraeN8AYJjv/llms-don-t-have-a-coherent-model-of-the-world-what-it-means

Le cas des données synthétiques – quelles représentativité du monde et conséquence ?

Et aussi un retour sur un initiative non récente, mais qui peut s’inscrire dans le débat, avec l’idée de langage avec des primitives calculables – formalisées https://www.wolfram.com/?source=nav et dans l’actualité https://www.pauljorion.com/blog/2023/06/07/stephen-wolfram-sur-le-langage-par-vincent-teixeira/

Deuxième débat : la bataille déterminisme versus approche probabilistique – stochastique.

A lire – https://towardsdatascience.com/modeling-the-world-in-a-deterministic-way-with-gekko-6dc8edbe5842

Troisième débat : existe-t-il un phénomène d’émergence à partir des LLM ?

A lire, publié ce mois :

  • https://arxiv.org/pdf/2206.07682.pdf – la grande échelle (« Today’s language models have been scaled primarily along three factors: amount of computation, number of model parameters, and training dataset size ») est-elle source de capacité émergente … supérieures aux performances du hasard ? Avec la définition de l’émergence suivante « Emergence is when quantitative changes in a system result in qualitative changes in behavior ». Exemples de capacités possible émergentes : calculs arithmétiques, cartographie conceptuel, compréhension de mots en contexte.
  • https://arxiv.org/pdf/2304.15004.pdf – le phénomène d’émergence est-il un mirage ?

Et aussi : https://www.scientificamerican.com/article/new-tool-reveals-how-ai-makes-decisions/

Ces trois débats, pour revenir à l’importance critique des choix autour des données dans les moteurs d’IA … énorme évidence mais parfois occultés.

A ces trois débats, on peut en rajouter un quatrième sur la capacité de maîtriser un environnement ouvert par les moteurs d’IA

Avec l’exemple emblématique de la voiture autonome toujours attendues pour les mois à venir et qui n’arrive jamais.

Plus l’espace de travail du moteur d’IA est ouvert moins on peut parler d’autonomie. L’espace de travail d’une partie d’échec est fermé … l’IA sera performante. L’espace de travail de la circulation automobile est ouvert… l’IA ne sera pas performante (voir le dernier exemple ici : https://www.numerama.com/vroom/1442404-un-simple-cone-pose-sur-le-capot-paralyse-les-robotaxis-de-san-francisco.html …et sauf à ce que l’on ferme l’espace de circulation, la voiture autonome se fera encore longtemps attendre).

NB : voir aussi le problème d’apprentissage à partir de données synthétiques et donc potentiellement représentatives d’un espace fermé. Voir la référence déjà citée plus haut – https://towardsdatascience.com/training-language-models-with-textbook-quality-synthetic-data-783bf4a444d8?source=rss—-7f60cf5620c9—4

 – extrait « The utility of synthetic data — data generated by models themselves — has been a topic of much debate. Attempts to train smaller models on the output of larger models, such as in the creation of Alpaca and Vicuna, have met with skepticism. Critics often point to arguments such as those in the Berkeley paper The False Promise of Imitating Proprietary LLMs, which states that “model imitation is a false promise: there exists a substantial capabilities gap between open and closed LMs that, with current methods, can only be bridged using an unwieldy amount of imitation data or by using more capable base LMs »

La précarité du rôle de CDO Chief Data Officer : un rôle de plus en plus difficile

Déjà évoqué dans les précédentes revues : mai – data chaos : https://www.datassence.fr/2023/06/08/revue-data-du-mois-mai-2023/#_ftn8 , juin – stress-burn out data https://www.datassence.fr/2023/05/11/revue-data-du-mois-avril-2023/#_ftn1 ).

Référence : https://hbr.org/2023/06/why-chief-data-and-ai-officers-are-set-up-to-fail

Après les investissements massifs en technologies data des ROI difficilement mesurables, après une attente d’abord défensive (réglementaire, contrôle des données, sécuritaire), le besoin d’être offensif (et tiré par l’IA).

NB : l’article HBR enfonce des portes-ouvertes mais fait des constats (« However, only 35.5% of major companies report that the role is successful and well established »). Personnellement, je pense que l’on est au cœur du problème du troisième acteur (data) positionné entre les métier et l’IT (ajout d’interfaces, dilution-conflit de responsabilité…). La data à coté et ses défauts, article à suivre dans datassence.fr.

Voir aussi le point de cette revue sur l’évolution du paysage data : https://www.datassence.fr/2023/07/17/revue-data-du-mois-juin-2023/#_ftn6.

La data « à côté » n’est pas une bonne idée

L’idée de base : une composante dédiée aux données (organisationnelle, outil, gouvernance) entre métier et IT implique une relation à trois, qui ajoute de la complexité (interfaces en plus, qui fait et qui est responsable de quoi, ruptures de contexte – de compétence – de savoir).

Exemples :

  • Organisation : CDO, data manager, data steward, data analyst, data architecte, datalab… une troisième organisation « à côté » qui doit parler aux métier, à l’IT, qui oblige l’IT à passer par elle pour parler données et réciproquement, qui oblige le métier à passer par elle pour parler données
  • Outils – moyens : data management – data catalog, data lineage, data qualité… « à côté » des systèmes opérationnels – parfois en mode déclaratifs et qui nécessitent une couche d’intégration supplémentaire,
  • Gouvernance : data literacy, data strategy – « à côté » du quotidien (cf article https://www.datassence.fr/2022/11/25/data-literacy-vivre-la-data-au-quotidien/), de la stratégie d’entreprise

Mon avis : sauf si on ne peut pas faire autrement, cette troisième composante data est à éviter et pose plus de problème qu’elle n’en résout.

HBR évoque cela sur la data strategy – Référence https://hbr.org/2023/06/your-data-strategy-needs-to-include-everyone

Extrait : « Digging still deeper, it is easy to understand the root causes of these disappointing realities:  Companies have essentially “bolted data onto” their organization charts, naming Chief Data and Analytics Officers, establishing Centers of Excellence, and hiring highly-educated data scientists, then turning them loose with few guidelines and little supervision. That some succeed is a testament to the tenacity of the few, who’ve overcome organizational hurdles against long odds. Data leaders are not blind to the issues. They’ve hired data wranglers and engineers to help overcome bad data and product managers to help better connect to the business. Still, it all feels like an elaborate (and largely futile) game of “whack-a-mole.”  Continuing down the current path is ill-fated. »

SQL toujours bien là !

SQL reste le moyen le plus utilisé pour manipuler les données … relationnelles mais aussi d’autres représentations via des conversions (exemple parcours de graphes).

La norme SQL 2023 a été finalisée début juin – voir les nouveautés décrites ici :

https://sgbd.developpez.com/actu/345162/La-norme-SQL-2023-est-finalisee-et-livree-avec-de-nouvelles-fonctionnalites-pour-le-format-JSON-des-modifications-du-langage-SQL-existant-et-les-requetes-sur-les-graphes-de-proprietes/

NB : de nombreuses plates-formes data sont construites sur un noyau central basé sur un moteur SQL.

Mais SQL voit fondre sur lui un concurrent l’IA générative et le dépasser : le graal interroger les données directement en langage naturel et même être capable de s’affranchir d’une structure des données connue à l’avance (principe du modèle relationnel).

  • Comment ChatGPT permet de traduire des entrées en langage naturel en SQL ?
  • Comment utiliser les IA génératives pour générer des requêtes de type SQL pour les images et les vidéos ?
  • Comment interroger des données non au format relationnel ?

Des éléments de réponse dans ces références : https://towardsdatascience.com/how-i-turned-chatgpt-into-an-sql-like-translator-for-image-and-video-datasets-7b22b318400a?source=rss—-7f60cf5620c9—4 et https://towardsdatascience.com/analyzing-humanitarian-data-unstructured-excel-tables-with-chatgpt-code-interpreter-ccb8cabfa146?source=rss—-7f60cf5620c9—4

Evolution du paysage des données … ce qui change depuis 5 – 10 ans

Lire l’excellent article qui mériterait une analyse détaillée : data first – dataos – datacentric, les concepts qui orientent la définition des plates-formes datahttps://www.kdnuggets.com/2023/06/evolution-data-landscape.html

On y parle :

  • Evolution des différentes approches en termes de définition de Stack de données : Traditional Data Stack, Modern Data Stack et maintenant First Data Stack avec l’idée de convergence fonctionnelle vers cette dernière approche.
  • Le best of breed est couteux (comprendre chaque brique, traiter les redondances, gérer l’intégration … et souvent en échec), le tout intégré est lourd et tire le problème de la centralisation (voir dans cette catégorie les offres cloud – datalake – Snowflake – Databricks), l’approche DataOS – framework data first serait le bon équilibre.
  • L’analyse du TCO est révélatrice d’un cout élevé de nombreuses plates-formes data (et des efforts cachés – voir ce qui est dit sur la partie maintien en condition opérationnelle qui prend le pas sur le delivry business !)
  • Data First Stack comme la solution émergente des douleurs précédentes (data lake – modern data stack, best of breed). L’idée centrale : des solutions data construites méta-data centric ! Autrement dit les données sont elles mêmes vues comme des objets, que des plates-formes data doivent manipuler et qui sont donc conçues à partir de la structure de ces objets (comme pour un CRM, l’objet central c’est le client, ici l’objet central ce sont les données) … L’article va plus loin et parle de DataOS. Pour se faire mal à la tête, on peut parler de solution bâtie sur une logique data centric pour faire du data centric et délivrer du data driven (voir article …). Les métadonnées sont alors naturellement au centre de cette approches.
  • Avec l’idée de fond : « The Data Operating System (DataOS) is the data stack that puts data first and understands organisations have to be users of data, not builders of data infrastructure. »

NB : avec un nouveau passage sur le stress des CDO – voir point précédent « Data leaders, including CDOs and CTOs, soon felt the burden of unrealised promises on investments which were at the scale of millions of dollars. Incremental patch solutions created as many problems as they solved, and data teams were back to the fundamental problem of being unable to use the rich data they owned.

The absence of futureproofing was a serious risk for leaders, with their tenure in organizations cut to less than 24 months. To ensure CFOs see returns, they latched onto trending data design architectures and new tooling innovations that unfurled new promises. »

Sinon dans les réflexions d’architectures et de solutions data :

– Databricks ajoute une fonctionnalité Lakehouse fédération, tout simplement la capacité à rendre visible des données extérieures à sa base de données, par la fédération de requêtes. On est ici dans la convergence des plates-formes data vers une même couches de fonctions data.

« Ideally, of course, Databricks would like everyone to use its platform, but the reality is that even though enterprises want to simplify their infrastructure, it’s very hard to move data platforms. “This allows you to at least have a single interface for users and a single place to manage that,” Zaharia explained. Often, companies try to build a system like this in-house, which tends to be costly and complicated (and often fails). » – Référence https://techcrunch.com/2023/06/28/databricks-builds-a-data-mesh-with-the-launch-of-lakehouse-federation/

Les freins récurrent dans l’exploitation des données – retours d’expérience et encouragement à la bascule d’une conception data centric – Data-centric development (DCD) dans l’article – Référence – https://www.datasciencecentral.com/data-centric-development-a-hypothetical-tech-manufacturing-example/ extraits :

« The information systems at both companies are typical of what I’ve encountered during my 35 years here in the Valley. The companies are both well-managed and profitable. But the data architecture ultimately fails. The failure is because of the propensity to balkanize or strand data that should be consistently woven into a unified, discoverable whole, so that the right information can get to where it needs to be at the right time, for the right purpose(s). »

Et « The result is time wasted and a workforce underutilized. The workforce spends considerable time either working around information gaps, or searching for information that’s been buried or isn’t in the correct form to be able to finish tasks. Time that could be spent on higher-order activities instead has to be spent with extra data entry, emails, meetings, or phone calls to address small issues that invariably gum up the process.

How data-centric development opens new opportunities »

Avec toujours l’importance du contexte dans l’exploitation des données : « Both broad pattern and entity/event context modeling can be used to model the business. A primary objective with DCD is contextual computing: data explicitness, clarity and reuse potential derives from developers helping to build each relevant context, such as department, business line, partner or supplier context. »

Et dans l’idée data centric et de conception de fonctions collaboratives ad hoc à partir des données – voir l’exemple https://www.journaldunet.com/ebusiness/internet-mobile/1522825-l-aeroportuaire-premier-chantier-de-valorisation-de-la-donnee-pour-hub-one-data-trust/

Une vue sur le Dataops https://hevodata.com/blog/dataops-culture/. NB : à mon sens vue générique (qui ne s’applique pas uniquement au sujet dataops) et illustre une approche compliquée et lourde. Si le Dataops n’est pas intégré nativement dans les plates-formes data… c’est compliqué (voir le sujet précédent sur la data « à côté ») !

Le top 3 des tendances en architecture data et comment l’IA LLM les influence.

1) Idée de copilote IA pour aider les architectes en particulier la création de modèle et des requêtes SQL.

2) Des données sans contexte n’ont pas de valeur « Data context includes business or technical metadata, governance or privacy needs, and accessibility or security requirements. ». L’IA comme facilitation à l’ajout d’une couche de contexte : sémantisation d’une base de données vectorielles, module d’IA dans les pipelines pour détecter des natures de données (exemple données personnelles)

3) Idée d’écosystème data visant à éliminer les frictions de l’intégration en la rendant complètement fluide entre les composants / vues sur les données. NB le rôle des LLM n’est pas expliqué sur ce dernier point. Mais cet idée d’écosystème et de fluidité d’intégration est clé.

Référence – https://towardsdatascience.com/the-top-3-data-architecture-trends-and-how-llms-will-influence-them-ac60ae4e2fc8

Voir aussi le rôle de l’IA :

La levée de fond de 15 millions de dollars pour une solution open source de définition des schémas de données par le codehttps://ariga.io/  (NB : quelque chose de familier dans le monde SQL depuis longtemps, avec ici l’idée d’introduire des fonctions de gouvernance, de data management – type migration, de capter automatique les changements de schémas, de mettre à disposition les métadonnées de schéma pour enrichir des contextes de données) – Référence https://techcrunch.com/2023/06/01/ariga-is-helping-developers-define-database-schema-as-code/

L’idée d’unified data model « Unified data models (UDMs) centralize data from heterogeneous data sources (think CRMs, ERPs, or BI tools) thanks to a singular access point. All this data gets stored in one data warehouse, which lets a business’s data teams analyze all that centralized data to come up with AI/ML-based learning algorithms.

You can think of a UDM as a database schema; UDMs use integration identification to de-cluster data stored in various places. After this de-clustering occurs, all the data from those disparate sources gets stored in a single data warehouse. » – Référence https://www.dataversity.net/should-you-consider-a-unified-data-model/

Commentaire : Mais est-ce réaliste ? Il suffit de penser aux échecs des nombreuses initiatives de définition de modèles d’entreprise (trop long, N définitions d’un même « objet » – qu’est-ce qu’un client, hors sol par rapport à la réalité implémentée dans les systèmes, qui en est responsable…). La logique de domaine est plus réaliste sans éliminer des domaines transverses d’entreprise (voir aussi l’article : https://www.datassence.fr/2023/03/30/data-mesh-et-referentiels-de-donnees-dentreprise-est-ce-compatible/ ). NB : une grande institution a renoncé à cet exercice de vue unifiée, pour laisser chaque domaine s’exprimer localement et se concentrer sur les interfaces au moment où l’interopérabilité est attendue (qu’un conflit, une friction va mettre en lumière).

Pour finir une présentation qui peut donner des idées sur le lien et la complémentarité entre data gouvernance et data architecture. Dont le message « Metadata Makes Data Governance Actionable » – et les métadonnées doivent être correctement gérées-délivrées par la data architecture. Référence – https://content.dataversity.net/rs/656-WMW-918/images/2023_MAY_DAS_Slides.pdf

Actualité master data management convergence des plates-formes data

Le Forrester sort une étude sur les solutions : « Ataccama, IBM, Informatica, Precisely, Profisee, Prospecta Software, Reltio, SAP, Semarchy, Stibo Systems, Syndigo, Syniti, Tamr, TIBCO Software, and Viamedici. »

Les plates-formes MDM suivent la tendances des plates-formes data : synchronisation temps réel, fonctions data complémentaire, intégration cloud, automatisation appuyée par l’IA (merge, dédoublonnage, mise en qualité, enrichissement…)

Avec l’idée de convergence vers une vision fonctionnelle commune des plates-formes de données, quel que soit leur origine, data management, data analytics, data pipelines, data quality, construction d’apps data et de data products, data shop… et donc s’intègre également dans cette convergence les solutions de master data management.

Exemples :

Informatica : https://www.informatica.com/blogs/introducing-intelligent-data-management-cloud.html

https://www.informatica.com/content/dam/informatica-com/en/collateral/data-sheet/informatica-multidomain-mdm-saas_data-sheet_4305en.pdf

Precisely : https://www.precisely.com/fr/solution/solutions-dintegrite-de-donnees  

Référence : https://www.bigdataparis.com/produits/644939a9a130f80068032e12

Semarchy : https://www.semarchy.com/platform/

Des chiffres qui parlent, ou qui rendent fous ?

Tout est dans le titre de cet article à lire – du connu mais à répéter, répéter … https://gillesmartin.blogs.com/zone_franche/2023/06/des-chiffres-qui-parlent-ou-qui-rendent-fous-.html

En vrac (actualité open data, physicalisation des données, data et santé, activisme green data, régulation des données, data quality, decision intelligence)


RDV maintenant (peut-être) en août pour la revue et les actualités de juillet !


L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.