Press "Enter" to skip to content

L’IA pour et par les data platforms

C’est un passage obligatoire. Si vous ne saturez pas, je vous propose un tour d’horizon sur comment les data platforms du marché prennent en compte l’IA.

Sommaire :

Synthèse

1) Rebaptisations de nombreuses « data platforms » en « data intelligent platform »

2) L’argument systématique des atouts de la data platform pour préparer les données (de qualité) indispensables à l’IA (« leverage AI by trusted data »).

Mais attention aux spécificités de l’IA en termes de données : rôle des données non structurées (dont leur qualité documentaire), format de stockage (bases vectorielles par exemple pour certaines IA), mode de représentation, segmentation des datasets pour les besoins des modèles, accolage de métadonnées (labels, balises), résultats produits nécessitant des contrôles spécifiques…

3) Deux axes de prise en compte de l’IA :

Axe 1 : L’IA au service des data platforms -> Copilotage voire autopilotage. Appui aux fonctions utilisateurs / développeurs des platforms.

Axe 2 : Les data platforms au service de l’IA (gestion des données, gestion des modèles, traitements IA intégrés dans les pipelines de données). Appui à la mise en place de solutions IA dans les entreprises.

4) Et tout cela pour partie en devenir (mais cela va vite) … Intégration « in progress » – previews nombreuses … coming soon.

De façon plus précise que font les data platforms ?

Avec l’IA générative : copilotage

  • Génération de contenus descriptifs d’objets produits par la data platform : datasets, glossaire-définition, pipelines, catalogage, labélisation (tags) automatique ou assistée des données, génération d’explications de data visualisations, étiquetage (métadonnées) automatique, remplissage automatique de formulaires réglementaires liés aux données.
  • Navigation, interrogation, recherche dans les données en langage naturel : Text to SQL, dialogue d’appui pour construire des analyses et tableaux de bord.
  • Appui aux développements : recommandation de cas d’usage – de datasets, suggestion des étapes de pipelines de traitements, pré-codage, traduction de codes (exemple migration SAS vers R), rapprochement de données similaires, d’entités (entity resolution), proposition de règles qualité, de règles de contrôle (exemple accès aux données), mapping sémantique avec les métadonnées techniques, adossement des métadonnées – contextualisation des données nécessaires à l’IA, génération de données de test.
  • Appui au data stewardship : explication de problématique qualité – génération de diagnostiques, dialogue sur les données (interrogation des données concernées par une problématique).
  • Génération de données synthétiques (voir https://www.datassence.fr/2024/02/10/revue-data-du-mois-janvier-2024/#_ftn6).
  • Annoncés dans les tendances data 2024 :
    • Génération de data products,
    • Appui à la génération de couches unifiées sémantiques des données pour la contextualisation (RAG – retrieval augmented generation),
    • Renforcement de la protection des données contrôlées par les moteurs d’IA (respect des politiques de données, sécurité – exemple RAG – en mode sécurisé).

Avec l’IA traditionnelle (classification, détection de patterns) au service de l’observabilité des données : surveillance qualité des données, surveillance des traitements, surveillance de changement de comportement vis-à-vis de certaines données, sensibilité des données – détection et classification des données à risque.

Adjonction de briques de traitements IA dans les pipelines de données pour les cas d’usage client (exemple classification, reconnaissance de patterns, génération de contenus, extraction de données d’un pdf, transformation d’enregistrements sonores, vidéos en textes, recueil de données structurées à partir de conversations…).

Gestion de modèles d’IA de bout en bout : LLMOps, MLOps…

Ajout de fonctions dédiées IA stewardship – appui aux actions manuelles : curation, labélisation, contrôle des IA (vérification des résultats, contrôle des prompts en entrée).

Stockage des données dédié IA : vectoriel, feature store.

Tour d’horizon de ce que présentent les data platforms du marché (revue février / mars 2024)

Alteryx (AiDIN)

Source : https://www.alteryx.com/fr/wp-content/uploads/media/whitepaper/alteryx-approach-to-generative-ai-for-analytics-whitepaper-fr.pdf

1) Au service des développements dans la platform.

IA générative :

  • Génération de la documentation des pipelines / workflows,
  • Génération de supports de communication incluant les insights produits via Alteryx : email, PPT (public visé, ton, langue, avec recommandations…),
  • Recommandation de cas d’usage en fonction des données et pipelines existants connus (voir aussi le module auto-insight),
  • Copilotage de développement : en entrée prompt de la restitution analytique envisagée (combien de personnes à Denvers avec un salaire supérieur à 80K et qui ont été embauché dans les 20 derniers jours ?), génération explicative des étapes de construction du pipeline permettant d’aboutir au résultat,
  • Suggestion de traitements sur les données résultat d’un pipeline (à partie des métadonnées) : transformations possibles.

Appui au module auto-insight : proposition de modèles (données et métadonnées contextuelles), de suggestion d’insights et de parcours possibles dans les données.

Source : Alteryx

2) Au service des besoins / cas d’usage IA

Appel de modules d’IA intégrables dans les pipelines

  • IA « traditionnelle »
    • Extraction de données à partir de textes, d’images
    • Classifications
    • Text mining
    • Production d’insights : prédictif…
  • IA générative : connecteur OpenAI intégrable dans les pipelines (production de contenu, traduction…)

Gestion d’une couche de vérification des résultats produits par une IA : recoupement avec les données sources ou des étapes de vérification humaine.

Préparation des données dont possibilité de génération de données synthétiques adaptées aux besoins des moteurs d’IA.

Personnalisation (ajustement des modèles avec des données d’entreprise) et déploiement de LLM privés (gestion des modèles) pour alimenter des pipelines analytiques. Idem pour les modèles ML (exemple pour classifier des images).

Modules de contrôles des prompts d’interaction avec les IA génératives (sécurité, éthique).

Databricks – Data intelligent platform

Source : https://www.databricks.com/fr/product/machine-learning

Développement d’applications IA.

  • Stockage vectoriel (adapté à l’IA – LLM en particulier),
  • Préparation des données pour l’IA,
  • Gestion du cycle de vie des modèles d’IA (MLOps, LLMOps, process RAG), de l’entrainement au suivi de l’exécution en passant par la personnalisation (données d’entreprise),
  • Intégration de modules d’IA dans les workflows data.
Source Databricks
Source Databricks
Source Databricks

Informatica (couche CLAIRE – de copilotage)

Mise en avant du rôle des métadonnées pour la qualité du copilotage.

Fonctions

  • Appui à la découverte de données, compréhension contextuelle des données, recommandation de données,
  • Appui à l’ingénierie de données : construction glossaire, classification / profilage automatique des données, recommandation de sources de données (et mapping) en fonction du besoin, recommandation de curation (règles qualité), traçabilité automatisée, lien entre métadonnées techniques et contexte métier, recommandation suivant le type de source et sa particularité (snowflake, oracle, redshift…),
  • Observabilité / surveillance des données :  alertes, auto-ajustement, auto-dépannage, planification intelligente, orchestration intégrée, allocation automatisée des ressources,
  • En preview : module GPT
    • Appui à la productivité des développements : ingénierie des données, catalogage, qualité, contrôles suivant les politiques (gouvernance),
    • Travail sur les données par des utilisateurs métier sans connaissance SQL.
Source Informatica
Source Infomatica
Source Informatica
Source Informatica
Source Informatica

Starburst : « The Data Platform for AI »

(confus) ?? librairie PyStarburst gestion des dataframe – Preview -> et en face annonce de la gestion de bout en bout des modèles d’IA, d’une feature store ??

“Automatic data classification, data observability capabilities, and comprehensive built-in access controls”

Générative : text to SQL, questionnement des données en langage naturel

Annoncé :

  • « Generative semantic knowledge and relationships for improved data discovery and consumption
  • Improve data quality and compliance with AI-driven automation
  • Advanced AI model optimization & enhanced data retrieval techniques »

Denodo

Annonce 2020 « Denodo Platform 8.0 Features Automated Data Management with AI and ML” – pas de mise en avant, peu/pas d’information ??

  • Deux fonctions : Text to SQL, “AI Powered Denodo Recommendations Engine in a Data Marketplace”.

Snowflake

Sources : https://www.snowflake.com/fr/data-cloud/workloads/ai-ml/https://siliconangle.com/2024/03/19/snowflake-documents-huge-growth-ai-projects/

Snowflake pour l’IA et le ML : construction et déploiement des modèles IA (ML, LLM)

  • In progress « API de modélisation ML Snowpark (bientôt disponible pour tous), Feature Store (en beta privée) et Snowpark Container Services (bientôt en beta publique) – ainsi qu’une solution dédiée à l’expérience des développeurs – Notebooks (en beta privée) ».
  • Snowflake Cortex (preview) : appui à la détection de patterns « découvrables » par ML (insights, prédictions, classification…). Amélioration de Cortex annoncées en juin : personnalisation des modèles d’IA avec des données d’entreprise.
  • En préversion privée un composant « Document AI » : fonction d’exploitation de fonds documentaires par interrogation en langage naturel

Appui au développement : document AI – Applica, en beta privée : Copilot – Text to SQL et Universal Search – Neeva.

Trois rachats récents de sociétés :

  • Neeva, recherche, interrogation, découverte de données boostées par l’IA,
  • Streamlit, orientée développeurs pour expérimenter et créer des applications d’IA génératives basées sur LLM,
  • Applica, qui utilise le deep learning pour trier les informations, quel que soit le type de données – tirer des données des documents par un LLM.

Microsoft

Investissement OpenAI.

«  Microsoft Fabric – Tirez parti de vos données à l’ère de l’IA »

Support Azure AI services.

« Copilot » partout : Office 365, Edge, Bing, Power BI, Power Automate, Github

  • Power BI : suggestion de code, résumé / explication de données, appui création data viz, interaction en langage nature (exemple élaboration de KPI).
Source Microsoft
Source Microsoft
Source Microsoft

Tableau AI (renaiming)

Source : https://www.tableau.com/products/tableau-ai

Tableau Pulse « boosté » par l’IA : appui de l’IA au développement de data viz (découverte de données, de métriques, contextualisation, recommandations de visuels, génération de résumés – explications liés aux data viz…).

Module Einstein (https://www.tableau.com/products/einstein-discovery ) : intégration de résultats produits par l’IA (prédictif … prescriptif) sans codage dans les data viz (avec barrière éthique – https://www.salesforceairesearch.com/trusted-ai ).

Qlik

Briques IA dans l’analytique (https://www.qlik.com/fr-fr/products/qlik-sense/ai )

  • Génération automatisée d’informations,
  • Recherche et interactions en langage naturel,
  • Création et préparation des données assistées par IA,
  • Prédictif.

Briques AutoML : Gestion de modèles ML

NEW stratégie d’appel à l’IA – council IA : Qlik STAIGE (https://fr.staige.qlik.com )

  • Exploitation de l’IA générative :
    • Construction de glossaire,
    • Interrogation des analyses, des données en langage naturel.
Source Qlik
Source Qlik

Dremio

Copilotage (IA générative) : text to SQL, génération de labels et de wikis.

Coming Soon: Vector Database Capabilities, Autonomous AI‑Driven Semantic Layer (« automatically learning the user’s data, such as identifying zip codes and providing dataset descriptions, Dremio eliminates the need for manual catalog population. Additionally, it learns the workload and creates Reflections to accelerate query performance.”).

Source Dremio
Source Dremio

Domo : déclinaison d’une version spécialisée IA

AI model management (ex MLOps : création, entraînement, management – paramétrage, déploiement – endpoint, gouvernance).

Coming soon : “Conversational Insights

  • Text-to-SQL—generates SQL queries from natural language text (create Dataset Views using natural language prompting, calculated field…).
  • Text generation—automates writing processes, generating reports with less manual effort, dataset description.
  • Text summarization—condenses lengthy information such as reports and customer feedback into concise summaries.”

Clicdata

Source : https://www.clicdata.com/fr/plateforme/

Non consulté – livre blanc : https://www.clicdata.com/ebooks/the-future-of-bi-artificial-intelligence/

Source Clicdata

Savant

Source Savant – https://www.savantlabs.io/

Cinchy

Data collaboration -> collaborative intelligence (IA en appui à la collaboration)

Source : https://cinchy.com/ai-operationalization

Argument de la data platform pour préparer les données nécessaires à l’IA.

Identifié : l’IA automatise(rait ?) les tâches (définition des règles d’accès dès qu’un nouvel ensemble de données est intégré, contrôle qualité par l’IA).

K2view

« Synthetic Data Generation Tools »

Source : https://www.k2view.com/solutions/synthetic-data-generation-tools/

Opendatasoft

Source : https://www.opendatasoft.com/fr/blog/produit-la-recherche-intelligente-accelere-lutilisation-des-donnee-a-grande-echelle-grace-a-lia/

Identifié décembre 2023 (moteur de recherche basé sur l’IA au sein du portail data -> augmenter l’accès aux données) : « Opendatasoft lance une nouvelle fonctionnalité fondée sur l’IA : la recherche sémantique basée sur un modèle vectoriel pour une découverte facilitée et enrichie des données d’une organisation sur un portail de données. »

Envisagé : « recommandations de jeux de données similaires à ceux recherchés, de proposer une recherche élargie sur tous les formats de données, de mettre à disposition des outils de création assistée de data visualisations ou encore de faciliter les processus de traduction. »

Suadeo

source : https://suadeo.fr/intelligence-augmentee/

Chatbot utilisateur – recherche de données, poser des questions sur les données, apprentissage à partir des requêtes / questions les plus fréquentes posées.

Dataiku

(NB : une des offres les plus riches sur le sujet).

Sources : https://www.dataiku.com/product/dataiku-for-ai-ml/ – https://www.dataiku.com/product/key-capabilities/generative-ai/ – https://www.dataiku.com/product/key-capabilities/machine-learning/

Dataiku ML (machine learning : clustering, prédictif, reconnaissance de patterns, time series forecasting…)

  • Aide à la découverte des « features » (champs de données support aux moteurs d’IA) et à leur rassemblement parmi les datasets connus pour les besoins des projets IA,
  • Support de modèles ML dans le cadre de développements data science : de la préparation des données, à la validation des modèles en passant par leur construction.

Dataiku LLM Mesh : Support à la création d’IA génératives

  • Préparation des données, filtrage des données personnelles,
  • Appui à la conception des prompts (Prompt studios) : design, comparaison de performance, validation,
  • Modération des réponses,
  • Augmentation des modèles par la prise en compte des données internes courantes (approche RAG) – exploitation de la recherche sémantique proposée par Dataiku,
  • Supervision,
  • Contrôle des coûts d’exécution – LLM cost guard,
  • Invocation multi-fournisseurs d’IA génératives : OpenAI, Azure, AWS, Hugging Face.

Copilote – appui au codage

  • Etapes de préparation des données,
  • Appui au codage (génération de code, commentaire, test),
  • Génération de la documentation des pipelines de traitements,
  • Appui à la conception et au test de composants de traitements de langage naturel dans les pipelines (sentiment, émotion analysis, résumés, classification de textes.
Source Dataiku

SAP

Source : https://www.lemondeinformatique.fr/actualites/lire-sap-ameliore-datasphere-et-sac-avec-la-genai-93163.html  et https://www.sap.com/france/products/artificial-intelligence.html

Compléments à l’offre Datasphère.

Fonctions « classiques » d’appui : exemple détection de fraudes, contrôle des factures (module finance), mais aussi pour la RH, la supply chain, achats … (modules SAP).

Fonctions de copilotage – outil Joule :

  • Automatiser la création et le développement de rapports, de tableaux de bord, de plans (fonction de planification de SAP – dont simulation de plans),
  • Exploitation des données non structurées – exemple factures pdf, mail,
  • Appui à l’exécution de tâches par dialogue avec le Chatbot (« Comment puis-je vous aider ? »).

Sur la base d’une couche sémantique des données d’entreprise (« base essentielle pour la mise en œuvre de cas d’usage basés sur l’IA »)

  • Avec le partenariat Collibra (comme catalogue de catalogues dont celui de SAP).

Reltio

Sources : https://www.reltio.com/why-reltio/https://www.dataversity.net/reltio-demo-revolutionizing-master-data-management-ai-driven-data-unification/

Source Reltio
Source Reltio via Dataversity

Oracle Modern Data Platform

Sources : https://www.oracle.com/fr/data-platform/https://www.oracle.com/fr/ai-infrastructure/https://www.oracle.com/fr/applications/fusion-ai/https://www.oracle.com/fr/artificial-intelligence/generative-ai/generative-ai-service/

1) Infrastructure pour l’IA – Oracle Cloud Infrastructure (OCI)

2) IA intégrée dans les applications – Oracle Fusion Cloud Applications (dont déclinaisons sectorielles)

3) Data sciences – ML

4) Services IA : Chatbots, traitements du langage naturel, vision, document understanding, détection…

5) IA générative – OCI Generative AI 

« Oracle Cloud Infrastructure (OCI) Generative AI Agents combines the power of large language models (LLMs) and retrieval-augmented generation (RAG) with your enterprise data, letting users query diverse enterprise knowledge bases. Coming soon, users will be able to access up-to-date information through a natural language interface so they can directly act on it. »

Autres sources

Voir aussi le sujet récurrent « Data et IA », abordé dans les différentes revues Data du mois proposées ici :

https://www.datassence.fr/2024/03/09/revue-data-du-mois-fevrier-2024/#_ftn2

https://www.datassence.fr/2024/02/10/revue-data-du-mois-janvier-2024/#_ftn2

https://www.datassence.fr/2023/12/05/revue-data-du-mois-novembre-2023/#_ftn3

https://www.datassence.fr/2023/09/11/revue-data-du-mois-juillet-et-aout-2023/#_ftn7

https://www.datassence.fr/2023/07/17/revue-data-du-mois-juin-2023/#_ftn1

https://www.datassence.fr/2023/06/08/revue-data-du-mois-mai-2023/#_ftn7

https://www.datassence.fr/2023/05/11/revue-data-du-mois-avril-2023/#_ftn6

https://www.datassence.fr/2023/04/12/revue-data-du-mois-mars-2023/#_ftn10


Tous droits réservés – datassence.fr. Cet article a été publié originellement sur www.datassence.fr.

L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.