Dernière modification le 21 septembre 2023
Cette revue est basée sur un ensemble de publications des mois de juillet et août 2023, issues de sources en lien avec le sujet Data. A piocher suivant vos centres d’intérêts.
Pour cet été, trois publications intéressantes (baromètre metradata de l’ESSEC, CNIL dossier données, empreinte et libertés et DATA ET SPORT, LA REVOLUTION : Comment la data révolutionne le sport), l’interopérabilité – la portabilité des données, sécurité des données un sujet pas simple, la guerre de la récolte des données fait rage pour alimenter les IA, le collaboratif est clé pour les données (data science, data gouvernance, data literacy) et encore des sujets singuliers comme la data visualisation 3D guidée par l’IA, etc..
Et pour le reste, un rapide tour d’horizon d’une sélection d’articles data.
Sommaire :
- Trois publications intéressantes cet été
- Interopérabilité – portabilité – standardisation
- La guerre de la récolte des données pour les IA est lancée
- Moderne Data qualité : quelle modernité ?
- Data sécurité
- Régulation : Adoption du Data act et décision sur les transferts de données entre l’Europe et les US
- Data science collective, étendue et augmentée par l’IA
- Sujets singuliers : données et incertitudes, traçabilité, data visualisation 3D guidée par l’IA, situations de décision et données, enrichir le contexte de ses données par des données tiers
- En vrac (données synthétique, data démocratisation, data obervability, data catalog, open data, car data privacy)
Trois publications intéressantes cet été
1) Gouvernance des données : un excellent baromètre dans les entreprises françaises par la chair gouvernance de l’information de l’ESSEC – https://chairestratgouvinfo.essec.edu/ voir le baromètre MetraData – juillet 2023
2) La CNIL publie le cahier IP9 – Données, empreinte et libertés. Pitch « Ce 9ème cahier IP propose une exploration des intersections entre protection des données, des libertés, et de l’environnement : protéger les données protège-t-il la planète ? Nos libertés sont-elles en transition ? Faut-il partager les données pour protéger l’environnement ? Des tentatives de réponses et des recommandations pour rapprocher deux objectifs. »
Les grandes parties :
- Le numérique invisible, ses technologies (IoT, 5G, IA, Blockchain, Bitcoin, metavers…), sa place dans l’économie (dont dans la publicité) et sa croissance à rendre visible par son empreinte environnementale
- La protection des données réduit le volume de données utiles, la dématérialisation réduit le poids physique (e-services versus se déplacer, ticket numérique versus papier)
- Faire converger écoconception des services numériques et privacy by design
- Mettre les données au travail et au service de l’environnement : contrôle, quantified self, optimiser les déplacements, l’utopie ( ?) d’un compte carbone adossé à nos actions … et les tensions entre liberté et contrôle environnemental
- Partager les données environnementale
- Et la dernière partie des pistes de rapprochement protection des données et environnement
Commentaire : l’exercice de rapprochements est intéressant, une matière première compilée qui reprend tous les sujets connus d’actualité du numérique, un peu trop de mélanges sans forcément dégager des valeurs, des étincelles de rapprochement à mon gout (exemple la collecte collective de données environnementale et la question du RGPD… oui et alors ?) … reste à dégager un cadre de pensée, d’action et de gouvernance. Bref tout est à faire.
Source : https://linc.cnil.fr/cahier-ip9-donnees-empreinte-et-libertes
3) Enfin, la publication le 30 août, de l’ouvrage DATA ET SPORT, LA REVOLUTION: Comment la data révolutionne le sport – Editions de l’Observatoire. Auteurs Yannick Nyanga et Aurélie Jean.
Lecture démarrée et début prometteur : super exercice de vulgarisation du sujet par un duo totalement légitime Y. Nyanga international de Rugby, entraîneur au Racing 92 A. Jean autrice de plusieurs ouvrages de référence sur le monde numérique. Au bout de quelques pages, on voit tout de suite ce que les entreprises peuvent en tirer comme enseignement. Fiche de lecture ici : https://www.datassence.fr/2023/09/21/fiche-de-lecture-de-louvrage-data-et-sport-la-revolution-comment-la-data-revolutionne-le-sport-editions-de-lobservatoire-auteurs-yannick-nyanga-et-aurelie-jean/.
Source : https://www.editions-observatoire.com/content/DATA_ET_SPORT_LA_REVOLUTION
Et sur le même sujet un article : https://www.journaldunet.com/solutions/dsi/1524411-bienvenue-dans-l-ere-des-athletes-augmentes-par-la-data/
(voir aussi données et sport dans les revues data précédentes : https://www.datassence.fr/2023/04/12/revue-data-du-mois-mars-2023/#_ftn13, https://www.datassence.fr/2022/12/08/revue-data-du-mois-novembre-2022/#_ftn5a et https://www.datassence.fr/2022/10/27/revue-data-du-mois-octobre-2022/#_ftn6 )
Interopérabilité – portabilité – standardisation
Les données ont de la valeur, pour l’exprimer il faut faciliter leur circulation et leur insertion dans des environnements qui ne sont pas leur environnement d’origine. C’est le rôle des normes et pratiques d’interopérabilité, de portabilité et de standardisation.
Sources :
https://www.techcrunch.com/2023/07/31/google-data-portability-commitments-italy/
https://www.weforum.org/agenda/2023/08/data-standards-supply-chains-circular-economy/
https://www.datasciencecentral.com/4-data-compliance-standards-to-know-for-2023/
La guerre de la récolte des données pour les IA est lancée
Une série d’articles pour comprendre :
Que les jeux de données supports aux IA est un secret difficile à percer.
Que les grands opérateurs de données imposent leurs conditions d’utilisation nourrir leurs IA (Google aspire le web pour entraîner son IA, Facebook contourne le consentement).
Qu’il y a une lutte entre ces opérateurs, les uns interdisant aux autres d’utiliser leurs données (Twitter / X, Reddit cherche à protéger leurs données).
Que des jeux données pirates circulent et sont utilisés pour entraîner les IA (exemple Book3 et ses 200 000 livres).
Que des révoltes grondent un peu partout :
- Zoom annule dans ses conditions son droit à utiliser les données de ses utilisateurs pour entrainer son IA.
- OpenAI lance un robot qui aspire le web pour entraîner GPT5 et on peut interdire à son robot d’exploiter les contenus de son site web.
- Plainte de 10 000 auteurs aux US qui réclament justice du fait de l’utilisation de leurs textes par des moteurs d’IA.
- Plaintes des personnes sous payées, qui labélisent, modèrent les données nécessaires aux IA. Mais des vastes usines se mettent en place avec des outils permettant d’augmenter la productivité de ces personnes.
- Les médias bloquent l’accès à leur contenu – exemple The Guardian.
- Que des droits fondamentaux sont remis en cause : droits d’auteur (copyright), droit sur ses données personnelles (RGPD).
Que certains envisagent (et le font) de créer des données empoisonnées que les IA exploiteraient à leur détriment … mais mettent en place des moyens de décontamination.
Sources :
Une série d’article sur lebigdata.fr : https://www.lebigdata.fr/google-nourrir-ia un tour d’horizon ici https://www.lebigdata.fr/revolte-ia et aussi https://www.lebigdata.fr/chercheur-plainte-chatgpt-rgpd
https://www.lebigdata.fr/openai-gptbot
https://techcrunch.com/2023/08/18/ai2-drops-biggest-open-dataset-yet-for-training-language-models/
https://blog.allenai.org/dolma-3-trillion-tokens-open-llm-corpus-9a0ff4b8da64
Et encore :
https://www.wired.com/story/facebook-trains-ai-your-data-opt-out/
Voir aussi sur ce sujet, les travailleurs du clic en référence à l’ouvrage de Antonio A. Casilli https://www.casilli.fr/tag/travail-du-clic/ . Avec comme exemple récent en Finlande l’emploi de prisonniers pour produire des données qui alimenteront les IA – source : https://www.wired.com/story/prisoners-training-ai-finland/
Moderne Data qualité : quelle modernité ?
La qualité des données est un sujet récurrent.
En cet été, exploration d’articles sur l’idée de moderne data quality… qu’est-ce que couvre cette idée de modernité ?
https://www.datasciencecentral.com/difference-between-modern-and-traditional-data-quality-dqlabs/ – particularité de nouvelles formes et sources de données (IoT, réseaux sociaux..), volumes, aspect temps réel, apport de l’IA par la détection de patterns de non qualité, le bénéfice d’une gouvernance des données globale et non uniquement dédié à la qualité et pour finir la qualité comme processus continu.
https://www.datasciencecentral.com/modern-data-quality-management/ – rien de nouveaux !
https://towardsdatascience.com/the-hidden-cost-of-data-quality-issues-on-the-return-of-ad-spend-dd8c99b3289e?source=rss—-7f60cf5620c9—4– situations en défaut montrant l’importance de l’observabilité en lien avec la gouvernance
https://blog.masterdata.co.za/2023/08/18/data-quality-management-tool-what-to-look-for/– un tour d’horizon « contemporain » de la qualité des données, la qualité des données n’est plus seule, elle est intégrée dans une vision plus large opérée par la gouvernance des données.
Data sécurité
Sujet aux multiples dimensions : cybersécurité, gestion des autorisations, sensibilité des données, gouvernance des données (dont la politique de sécurité des données), devoir lié à la réglementation en cas de vol de données, gestion des risques, contrôle tout au long du cycle de vie des données, rôle des métadonnées…
Quelques liens de l’été sur le sujet :
- https://readwrite.com/your-data-protection-checklist/ et aussi https://readwrite.com/data-security-and-privacy-challenges-in-hr-software-development/
- Osano https://www.osano.com/ lève 25M$ pour développer sa plate-forme de data privacy management dédiée à la confidentialité – avec une offre de service de veille sur la réglementation et l’accompagnement d’avocats – “Osano is a data privacy platform helping organizations build, manage and scale their privacy programs from the ground up,” https://techcrunch.com/2023/08/10/osano-a-data-privacy-management-platform-nabs-25m/
- L’idée de traiter la sécurité dans un datalake dédié …mais la sécurité doit être partout et non uniquement dans un silo de plus … la tension entre sécurité et circulation des données est le défi le plus compliqué pour la gouvernance des données https://www.datasciencecentral.com/security-data-lakes-and-the-future-of-organizational-security/
- Un sujet vieux comme les données, le marquage et hachage au service du contrôle d’intégrité des données – https://dataconomy.com/2023/07/11/what-is-md5-algorithm-how-does-it-work/
- Lever les freins dus à l’accès aux données pour alimenter les moteurs d’IA : la solution utiliser des données synthétiques dont l’accès n’est pas une contrainte (Attention aux données synthétiques … avec le risque de fausse bonne solution voir aussi revues précédentes). Source : https://www.kdnuggets.com/2023/07/mostly-data-access-severely-lacking-synthetic-data-help.html
Régulation : Adoption du Data act et décision sur les transferts de données entre l’Europe et les US
Sources :
https://www.entreprises.gouv.fr/fr/actualites/adoption-du-data-act-au-conseil-de-l-union-europeenne
Data science collective, étendue et augmentée par l’IA
Retour en force de l’aspect collectif dans la data aussi bien du côté gouvernance des données que data science (avec des tournois de données, la remise au gout du jour des communautés de pratique et du knowledge management).
Voir l’exemple de Numerai https://numer.ai/
« The brilliance of Numerai lies in its ability to leverage the collective intelligence of its global network of traders. Through a process called “staking,” participants submit predictions on encrypted data sets, the combination of which, when decrypted, forms the foundation for their trading decisions. The decentralized nature of Numerai’s approach allows for a diverse range of strategies and perspectives, ensuring a robust and unbiased selection of winning models. »
Source : https://www.smartdatacollective.com/technical-analysis-changing-quickly-in-era-of-big-data/
« La data collaborative : une nouvelle frontière à franchir » pour la SNCF. « Aujourd’hui, chaque acteur du secteur – exploitants, constructeurs, mainteneurs d’infrastructures – travaille dans son coin, recueillant et analysant ses propres données. »
Développement de l’idée de « interpersonal knowledge graph (KG) » – collaboration visant s’appuyant sur des réseaux de données en peer to peer et via l’appui de la norme Interplanetary File System (IPFS). Ou encore l’utilisation de plates-formes de type Hypothes.is
Un tour du côté de l’idée de data team :
Source : https://readwrite.com/how-to-build-an-efficient-data-team-to-work-with-public-web-data/
Sujets singuliers : données et incertitudes, traçabilité, data visualisation 3D guidée par l’IA, situations de décision et données, enrichir le contexte de ses données par des données tiers
1) Quand le machine learning combiné au raisonnement Bayesien défie l’incertitude.
Source : https://dataconomy.com/2023/08/22/bayesian-reasoning-and-machine-learning/
(NB : sur le raisonnement bayesien à lire – LA FORMULE DU SAVOIR Une philosophie unifiée du savoir fondée sur le théorème de Bayes – de Lê Nguyên HOANG https://laboutique.edpsciences.fr/produit/1035/9782759822614/la-formule-du-savoir
2) La traçabilité des produits peut remonter maintenant jusqu’à leur origine naturelle : https://oritain.com/our-science/oritain-science-explained/
« Science can tell you the true origin of a product. Plants and animals are creatures of their environment and what they eat or drink is absorbed into their flesh, leaving natural concentrations of trace elements and isotopes. This is what we measure. »
3) Data visualisation : nouvelle forme de navigation dans les données – 3D, guidée par l’IA
https://techcrunch.com/2023/08/10/data-visualization-startup-virtualitics-lands-37m-investment/
At a high level, Virtualitics uses 3D visualizations, knowledge graphs and AI to expose the relationships between different points of data. Given a data set (or several), optionally along with a question in plain English (e.g. “What drives credit card skimming?”), the platform can generate annotations and explanations, which can then be embedded in reports and dashboards and shared with stakeholders across an organization.
Source : https://virtualitics.com/ready-to-use-ai/#ai-driven-exploration
4) Les situations de décision déterminent le rôle des données
There are two axes by which you can neatly segment decision-making: urgency of the decision, and importance of the decision. Depending on where your decision resides in the Punnett square, the involvement of analytics can and should differ.
Exploitation du quadrant de Punnett (NB l’auteur de l’article parle de ce quadrant, mais il se référerait plutôt à la matrice de décision d’Eisenhower – https://fr.wikipedia.org/wiki/Matrice_d%27Eisenhower )
- Les données arrivent en second en situation de crise (urgence de décision et importance de la décision). Avec le principe universel : « And as much as you could get stakeholders to a better decision given enough time, you don’t have enough time, and a 80% correct decision now is infinitely more valuable than a 90% correct decision tomorrow. »
- Elles sont dominantes en situation établie (importance de la décision et pas de situation d’urgence : analyse poussée)
- Cela ne vaut pas le coup d’investir dans l’analyse : décision peu importante, situation d’urgence ou situation établie.
Image par Robert Yi : https://ryi.medium.com/?source=post_page—–3dcf5e2753ae——————————–
5) Trouver des données tiers pour enrichir le contexte de ses données
https://towardsdatascience.com/why-data-is-not-the-new-oil-and-data-marketplaces-have-failed-us-b42dd87a0ba0?source=rss—-7f60cf5620c9—4 – quand des données tiers éclairent vos données (exemple détection de spam et nom de domaine du spam récent), mais avec le problème de les trouver et qu’un tiers se soit rendu compte de leur valeur potentielle.
https://www.forrester.com/blogs/why-third-party-data-isnt-going-anywhere/
Et les problèmes que cela peut poser :
En vrac (données synthétique, data démocratisation, data obervability, data catalog, open data, car data privacy)
Données synthétique
Article tour d’horizon : https://towardsdatascience.com/what-is-synthetic-data-e4820ccebfcf
Data démocratisation
Data obervability
Data catalog
Open data – relai de l’actualité toujours riche https://www.opendatafrance.net/2023/08/31/lactualite-opendata-du-mois-14/
Car data privacy … le prochain RGPD ?
Dans la même idée sur l’éthique et IoT https://readwrite.com/ethical-considerations-in-iot-data-collection/
RDV maintenant en octobre pour la revue et les actualités de septembre !
Les commentaires sont fermés.