Press "Enter" to skip to content

La fausse innocence des données

Dernière modification le 9 février 2024

Plan :

Introduction

Le terme « donnée » et son utilisation portent une forme d’innocence, d’idéalité. Les données seraient des faits, seraient brutes, seraient impartiales, seraient objectives et seraient la vérité terrain. Elles nous guident. Jusqu’à ce que certains en fasse la pierre angulaire de toute vérité (même scientifique) voire d’une nouvelle religion (voir le célèbre article « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete » – https://www.wired.com/2008/06/pb-theory/ et le courant dataisme – https://fr.wikipedia.org/wiki/Data%C3%AFsme ).

A la limite, une donnée seule peut sembler innocente. Mais les données ne sont jamais seules. Elles sont connectées entres-elles. Elles font partie d’ensembles allant de quelques éléments à plusieurs milliards d’éléments. Les données agissent en masse. Elles forment un volume, une toile, un maillage qui leurs confèrent un pouvoir de plus en plus important.

Derrière une donnée ou un ensemble (un jeu) de données, il y a des choix qui aboutissent à leur naissance (détermination de leurs valeurs). Ces choix peuvent alors cacher une réalité plus sombre. C’est cette partie sombre que nous allons explorer avec l’idée de lever une partie du voile de la soi-disant innocence des données.

Dans cet article, nous allons parcourir :

  • Les données empoisonnées,
  • L’offuscation de données,
  • Les données biaisées (dont les données référentes à tort et le volet des données noires manquantes),
  • Et les fausses données (dont les données usurpées).

Il existe sûrement d’autres facettes sombres. Elles peuvent se recouvrir, l’offuscation de données peut faire appel à des fausses données.

Ce tour d’horizon retient des facettes au caractère intentionnel menaçant, caché, agissant directement sur les données (négativement ou positivement suivant le point de vue où on se place) où l’innocence n’existe plus.

Exemple des données empoisonnées d’images (photos, peintures…), où l’empoisonnement peut être vu négativement pour les concepteurs d’un moteur d’IA de génération d’images et positivement pour les artistes qui souhaitent protéger leur œuvres.

Attention, la frontière entre des données manipulées et des données supposées exactes (on verra que définir l’exactitude d’une donnée est une chose difficile) n’est pas franche. Il en est de même entre l’aspect intentionnel ou non (entre des données non prises en compte suite à une erreur de manipulation dans Excel et une manipulation volontaire, difficile de prouver l’intentionnalité – voir le cas de la remise en cause des travaux des économistes Reinhart et Rogoff sur le lien entre le niveau de dette d’un pays et sa croissance – référence au § « d’étranges erreurs sur tableur excel » – page 181 – « Une histoire de la manipulation par les chiffres de l’Antiquité à nos jours »  – A Houlou-Garcia et T. Maugenest – https://www.jailu.com/une-histoire-de-la-manipulation-par-les-chiffres-de-lantiquite-a-nos-jours/9782290359488).

Dans ce sens, cet article ne traite pas des choix en amont de définition des données (la façon dont elles créent un rapport à la réalité). Ni des choix algorithmiques, de modèles de calculs de certaines données. Ni des choix en aval qui concernent la diffusion de données et l’interprétation des données. Choix qui par raccourcis peuvent également amener à dire que les données ne sont pas innocentes. Exemples : définir une nomenclature discriminante (voir les travaux « d’Alain Desrosières et Laurent Thévenot à partir des analyse de Pierre Bourdieu » – référence – page 104 – Une histoire de la manipulation par les chiffres de l’Antiquité à nos jours  – A Houlou-Garcia et T. Maugenest – https://www.jailu.com/une-histoire-de-la-manipulation-par-les-chiffres-de-lantiquite-a-nos-jours/9782290359488 ), produire une data visualisation qui va orienter (exagérer, sous-estimer délibérément) la lecture de données, diffuser uniquement des données agrégées pour dissimuler les données élémentaires, ou plus subtil, garder la même définition d’une donnée et changer sa méthodologie de calcul pour l’orienter (exemple des débats sur la calcul de l’inflation aux US et des multiples changements de méthodes pour manipuler le résultat, comme certains le montrent – référence à l’ouvrage « Désinformation économique » – de Myret Zaki – chapitre 4 « Inflation, l’indice qui ne mesure par le coût de la vie » – https://www.editionsfavre.com/livres/desinformation-economique/ ).

Lorsque l’on est face à des données dont les valeurs ont été empoisonnées, offusquées, biaisées, faussées…, la menace se traduit toujours par l’altération du fonctionnement d’un algorithme qui va consommer ces données.

Avec un niveau d’altération qui peut aller du dysfonctionnement complet (production de résultats chaotiques), jusqu’à contraindre (obtenir) le résultat produit par l’algorithme conformément à une menace voulue, en passant par la production de résultats biaisés.

A la fin ces choix menaçants vont faire des données des armes, des moyens de manipulation, des pièges, des prisons… mais aussi des moyens de défense, de lutte. Sujets qui vont bien au-delà de l’objet de cet article.

Les données empoisonnées

L’idée est d’altérer le fonctionnement d’un algorithme en lui fournissant des données en apparence saines mais qui cachent en leur sein un poison. Ce poison fera que le résultat produit par l’algorithme ne sera plus conforme à ce qu’il devrait être.

Ce cas d’empoisonnement peut concerner des données non structurées, des enregistrements : images, vidéos, sons et même textes. L’encodage numérique permet de modifier un enregistrement dans sa composition (sous forme binaire) sans forcément que sa représentation visuelle ou auditive soit modifiée pour un être humain. Autrement dit, une image empoisonnée ne change pas d’aspect pour un œil humain, quand elle change d’aspect pour un algorithme d’interprétation d’images (un moteur d’IA par exemple). Soit l’algorithme ne reconnait plus l’image. Elle est hors de son périmètre d’apprentissage. Et sa réponse devient alors « chaotique ». Soit l’apprentissage de l’algorithme d’IA est perturbé après avoir « ingurgité » les données empoisonnées et son efficacité est mise à mal (reconnaissance et génération erronées).

Pour ce type d’empoisonnement, on fait appel à des techniques stéganographie (réf : https://lejournal.cnrs.fr/articles/steganographie-quand-un-contenu-en-cache-un-autre), de tatouage (watermarking) invisible (qui fait partie des techniques de stéganographie).

C’est une forme de défense qu’ont choisi certains artistes en réponse à ce qu’ils considèrent être un vol de leurs œuvres comme sources d’apprentissage des moteurs d’IA.

En empoisonnant leurs œuvres sous forme numérique, ils empêchent les moteurs d’IA de fonctionner correctement et donc de s’en emparer.

A lire sur ce sujet : https://www.lefigaro.fr/culture/les-artistes-empoisonnent-leurs-oeuvres-pour-se-premunir-contre-l-intelligence-artificielle-qui-les-pille-20240101, voir l’outil Glaze présenté dans l’article et qui permet de contrer les moteurs d’IA – https://glaze.cs.uchicago.edu/what-is-glaze.html. Dans cet esprit voir aussi l’article d’Usbek&Rica – qui présente 5 outils pour embrouiller les IA en introduisant des perturbations dans les images et les enregistrements de voix – https://usbeketrica.com/fr/article/detournement-droit-d-auteur-5-outils-pour-embrouiller-les-ia.

Mais attention au revers de la médaille, l’IA est aussi capable de supprimer l’empoisonnement – exemple du watermarking –

https://towardsdatascience.com/how-ai-can-remove-imperceptible-watermarks-6b4560ea867a

L’empoisonnement peut concerner également des jeux de données.

Dans un jeu de données, des instances « poisons » (ou parasites) cachées vont être introduites au milieu de données saines. L’empoisonnement peut être également progressif.

Les systèmes d’IA sont particulièrement sensibles à ces empoisonnements. S’ils touchent leur fonction d’apprentissage, ils peuvent faire complètement dériver l’IA.

Avec l’exemple connu de 2016 du chatbot Tay de Microsoft. Le chatbot au fonctionnement par  apprentissage adaptatif va être « empoisonné » par les propos racistes des utilisateurs… que le chatbot finira par reproduire. Par ce moyen, avec la répétition de phrases clés, il est possible d’influer les prédictions du modèle et donc le résultat qu’il délivre.

Si vous voulez rentrer dans le détail de ces techniques, à lire l’article « Poisoning Language Models During Instruction Tuning » de Alexander Wan, Eric Wallace, Sheng Shen et Dan Klein – référence https://arxiv.org/pdf/2305.00944.pdf.

L’empoisonnement ne concerne pas que les moteurs d’IA. Cela peut concerner tout type d’algorithme et de systèmes. A l’exemple de Gmail et de son moteur anti-spam. Elie Bursztein, ingénieur en cybersécurité chez Google, dans un article datant de 2018 (https://elie.net/blog/ai/attacks-against-machine-learning-an-overview/ ), raconte que des groupes de spammers s’en prennent régulièrement au serveur Gmail de la firme pour le faire dysfonctionner, en signalant comme sain des masses de spams et ainsi tromper le classifieur du serveur (cité ici https://chut.media/intelligence-artificielle/data-poisoning-trompe-qui-peut/ ).

Le cas des données « tokenisées »

On pourrait parler ici d’un empoisonnement léger. L’esprit de la tokenisation, c’est-à-dire remplacer des données par des tokens (un code par exemple), permet de protéger des données d’un algorithme en lui cachant les données originelles (par exemple il ne saura plus classer à partir de ces données).

Seul quelqu’un possédant la table de correspondance entre les données originelles et les tokens peut utiliser les données.

C’est un exercice difficile sur des données structurées, par exemple saisies ou traitées dans le cadre d’un processus automatisé. En revanche sur des données de type texte (message, mail, commentaire, article), l’exercice est vieux comme le monde (comme forme de codage d’un message, par exemple pour parler de choses interdites sous le régime d’une dictature). Dans le nouveau monde (exemple Tiktok), on parle du phénomène d’Algospeak pour tromper les filtres de contrôle – https://geeko.lesoir.be/2022/04/15/lalgospeak-un-langage-pour-tromper-les-algorithmes/

A lire aussi « Internet users are ‘poisoning’ their personal data in the fight against online surveillance »  d’Aurélien Defer – référence : https://www.lemonde.fr/en/pixels/article/2022/04/30/internet-users-are-poisoning-their-personal-data-in-the-fight-against-online-surveillance_5982052_13.html

L’offuscation de données

L’idée ici est de noyer des données que l’on souhaite offusquer dans une masse de données.

Ce cas concerne les jeux de données. Leur récolte va faire l’objet d’une offuscation. Aux données qui doivent être normalement récoltées, vont venir s’ajouter des données non conformes à l’esprit de la récolte. Le jeu de données devient inexploitable, l’algorithme ne sachant pas séparer le bon grain de l’ivraie. Sauf à ajouter une tentative, difficile parfois, d’élimination des mauvais grains.

Cette offuscation peut aller de simplement bruiter les données, jusqu’à introduire des données contradictoires.

Exemples : cliquer sur des publicités ou visiter des sites web qui ne nous concernent pas, pour tromper le tracking publicitaire sur notre profil en noyant ses clics et visites réelles. Et pour cela il existe des plug-in qui le font pour vous – https://trackthis.link/ (visites automatiques de sites web) ou encore https://adnauseam.io/ (clics automatiques publicitaires). Ou encore dans le monde du trading boursier, le principe de « quote stuffing », « Il s’agit d’une technique consistant à bourrer la cotation d’ordres complètement inutiles afin de forcer la concurrence à analyser ces milliers d’ordres et donc à la ralentir. » – https://fr.wikipedia.org/wiki/Transactions_%C3%A0_haute_fr%C3%A9quence

Pour approfondir le sujet voir l’ouvrage Obfuscation : la vie privée, mode d’emploi (C&F éditions, 2019) de Helen Nissenbaum et Finn Brunton – https://cfeditions.com/obfuscation/

Voir aussi la désinformation par la stratégie d’obfuscation -page 83 de l’ouvrage « Guerre de l’information – Guide de survie pour entreprise » Référence  – https://www.ege.fr/sites/ege.fr/files/media_files/CyberGIETI.pdf . Extrait :

« Nous pouvons penser à l’obfuscation, une méthode de protection de l’information qui vise à en obscurcir sa précision. Cette méthode peut être définie comme «la création délibérée d’informations surabondantes, ambiguës, désordonnées ou fallacieuses en les mélangeant aux données véridiques afin de rendre plus difficiles leur collecte, leur analyse et leur utilisation »*. Ainsi, tout ce qui peut brouiller, opacifier, masquer, noyer, rendre illisible les informations est un mode d’obfuscation. Les informations seront mieux protégées car plus difficiles d’accès et moins intelligibles au milieu d’autres informations moins pertinentes ». * et citation issue de l’article Jean-Paul  Delahaye paru dans Pour La Science le 29 octobre 2019 – référence https://www.pourlascience.fr/sr/logique-calcul/l-offuscation-ou-l-art-de-brouiller-l-ecoute-18265.php

Les données biaisées

Le biais se manifeste lorsqu’un jeu de données utilisés comme référence par un algorithme n’est pas représentatif de la population qui va être concernée par cet algorithme. Le résultat est alors estimé discriminant, en erreur pour la population concernées.

Exemples : cas des jeux de données de reconnaissance faciale, de détection de grains de beauté, favorisant les peaux blanches parce que s’appuyant sur des jeux d’apprentissage représentant majoritairement des personnes blanches. Ou encore sous représentativité des femmes dans les jeux de données ayant permis de qualifier des algorithmes d’analyse de CV, ce qui amène à les écarter plus souvent par les systèmes de recrutement. Voir https://www.socialter.fr/article/ia-la-reconnaissance-faciale-est-elle-raciste-1.

L’écart de représentativité entre le jeu de données et la population concernée peut être de différentes natures : sous-représentation ou surreprésentation d’une partie de la population, données manquantes pour une partie de la population, accentuation de caractéristiques au dépend d’une partie de la population, valeurs prises en compte non représentatives (sous et sur déclaration par exemple sur la consommation de tabac, la pratique d’exercices).

L’origine de l’écart peut être : dans la collecte ou le choix du jeu de données, ou inversement l’utilisation d’un jeu de données non adapté pour un algorithme (exemple utiliser un jeu de donnée avec une population non représentée). Ici on est à la limite de l’intentionnalité. Les choix peuvent avoir été pris au départ sans intention de discriminer. Maintenant, ce type de situation discriminante est bien documenté et ne pas y répondre est une forme d’intention.

Attention, les situations de biais sont plus larges que la situation décrite ici. Le terme de biais est repris de l’histoire des statistiques (voir la notion de biais statistiques) et avec l’idée que cela peut refléter (par l’usage algorithmique des données) des biais cognitifs voire des biais culturels qui dépassent notre cas – voir https://theconversation.com/intelligence-artificielle-combattre-les-biais-des-algorithmes-125004.

Le cas inverse : se retrouver dans un jeu de données sans normalement devoir y appartenir – ou encore données référentes à tort

Dans ce sous cas, la propriété et le lien s’effectue à tort au travers d’un ensemble de données (une liste).

Les exemples connus, les données excluantes : se retrouver dans une black list à tort (être bannit de certaines compagnies aériennes – être reconnu comme passager indiscipliné à tort parce qu’inscrit à tort dans la liste noire des passagers de la compagnie – https://www.air-journal.fr/2015-07-27-easyjet-bannit-un-passager-par-erreur-5147753.html , interdit de vol parce que reconnu à tort comme terroriste à cause d’une homonymie au sein de la liste de surveillance antiterroriste aux Etats-Unis – https://www.ouest-france.fr/europe/suisse/new-york-une-francaise-blacklistee-laeroport-cause-de-son-nom-2371543 , mails rejetés parce que leur serveur de mail est exclu, car inscrit à tort dans une liste de serveurs identifiés comme spammeurs, etc).

Il existe également des cas où certains vont chercher à être inscrit à tort dans une liste pour en tirer un profil. Les exemples ne manque pas dans le domaine de la fraude.

Les données noires (dark data) – ou données manquantes par analogie à la matière noire des astrophysiciens, qui influence la dynamique de l’univers mais qui n’est pas visible)

Dans les données biaisées, il faut également tenir compte du cas des données absentes. Absences qui induisent en erreur (tirer des conclusions alors qu’il manque des données).

Cette idée a été largement illustrée dans l’ouvrage « Dark Data – Why what you don’t know matters » de David J. Hand (sens différent des dark data tel qu’énoncé par le Gartner – https://www.gartner.com/en/information-technology/glossary/dark-data – données inutilisées, inconnues, oubliées d’une entreprise).

On rejoint ici l’idée de biais, avec des jeux de données sous échantillonnés, ou sélectionnés alors qu’on sait qu’ils ne sont pas complets, ou encore sélectionnés alors qu’ils ne correspondent plus à la situation analysée (elle a changé).

Exemple cité dans l’ouvrage : une campagne de collecte de l’état des routes (détection des nids de poules), effectuée via des conducteurs volontaires en possession d’un smartphone … qui vont se révéler être des conducteurs d’un certain niveau de vie (possesseur d’un smartphone – l’exemple date alors que l’usage des smartphones n’était pas aussi généralisé qu’actuellement), qui circuleront majoritairement dans des zones saines (leurs lieux d’activités). La collecte va amener à ne pas avoir de données sur des zones moins favorisées … et aboutir à les négliger considérant qu’aucun nid de poule n’y a été détecté !

A noter que le manque de données peut être volontaire comme stratégie pour cacher quelque chose ou pour des questions de vie privée. Avec le risque de devenir suspect s’il n’y a pas de données sur vous (exemple qui date d’il y a 10 ans mais illustratif : https://www.slate.fr/life/86451/cacher-grossesse-internet-suspect-donnees ) !

Pour aller plus loin, un inventaire des biais dans les données ici : https://www.datasciencecentral.com/23-types-of-bias-in-data-for-machinelearning-and-deeplearning/ . Voir aussi les 15 types de dark data identifiés dans l’ouvrage de David J Hand – https://press.princeton.edu/books/hardcover/9780691182377/dark-data  et https://www.tandfonline.com/doi/full/10.1080/00401706.2022.2163804

Les fausses données

On est ici dans l’univers des fakes. Une fausse donnée est une donnée qui ne correspond pas à la réalité qu’elle est censée représenter à propos d’un sujet/objet. Cette non correspondance, peut soit avoir pour origine la modification à tort de données existantes (rupture de l’intégrité), soit au cours de la collecte concernant un sujet/objet, renseigner des valeurs non correctes, soit carrément la génération de données fausses qui vont devoir être rattachées à un sujet/objet visé.

Dans le 1er cas, on est dans l’univers du hack, où on va chercher à modifier la valeur d’une donnée pour en tirer un avantage (positif ou négatif). Cela peut aller, de changer une date dans un contrat, à changer une adresse de livraison. Pour cela il va falloir rompre l’intégrité de la donnée. C’est-à-dire la garantie qu’elle reste inchangée tout au long de son cycle d’utilisation (être certain que la donnée dont dispose n’a pas été modifiée de façon irrégulière). C’est une propriété élémentaire que garantissent les bases de données, les protocoles de communication, les systèmes de sécurité.

Exemple souvent cité : le virus informatique Stuxnet qui a modifié les données de configuration des centrifugeuses d’enrichissement d’uranium de l’Iran pour les détériorer – https://www.cyberuniversity.com/post/stuxnet-zoom-sur-la-cyber-arme-et-comment-sen-proteger

Dans le 2ème cas, on est dans le détournement intentionnel de la qualité des données et plus particulièrement du critère d’exactitude. Dire qu’une donnée est exacte, corresponde à la réalité est un sujet difficile. Identifier qu’il y a eu intention de détournement n’est pas non plus évident (Pour une vue détaillée du sujet voir le chapitre 6 « De la qualité des référentiels – 6.2.3 Les limites de la notion de justesse » – de l’ouvrage « Les référentiels du systèmes d’information – données de référence » – Dunod 2013 – https://www.dunod.com/sciences-techniques/referentiels-du-systeme-d-information-donnees-reference-et-architectures-d ).

Dans notre cas des fausses données, cela correspond par exemple :

  • A détourner un service en saisissant des valeurs pour orienter une décision (choisir une catégorie sans rapport avec la réalité mais qui peut amener un bénéfice – truquer les données),
  • Gonfler ou minimiser des chiffres – exemple dans le monde de la santé (cas de professionnels de la santé aux Etats-Unis), falsifier l’heure d’arrivée de patients (créer une apparence de temps d’attente réduit) pour bénéficier d’un meilleur remboursement – https://www.feldesman.com/tenth-circuit-says-intentionally-falsified-data-is-not-material/ ,
  • A saisir des valeurs fantaisistes – un numéro de téléphone fictif pour éviter d’être déranger,
  • Se créer un faux diplôme dans un processus de recrutement,
  • Ou exemple vécu, de saisies au moment d’une vague de protestation d’agents d’intervention, en indiquant « en pause » comme motif d’intervention dans les formulaires de compte-rendu d’intervention … entre intention avérée et négligence, il est difficile parfois de faire la part des choses.

Dans le 3ème cas, on est dans le cœur de la désinformation (qui va bien au-delà de ce cas). On crée de toute pièce une donnée fausse (ou un ensemble de données) qu’il va falloir associer par un faux lien à un objet/sujet. Et ainsi attribuer au sujet/objet des propriétés qu’il ne possède pas.

Le cas des données usurpées

Ce cas est un sous cas particulier. Ici les données sont exactes mais non rattachées au bon objet/sujet. C’est uniquement le lien de référence à l’objet/sujet qui est faux. Il a été rompu, modifié (intégrité en défaut).

Les exemples connus sont : l’usurpation d’identité, le phishing.

L’univers du faux ne manque pas d’exemples : faux diplômes, faux RIB, faux avis, fausses factures, fausses déclarations (univers de la fraude, exemple fraude à l’assurance), fausses informations, fausses données scientifiques dans des travaux de recherche (voir un inventaire ici – https://en.wikipedia.org/wiki/List_of_scientific_misconduct_incidents ), faux travaux dans une commune pour tromper Waze et réduire la circulation devant chez soi, tromper google en se faisant passer pour un autre …par la méthode de Digital Millennium Copyright Act bombing https://next.ink/690/dmca-bombing-google-attaque-internautes-se-faisant-passer-pour-stars-afin-dereferencer-620-000-url/ , l’astrosurfing par les données – faux mails, fausses signatures dans des pétitions en ligne, faux commentaires, fausses vues/likes achetés … pour populariser (négativement ou positivement) une cause, plus subtil, des ordres de bourses lancés en masse mais qui ne seront pas exécutés pour influencer le montant d’une action (principe du layering qui est interdit), etc.

Une vue « positive » des fausses données est l’idée de pot de miel utilisé en cyberdéfense. Où on va créer tout un ensemble de fausses de données spécialement conçues pour attirer des hackers et les prendre la main dans le pot ! https://www.ege.fr/sites/ege.fr/files/media_files/CyberGIETI.pdf (voir § 3.2.9.2. Imitation : l’exemple des Honeypots et des Honeynets)

Conclusion

Les données ne sont pas innocentes, en exploitant les différentes situations décrites dans cet article, les données vont servir d’armes (on parle de data weaponization – voir ce qu’il se passe par exemple dans le conflit Ukrainien https://france3-regions.francetvinfo.fr/auvergne-rhone-alpes/puy-de-dome/clermont-ferrand/guerre-en-ukraine-le-premier-grand-conflit-ou-les-donnees-numeriques-sont-un-enjeu-central-2563260.html ), de pièges (exemple https://www.lebigdata.fr/waze-permet-a-la-police-de-vous-pieger), de manipulations sociales (au travers de certaines campagnes menées sur les réseaux sociaux). Et j’aime bien l’exemple dans le milieu du sport « si vos données d’entraînement ne sont pas sur Strava, cela n’a pas existé » – https://www.numerama.com/tech/1223110-si-ce-nest-pas-sur-strava-ca-na-pas-existe-les-apps-de-suivi-gachent-elles-le-sport.html), mais aussi de défense voir de moyens offensifs, etc.

Il existe un deuxième niveau de détournement des données. Ici ce ne sont pas les données qui sont en cause, mais l’interprétation ou l’usage que l’on en fait. Ce deuxième niveau est sans limite. Les exemples connus sont par exemple les data visualisations qui déforment la réalité chiffrée, la pression à partir d’indicateurs contradictoires (l’angoisse des métriques – https://www.internetactu.net/2018/09/17/de-la-tyrannie-des-metriques/ ), les batailles de chiffres utilisés à tort dans les débats, etc.

Et cette fausse innocence ne va que s’accroître avec l’arrivée dans le paysage de l’IA générative et de sa facilité d’utilisation pour produire de fausses données, des données empoisonnées, des données biaisées et des données pour offuscation.

Face cette fausse innocence, la maîtrise de la naissance des données et la gouvernance des données sont deux dimensions primordiales.

Maîtriser la naissance, signifie en partant de l’intention présente derrière une donnée, de disposer de tout le contexte qui a conduit à déterminer la valeur de la donnée dont on dispose entre les mains. C’est-à-dire : le processus de collecte, les moyens de collecte, les transformations apportés à la valeur récoltée, le niveau de sécurité apporté, etc.

L’exemple du desielgate qui a débuté par l’affaire Volkswagen (https://fr.wikipedia.org/wiki/Affaire_Volkswagen) est représentatif du rôle de la maîtrise de la naissance des données. En jouant sur les conditions de capture des données (banc de test versus conduite en situation réelle, activation de dispositifs anti-pollution suivant les conditions de test reconnues par le véhicule), les données obtenues sont différentes.

Les données doivent être gouvernées. Et pour gouverner les données il y a besoin de données. C’est tout l’enjeu des métadonnées qui doivent permettre de disposer de tout l’environnement qui a permis de constituer une donnée (sa définition, sa méthode de collecte ou de calcul, ses modifications, par qui, à quel moment, sa sensibilité, son accessibilité, etc). Certaines plateforme de données vont plus loin est gère un étiquetage des données à l’image de la traçabilité et de l’étiquetage d’un produit commercialisé, alimentaire (voir : https://orkestra-data.com/ ).

Attention l’exercice peut être sans fin … peut-on faire confiance aux métadonnées ?!

A la gouvernance on peut associer une dimension éthique (data ethic https://theodi.cdn.ngo/media/documents/Data-Ethics-Canvas-French-Colour-1.pdf ) et des systèmes de traçabilité et de confiance.

Cela nous amène à l’idée de confiance dans les données. Vaste sujet. De façon pratique et qui existe depuis longtemps. On parlait de système à preuve juridique – exemple dans le cadre de la signature électronique ou pour la facturation électronique) et plus récemment la blockchain est venue se positionner comme capacité à certifier les données. Mais on est très loin à ce que toutes les données rentrent dans ce type de dispositif.

Pour terminer : je vous propose une version data d’une célèbre maxime « Il faut tourner les données sept fois dans sa bouche avant de les utiliser ! ».


Tous droits réservés – datassence.fr. Cet article a été publié originellement sur www.datassence.fr.

L’attribut alt de cette image est vide, son nom de fichier est Datassence_Logo1_1.png.

Les commentaires sont fermés.