[WEBINAR💻] Modernisez votre IT, migrez vers le cloud Oracle avec la préparation de votre Landing Zone. Inscrivez-vous dès maintenant à notre prochain webianr🎙!

✖︎
valorisation des données

Quels sont les enjeux et limites de la valorisation des données ?

02/10/2023
Données
Big Data

Les données sont étroitement liées aux états et aux gouvernements, et ce depuis leurs prémices. Le besoin de collecter, d’accumuler et de traiter de l’information est beaucoup plus ancien que notre société moderne et les moyens automatiques que nous avons aujourd’hui.  

Pourquoi la data ? 

Si l’on revient un peu en arrière, l’histoire de la data remonte aux premières civilisations urbaines, lorsqu’il a fallu organiser, gérer et sécuriser la société. La Mésopotamie et l’Egypte en sont les premiers exemples connus, suivis de l’Inde, l’Egypte et la Grèce. Concrètement, il n’y a pas de société qui fonctionne sans information. On développe alors l’idée que si le raisonnement est formalisable, il peut être mécanisable, ce qui pose les bases de la future IA et de l’algorithme
Si l’on avance dans le temps, le 17è siècle a vu l’apparition de 3 phénomènes liés : 

  • la révolution scientifique (Galilée, Pascal, Descartes, Newton …) avec la mathématisation des sciences qui nécessite de tout quantifier et par conséquent l’équipement des sciences en moyens de mesure générant des masses croissantes de données, 
  • la mécanisation du calcul comptable et scientifique (Pascal et Leibniz),  
  • le développement des grands états européens et asiatiques qui produisaient et consommaient de plus en plus de données.  

Puis au 20è siècle, les données provenant des radars qui détectaient l’approche de bombardiers ennemis ont été utilisées pour proposer une réponse appropriée via le système SAGE. Ce système « est reconnu pour être l'un des tout premiers réseaux numériques de l'histoire de l'informatique (mêlant capacités de calcul, interfaces de saisie, interfaces de lecture, téléphonie, modems, téléscripteurs, télégraphie) »*. Il a été adapté pour le monde civil, avec un logiciel de réservation de sièges dans l’aéronautique comme Sabre, puis s’est répandu dans d’autres organisations et notamment les sociétés de banque et assurances. 
Mais les possibilités ouvertes par l’informatique ont fait naître des craintes sur l’atteinte à la vie privée des personnes. C’est ainsi qu’est née la loi informatique et liberté en 1978. 

Data et stratégie

L’optimisme technologique est un courant de pensée selon laquelle l’amélioration des technologies et la digitalisation du monde nous procurera un avenir meilleur. Cependant, il est important de comprendre le but de la collecte de donnée pour qu’elle puisse servir une stratégie, et non pas la déterminer. 
En effet, on crée chaque jour une masse gigantesque de données commerciales notamment avec l’émergence du web, tout simplement parce que cela est possible. Mais encore faut-il savoir leur donner du sens. 
Les experts de notre podcast « La Data dans tous ses états » nous rapportent qu’il y a un fort taux d’échec dans les démarches data. On peut supposer que cela est peut-être la conséquence de projets qui n’ont pas mis les besoins utilisateurs au cœur de la démarche. 
C’est pour cela que les experts interrogés dans notre podcast préconisent un accompagnement pour comprendre comment modéliser la donnée et le besoin des utilisateurs. Les données doivent être contextualisées et expliquées. L’utilisateur final doit pouvoir avoir confiance dans les données qui lui sont transmises. 
En fin de compte, être data driven, ne signifie pas suivre aveuglément les données, mais au contraire les utiliser au service d’une stratégie pour faciliter la décision. Il faut savoir remettre cet outil à sa juste place : la prise de décision.

Quelles données collecter ? 

Les données collectées sont souvent massives, et on peut se poser la question de l’intérêt d’une telle collecte.  Cela est d’autant plus important lorsque ces données sont exploitées par des puissances sur lesquelles nous n’avons aucune prise. 
C’est pourquoi le RGPD (Règlement Général sur la Protection des Données) est un texte de référence de l’Europe en matière de protection des données à caractère personnel. Depuis 2018, date de son application, il encadre notamment des principes clés tels que : 

  • La sécurité et la confidentialité des données : toutes les mesures doivent être prises pour garantir cet aspect (Privacy by Design)
  • La notion de consentement
  • Le droit des personnes sur leurs données personnelles : accès, opposition, portabilité, effacement, rectification, … 

La position hégémonique des grandes plateformes pousse l’Union Européenne a continuer sur la voie de la législation avec le DMA (Digital Markets Act) dont l’objectif est de « garantir des marchés numériques équitables et ouverts »** et le DSA (Digital Services Act) qui « vise à protéger les utilisateurs en ligne contre les contenus illicites, dangereux et préjudiciables »***. 

Qu’y a-t-il derrière les algorithmes ? 

Historiquement, deux conceptions de l’intelligence artificielle se sont affrontées : la branche « symbolique » qui comprend des règles formelles et explicites et fonctionne comme un arbre de décision et la branche  « connexionniste » qui fonctionne comme un réseau de neurones avec une latitude d’amélioration via des réseaux apprenants et du machine learning
Peu à peu, la branche « symbolique » s’est effacée au profit de la « connexionniste », avec le risque d’avoir des recommandations pertinentes et efficaces, mais non explicables. 
Aujourd’hui, il existe des projets qui cherchent justement à rendre sa place à l’algorithme. Le projet Regalia mené par l'INRIA «  a pour ambition de construire un environnement logiciel de test et d'aide à la régulation pour faire face aux risques de biais et de déloyautés engendrés par les algorithmes des plates-formes numériques »**** 
Mais au-delà de ces considérations, il est également important de se poser les questions clés autour du sujet des données et de l’IA, puisque le développement technologique ne doit pas être sa propre finalité.

Pour en savoir plus sur le sujet des enjeux et limites de la valorisation de la donnée, retrouvez la saison 2 de notre podcast « la Data dans tous ses états » sur notre site ou sur les meilleures plateformes d’écoute. 

🙏🎙Merci aux invités de notre podcast pour leur éclairage sur ce sujet : Félicien Vallet de la CNIL, Benoit Rottembourg de l'INRIA, Oana Goga de l'X/CNRS, Alma Garcia de Swile, Charlie Roquin, romancier au Cherche Midi, Victor Storchan d' Althiqa, Pablo Jensen de l'ENS, Charlotte Fanneau, COO d'Heuritech, et Pierre Mounier-Kuhn, chercheur au CNRS et historien de l'informatique au micro de Gilles Lecerf. 

Sources : 

* https://fr.wikipedia.org/wiki/Semi-Automatic_Ground_Environment
** https://commission.europa.eu/strategy-and-policy/priorities-2019-2024/europe-fit-digital-age/digital-markets-act-ensuring-fair-and-open-digital-markets_fr 
*** https://www.economie.gouv.fr/legislation-services-numeriques-dsa-adoption-definitive-texte
**** https://www.inria.fr/fr/le-projet-pilote-regalia-au-service-de-la-regulation-des-algorithmes