Blog 2 : Big Data ou l'ère des corrélations
« Les données constituent les briques de base de la société de l’information »[1].
Nous le savons, mais nous n’y pensons pas tout le temps : toutes nos activités numériques laissent des traces derrière nous :
1) Que se soit sur Internet :
- via des « cookies » qui enregistrent nos clics sur les sites web que nous consultons ;
- via les moteurs de recherche qui enregistrent les sujets/objets qui nous intéressent ;
- via les réseaux sociaux qui enregistrent les informations que nous y laissons « volontairement » ;
- via les forums internet, les jeux vidéos, ….
2) Ou bien, par le biais de nos appareils intelligents (téléphones, tablettes,…)
- les données de nos appareils mobiles (ex : enregistrés par nos applications) ;
- les données recueillies par les opérateurs : à qui écrit-on, qui appelle-t-on, à quel moment, durant combien de temps, de quel lieu, nos déplacements,…
3) Ou bien, par le biais de tiers
- nos données transactionnelles enregistrées par les acteurs financiers, via nos cartes de débit et de crédit, nos cartes fidélité, nos retraits, nos achats sur Internet, (heures, montant, lieux, achats)…
- nos données de transport enregistrées via nos cartes de transport ;
- nos données médicales enregistrées dans notre dossier patient informatisé à la clinique, ou bien enregistrées par les compagnies d’assurance,…
Bref, toutes ces traces que nous laissons, sans vraiment nous en rendre compte, construisent, ce qu’on appelle notre « identité numérique » et peuvent servir à dresser notre « portrait » pour différentes applications[2] que nous verrons par la suite.
Ces milliards de données se retrouvent alors dans d’immenses bases de données de différents systèmes : c’est ce qu’on appelle le « Big data ».
Cela semble gigantissime, à tel point qu’on se demande s’il est possible de traiter un tel nombre de données pour en faire quelque chose ? Et bien oui! Aujourd’hui, l’analyse de ces masses de données informatiques à très grande échelle est maintenant pratique courante grâce à l’évolution des outils informatiques et de leur puissance. En fait, chaque donnée prise individuellement semble anonyme, mais regroupées ensemble, elles permettent de retrouver chacun d’entre nous!
Expérience intéressante :
Un doctorant du MIT, Yves-Alexandre de Montjoye, qui travaille au laboratoire de dynamique humaine du Media Lab, précise dans son travail « Unique dans la foule » que « nos données de déplacement sont encore plus personnelles que nos empreintes digitales »3. Pour identifier un individu formellement, il fallait jusqu’à maintenant 12 points de références sur son empreinte digitale. Dans l’exemple d’une base de données d’un opérateur comptant 1,5 millions d’abonnés, il suffit de 4 points pour identifier 95% des gens. En effets nos données numériques, telles que nos données de déplacement, sont très personnelles : elles sont régulières, répétitives, et forment ainsi une liste unique. « Nos routines journalières sont tellement uniqueS qu’il est extrêmement difficile de se cacher dans la foule. Nous avons tous l’impression d’être semblables quand nous nous entassons chaque matin dans le même métro, alors que nous sommes tous parfaitement uniques »3. Bref « Nous sommes uniques dans notre manière d’être mobile et de téléphoner ».[3]
Nous sommes ainsi entrés dans l’ère des corrélations! Corrélations qui PERMETTENT TOUT UN TAS D’APPLICATIONS :
1) La surveillance. Depuis les attentats du 11 septembre 2001 et l’explosion des nouvelles technologies numériques dans les différentes sphères de notre vie (privée, sociale, professionnelle,…), la surveillance de toutes sortes est en pleine croissance. Cette surveillance se fait via le recoupement des données, entre plusieurs institutions, et même entre les institutions publiques et privées. Ainsi, le livre « Vivre à nu : la surveillance au Canada »[4] démontre que « des données recueillies dans un but peuvent facilement être utilisées à d’autres fins lorsque les organisations publiques et privées partagent des données ».
D’après David Lyon, chercheur à l’Université Queen’s de Kingston, « cela signifie que l’on ne peut jamais savoir quand une information personnelle recueillie par le gouvernement ou la police pourrait devenir visible par une entreprise, ou quand des données recueillies auprès d’un client dans une transaction commerciale pourraient empêcher cette personne d’embarquer dans un avion »[5].
2) L’optimisation des processus d’affaires. Quelques exemples :
- la publicité ciblée. La publicité de masse est aujourd’hui dépassée, par ce qu’on appelle la publicité ciblée, c’est-à-dire une publicité adaptée à son public cible, à l’individu cible. Une marque peut ainsi affiner ses efforts de communication pour proposer le bon produit à la bonne personne, au bon moment et via le bon canal (ex : pub sur l’ordinateur, sms sur le téléphone, image lors de l’ouverture d’une application, courriel,…).
- le recrutement : par exemple, chez Banque Nationale, l’algorithme « Tactiscs HR » permet d’identifier des candidats potentiels à partir des données de Twitter.
- la notion de « ville intelligente » : les masses de données des citoyens peuvent être utilisées pour améliorer diverses activités collectives, via l’amélioration de l’interaction entre les citoyens, l’administration publique et les entreprises d’affaires.
- en médecine, par exemple, pour faire des diagnostics personnalisés et proposer des traitements adaptés à chaque individu. Exemple : en triant et recoupant de grands nombres d’informations, il est désormais possible d’établir le profil génétique de la tumeur d’un patient et de lui proposer un traitement personnalisé. Ou bien pour surveiller la transmission de maladies infectieuses.
Quelles peuvent-être les dérives ?
- Les pertes et les vols de données aboutissant à des fraudes : On peut ainsi penser à la faille informatique Heartbleed de l’année dernière. Il arrive, malheureusement, des milliers d’accidents de ce type au Canada. Ainsi, plus de 3000 accidents de fuite d’informations ont été répertoriés au Canada[6]. Mais, ces statistiques ne sont qu’une toute partie de l’iceberg, car la plupart de ces accidents ne sont jamais divulgués pour ne pas entacher la réputation des organisations touchées. Quant on voit les résultats d’un sondage réalisé auprès de 1000 entreprises installées au Canada, il y a de quoi s’inquiéter : plus de la moitié des entreprises interrogées n’ont pas de politique sur la protection de la vie privée![7] De plus, la localisation géographique des serveurs hébergeant ces données rajoute un niveau de complexité; car en cas de problème, les lois du pays hébergeur entrent en ligne de compte.
Quelle RÈGLEMENTATION ?
Au Canada, il y a deux lois qui encadrent nos renseignements personnels :
§ La LPRDPDE, soit la Loi sur la protection des renseignements personnels et les documents électroniques, pour les organisations du secteur privé ;
§ La Loi fédérale sur la protection de la vie privée, qui encadre la collecte, l’utilisation et la divulgation des données privées par le gouvernement fédéral.
Le commissariat à la vie privée est, quant à lui, responsable de recueillir les plaintes des citoyens et d’enquêter sur les organisations soupçonnées de ne pas respecter les lois canadiennes relatives à la protection de la vie privée.
Au Québec, la loi qui encadre est :
§ La Loi sur la protection des renseignements personnels dans le secteur privé, aussi appelé Loi du secteur privé.
La Commission d’accès à l’information est, quant à elle, responsables de faire respecter cette loi.
C’est fascinant et à la fois inquiétant de voir jusqu’où nous pouvons aller avec le traitement de nos données! Nous voulons, individuellement et collectivement bénéficier de ces avancées, mais nous voulons également mettre de balises pour protéger notre vie privée.
Voici, quelques PISTES DE SOLUTIONS qui pourraient nous aider à éviter les dérives :
1) Anonymiser le plus possible les bases de données. Des chercheurs se posent le défi de rendre nos données moins personnalisables, afin de rendre les individus moins indentifiables par celles-ci. Ils ont donc entrepris de réduire la résolution des données avec, par exemple, des zones géographiques plutôt que des adresses, des zones temporelles plutôt des heures précises.
Certains systèmes fonctionnant actuellement sur la géolocalisation pour nous offrir des services (ex : pour augmenter le chauffage de notre maison alors que nous approchons), pourraient dans l’avenir, plutôt que de nous « suivre » toute la journée, se déclencher via le franchissement de certaines zones[8].
2) Créer un intermédiaire. Taylor & Wagman (2008) proposent, quant à eux, de créer un intermédiaire entre l’individu et le site Internet qui propose un service en ligne. Cet intermédiaire serait alors responsable de la protection des données personnelles de l’individu tout en rendant le service attendu[9].
3) Adapter les lois sur la protection des données personnelles aux nouvelles réalités.
Les efforts en ce sens sont très prudents. En janvier 2014, le projet de Loi C-475, visant à modifier la Loi sur la protection des renseignements personnels, a été rejetée par la Chambre des communes. Depuis, un nouveau projet de loi a été déposé : le projet de Loi S-4, qui vise à obliger les organisations touchées par des fraudes à aviser le commissariat et les citoyens touchés. Mais aucune sanction n’est prévue pour les entreprises qui ne joueraient pas le jeu de la transparence, de même qu’il n’est pas prévu d’indemnité pour les individus touchés. Il reste donc encore des progrès à faire, à mon avis!
En Europe, un nouveau règlement sur les données personnelles est attendu pour 2015. Celui-ci prévoit de mettre en place des règles d’éthique entre sociétés et consommateurs pour que chacun agisse en « dataresponsable ». Encore une fois, le terme « règles éthique » démontre la timidité d’un tel règlement et le chemin encore long à parcourir dans ce domaine…
CONCLUSION
L’analyse des données n’est pas une nouveauté ; l’élément nouveau aujourd’hui, c’est le volume de données qui a explosé. Ce phénomène est, à mon avis, à la fois une incroyable opportunité de développement pour notre société et ce dans une multitude de domaine, mais également une terrifiante réalité, qui parait, pour l’instant, échappée au contrôle que l’on voudrait en faire.
Il y a donc un équilibre à aller chercher pour ne pas nuire au développement du numérique, tout en mettant en place un niveau de protection « acceptable » des citoyens et de leurs données personnelles.
On comprend que le « Big Data » soit considéré, par certains, comme « le pétrole du XXIème siècle ». Malgré la complexité de cette notion (sujet à la fois technique et éthique, nombreux acteurs concernés, types d’organisations, pays,...), nos gouvernements et scientifiques doivent rapidement s’allier pour développer des outils qui permettent d’éviter les usages négatifs qui peuvent provoquer une telle puissance d’information.
MAB
[1]GRUMBACH, Stéphane. FRÉNOT, Stéphane. « Les données, puissance du futur ». Le Monde. 8 janv 2013.
[2] PISANI, Francis. Journalise indépendant. Le Monde.
[3] De MONTJOYE, Yves-Alexandre. HIDALGO, C.A., VERLEYSEN, M. & BLONDEL, V.D. « Unique in the Crowd: The privacy bounds of human mobility ». Nature srep. 3, 1376.
[4] BENNET, Colin J. HAGGERTY, Kevin D. LYON, David. STEEVES, Valerie. « Vivre à nu : La surveillance au Canada ». Avril 2014.
[5] BRONSKILL, Jim. « La surveillance embrouille autant le public que le privé ». La Presse. 8 mai 2014.
[6] GRAMMOND, Stéphanie. « Oups ! Nous avons perdu vos renseignements personnels ». La Presse. 23 avril 2014.
[7] Commissariat à la vie privée. Sondage. 2013.
[8] De MONTJOYE, Yves-Alexandre. HIDALGO, C.A., VERLEYSEN, M. & BLONDEL, V.D. « Unique in the Crowd: The privacy bounds of human mobility ». Nature srep. 3, 1376
[9]WARIN, Thierry. de MARCELLIS-WARIN, Nathalie. « Un État des lieux sur les données massives ». Centre interuniversitaire de rechercher en analyse des organisations. Juin 2014. 41 pages.
Commentaires
Bravo MAB.