données personnelles: l’approche par les paradoxes -

Curieux paradoxe que ces données personnelles qui nous sont vendues comme le fondement d’un cauchemar à venir, par les firmes mêmes qui les collectionnent aujourd’hui. Google nous promet son Knowledge Vault (1). Facebook brandit comme une publicité ces images de fêtes lycéennes qui « casseront » demain des carrières de managers. Pourquoi chaque géant du web cherche-t-il à nous convaincre que Big Brother existe… et que c’est lui?

Curieux paradoxe que cette panique qu’induit la promesse d’un traitement « encore très hypothétique » de nos données personnelles dites « non-structurées », alors que celui de nos données classiques, par des moyens classiques, est encore loin d’avoir atteint les limites de ses redoutables possibilités.

Curieux paradoxe que cette terreur qu’inspire la perspective d’un recueil de nos données personnelles numériques à des fins policières quand la mise en fiches de la population (EDVIGE, FNAEG…) se développe depuis plusieurs décennies dans une indifférence quasi générale.

Curieux paradoxe que cette opinion publique qui se cabre devant l’idée que nos données personnelles permettront aux marchands de nous adresser des publicités ciblées… potentiellement intéressantes… quand celles qui encombrent actuellement nos boites aux lettres physiques et numériques ne le sont pas.

Deux demi-frères ont été innocentés mardi 2 septembre du viol et du meurtre d’une petite fille grâce à des tests ADN, après avoir passé trente ans en prison, et pour l’un dans le couloir de la mort, dans l’État de Caroline du Nord (le monde du 3/09/2014).

Quel impact aurait cette information si elle était présentée comme une possible dérive de l’appareil judiciaire du futur?

Big Brother

Google se présente comme Big Brother et…

… et Google Chrome est en progression constante sur le marché des navigateurs… et, en février 2014, Google devient la deuxième capitalisation boursière mondiale… et Google reste dans le peloton de tête des entreprises qui font rêver les étudiants (2).

En terme d’image, à l’évidence, être Big Brother fonctionne bien, ce qui révèle une facette de l’idéologie d’aujourd’hui :

« La morale est archaïque, l’illicite est stimulant et la puissance rassure ».

En ce début de XXIème siècle, l’individu se sentirait donc mieux protégé des abus par des firmes fortes… et qui les connaissent bien… pour les pratiquer quotidiennement.

Plus étonnant encore, ceci appartient à l’idéologie de l’entreprise. Les organismes publics en sont exclus… nouveau paradoxe révélateur d’un autre pan de l’idéologie actuelle: la perte de légitimité du politique et de la morale publique.

Big Brother pourrait-il n’être qu’une publicité?

Données personnelles et big data

Rappelons que les données personnelles ne constituent qu’un sous-ensemble du big data tel que défini, par exemple, par IBM (3) un de ses opérateurs de référence.

Chaque jour, nous générons 2,5 trillions d’octets de données …/… Le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.)

Les données structurées, ce sont celles qui sont gérées par des bases de données traditionnelles. On en fait des tableaux, des statistiques d’autant plus facilement que leur contenu est « sémantiquement faible » (lieu, moment, numéro appelé, durée des messages, fréquence des visites…) donc principalement des chiffres et des mots clés….

Le recoupement de ces données bien que potentiellement redoutable, est perçu comme usuel. La nouveauté, celle qui est supposée porter le marché des données personnelles à 1000 milliards de dollars pour la seule Europe en 2020 (source Boston Consulting Group), c’est bien sûr l’exploitation des données non-structurées… celles de Facebook… et assimilées.

L’idée est qu’on saura trouver en elles par recoupement, a postériori, un sens dont elles sont dépourvues au départ. Mieux, le recueil extensif de ces données est supposé révéler « tous les sens possibles ». Appliquée à nos données personnelles, cette approche est vouée à rendre transparentes les facettes les mieux cachées de nos personnalités… et ce, impérativement en temps réel, puisqu’il en arrive en permanence.

Cela signifie, par exemple, qu’au milieu de ces « trillions d’octets de données » circulant « quotidiennement » sous « tous les formats possibles » (texte, images, vidéos, tableaux, voix…), des robots se font fort « en temps réel », de débusquer les obsédés sexuels à partir de ces messages:

• J’ai lu « le deuxième sexe » de Simone de Beauvoir

• J’ai vu tous les films d’Ursula Bombix

• Je m’intéresse aux rapports entre les sexes dans les tribus amérindiennes du XVIIème siècle

• Si ma boulangère savait tous les trucs que je rêve de lui faire

On remarquera que le mot « sexe » n’apparait pas dans les messages les plus explicites, quand une phrase du type « tu ne penses vraiment qu’au sexe » pourrait n’être qu’une plaisanterie… et que le même terme « sexe », inclus dans un formulaire, se devra d’être ignoré.

Le traitement de ces données n’a donc vraiment rien de trivial et, d’ailleurs, tout laisse supposer que même la toute puissante NSA est en train de s’y noyer (4).

Quoi qu’il en soit, le traitement de ces données restera d’un coût très élevé, cela n’est contesté par personne, d’autant que la quantité de données à traiter ne fera qu’augmenter.

Cela signifie qu’elles ne seront accessibles qu’à des sociétés « riches », c’est-à-dire déjà dotées d’infrastructures informatiques lourdes, et pour lesquelles le bénéfice du big data ne s’appréciera pas par rapport à « zéro », mais par rapport à l’exploitation optimisée des données traditionnelles dont elles sont d’ores et déjà capables.

Pensons à ce que sait déjà faire Amazon: que peut lui apporter d’essentiel un « très coûteux » traitement massif de données personnelles non-structurées?

L’avenir du traitement massif de données personnelles aux fins de marketing ne semble donc pas assuré. Son rapport coût-avantage pourrait s’avérer très décevant, sa faisabilité même restant a démontrer.

Pendant ce temps-là, à l’ombre de ces suppositions, sommeillent des certitudes: celles des probables acteurs-clés de demain, ceux qui détiennent les données personnelles les plus essentielles, les plus inaccessibles aux géants de l’informatique et des réseaux, les données que les commerçants ne seront jamais en mesure d’obtenir par eux-mêmes… celles que possèdent les banques et les compagnies d’assurances.

Nous allons y revenir un peu plus loin.

Les données personnelles et la police

Au chapitre des peurs, on ne peut négliger l’exploitation de nos données personnelles à des fins policières. L’activité de la NSA mentionnée ci-dessus nous le rappelle quotidiennement.

Littérature, cinéma et télévision aidant, chacun sait en quoi consiste une enquête policière classique: recueil d’indices, de trace d’ADN, d’empreintes, appel à témoins, fouille de locaux, analyse de communications téléphoniques, exploration de disque dur, d’historique de navigation, d’opérations bancaires, filatures, enquête auprès des proches, auprès des dernières personnes rencontrées… etc. Une enquête policière a toujours consisté à recueillir le plus grand nombre possible de données sur des individus. Qui aurait-il donc de changé?

Le traitement massif de données personnelles devrait s’avérer rapidement trop coûteux pour des pouvoirs publics affaiblis économiquement, d’autant que celui-ci ne leur sert à rien en tant que tel. Il n’est qu’un réservoir de données disponibles pour tout connaitre d’une cible une fois celle-ci identifiée. Mais ces données-là, ils peuvent s’appuyer sur leur légitimité spécifique pour les obtenir auprès des opérateurs. C’est déjà ce qu’ils font.

Pour le pouvoir politique, le traitement massif de données personnelles est avant tout un élément d’image au service de l’idéologie sécuritaire, très peu efficace en outre, sur les cibles professionnelles.

Philip Kindred Dick et Minority Report aidant, nous sont vendues aujourd’hui leurs supposées capacités prédictives. Il est heureusement probable que celles-ci vont faire commettre tellement de bavures qu’avant même d’espérer être au point elles seront totalement discréditées… quand les bonnes vieilles méthodes, avec les bons vieux « indics » continueront à couler des jours heureux… pour beaucoup moins cher.

Recettes, dépenses et solvabilité: données personnelles fondamentales du marketing

Votre banque connait non seulement ce que vous avez dépensé chez Amazon, mais également chez ses concurrents. Elle connait en temps réel les modifications de votre situation de consommation (arrivée de fonds ou dépenses inopinée, indicateur de mariage ou de grossesse…). Elle sait si vous êtes solvable à l’échelle d’une chemise, d’une grosse voiture ou d’un logement). Elle sait à quand remontent vos achats d’équipements périssables. Elle sait en quoi vous relevez d’un profil courant et quelles sont vos particularités de consommation. Elle peut facilement reconstituer le kilométrage de votre voiture. Si quelqu’un sait à quel moment et sur quel produit il faut vous « faire profiter d’une offre exceptionnelle », en y adjoignant un plan de financement « adapté à vos moyens »… c’est bien votre banque.

Tout cela… et bien plus encore… sans avoir besoin de psychanalyser vos mails… en ne manipulant que des données personnelles « structurées », en se basant sur des actes tangibles d’achats réels… et sans même avoir à bouleverser son mode usuel de traitement de l’information.

Très imbriquée à l’activité bancaire, la compagnie d’assurance détient en propre un pouvoir coercitif lui permettant de se procurer les données personnelles les plus sensibles (« si vous avez omis ou menti, le jour du sinistre vous ne serez pas assurés et vous aurez payé pour rien »). Elle sait tout ce qu’elle a besoin de savoir sur votre patrimoine et sur votre santé.

Banques et compagnies d’assurance ne connaissent sans doute pas nos goûts musicaux aussi bien qu’Apple, mais elles devraient pouvoir s’en sortir sans çà.

Mais alors qu’attendent-elles? Peut-être seulement que le marché des données personnelles soit mûr, c’est-à-dire notamment que les prestataires du big data se soient chargés de le « chauffer». Elles procéderont alors au lobbying nécessaire pour obtenir les autorisations qui leur manquent et commenceront à exploiter nos données personnelles de manière bien moins coûteuse et bien plus efficace. Cerise sur le gâteau, leur activité dans ce domaine paraitra presque innocente par rapport aux menaces qu’on y avait entrevues.

Nos données personnelles dans la durée: la métaphore radiologique

Que trouverait-on dans les archives radiologiques d’un patient lambda?

• Tout sur son épaule gauche (radiographie, scanner, IRM)

• Tout sur son genou droit (radiographie, scanner, IRM), mais 10 ans plus tard

• Plusieurs radiographies simples étalées dans le temps de son bras gauche qui le montrerait tantôt cassé tantôt en bon état

• Deux radiographies dentaires réduites à une seule dent

• Rien sur le reste

Ceci nous donne une représentation plausible de ce que pourrait livrer, sur la durée, un traitement massif de nos données personnelles: des séquences extrêmement détaillées, riches de sens pour certaines, ambiguës pour d’autres. D’autres séquences plus approximatives… plus obsolètes… des vides… des incohérences…

Le big data est-il mort-né ?

Le big data dispose de terrains, plus faciles, plus utiles et surtout plus rentables pour ses opérateurs que le traitement des données personnelles.

À l’instar d’ECHELON, son ancêtre, la NSA finira sans doute par trouver son utilité dans l’espionnage économique. Dans les domaines techniques, les robots disposent, en effet, de termes précis et irremplaçables pour les guider dans leur recherche du sens.

Dans l’exploitation « individualisée » des données personnelles, il n’est pas établi que le big data soit même capable d’exister. Par contre, l’exploitation « collective » de ces mêmes données pourrait lui ouvrir un champ d’activité très particulier, voire très nouveau… lui aussi potentiellement très inquiétant.

Ce sera l’objet du prochain billet.

————————————————– •• —————–

Sur les dérives associées à nos données personnelles on lira ce billet de la LDH

(1) new scientist

(2) universum

(3) IBM

(4) voire les billets « l’improbable utopie du big data » et « sa suite«