l’improbable contre-utopie du big data -

Ce billet constitue le second volet d’une analyse du Big Data. Il fait suite à «le futur du big data: le préalable idéologique»

big datas & contre-utopie

Une contre-utopie policière et judiciaire ?

Au commencement d’un possible cauchemar on trouve “l’intime conviction“. (source)

La Cour de Cassation (Cass. crim. 14 octobre 2009) a considéré qu’une décision de cour d’assises prononcée sur la base de l’intime conviction ne violait pas les règles concernant la motivation des arrêts et les exigences de la Convention CEDH.

L’intime conviction est ce dont dispose un juge ou un jury pour faire face à l’absence de preuve dans le jugement d’un délit. Sur quoi se fonde une intime conviction? Sur des indices convergents.

Or, le Big Data est une gigantesque fabrique de convergences… donc d’indices convergents… donc d’intimes convictions… susceptibles d’être fondées en droit en l’absence de preuves.

De là découlent toutes les effrayantes dérives possibles de la contre-utopie telles qu’évoquées par plusieurs articles d’internetactu (billet 1) (billet 2)

Le principal risque des Big Data ne porte pas tant sur la vie privée que sur le risque que nous soyons amenés à juger les gens non pas sur leur comportement réel, mais sur leur propension à avoir le comportement que les données leur prêtent.(1)

ou encore

Le risque est bien de voir demain l’information en ligne préjuger de qui nous sommes et se tromper …/… La technologie risque de devenir cauchemardesque pour ceux qui seront mal identifiés (2)

et surtout

Que se passera-t-il quand les données seront capables d’identifier des individus dangereux avant même qu’ils n’aient commis de crime ? (1)

car le Big Data se veut prédictif

Dans sa dimension de contre-utopie, le Big Data met des capacités prédictives hors-normes au service d’une utilisation dans le domaine du contrôle social. En filigrane, la prévision des délits à la manière du Minority Report de Philip K. Dick.

Mais là, nous tombons très vite sur un premier problème. Soit le délit considéré est suffisamment fréquent pour rendre possibles des évolutions mesurables, susceptibles de mises en corrélation avec d’autres séries de données, soit il a un caractère exceptionnel et par définition… il est en corrélation avec rien du tout.
Or c’est bien contre les délits les plus graves, qui sont bien heureusement aussi les moins fréquents, que l’on recherche un mode de prévention à travers le Big Data.

l’impasse économique du big data

la question de l’évolution exponentielle

IBM présente ainsi ses activités dans ce domaine

Chaque jour, nous générons 2,5 trillions d’octets de données. À tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d’images numériques et de vidéos publiées en ligne, d’enregistrements transactionnels d’achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources.

Or le volume de données ne va pas en rester là:

Les volumes de données vont augmenter d’un facteur trente d’ici à 2020 pour atteindre 35 zettaoctets au niveau mondial …/…les données non structurées croîtront cinq fois plus vite que les données structurées.

Que se passe-t-il quand nous nous documentons sur un sujet dont nous ne connaissons rien ? Nos premières sources nous apprennent beaucoup… les suivantes moins. Plus nous explorons, plus nous investissons du temps, plus nous retrouvons des informations déjà connues ou sans grand intérêt. Ce qu’on appelle un rendement décroissant. Pourquoi cela devrait-il être différent avec le Big Data? Combien nous promet-il de trillions d’octets de données redondantes par jour ?

Or, pour beaucoup, l’intérêt du Big Data se concentre dans ses capacités prédictives. Celles-ci se construisent autour des corrélations de séries de données… c’est-à-dire sur une base combinatoire.
Combien de combinaisons possibles vont générer 2,5 trillions de données quotidiennes, avant même les évolutions prévues pour 2020 ?

Il est impensable que même la plus perfectionnée des machines existante ou à venir puisse gérer une telle masse de combinaisons de façon intelligente.
Il est par contre tout à fait possible que les prestataires de services de ce très juteux marché trouvent un grand intérêt à convaincre du contraire le plus grand nombre, en profitant d’un terrain idéologique favorable déjà évoqué par ailleurs: «on croit davantage à ce qui fait peur».

la question des coûts

Le traitement d’une telle quantité de données à un coût… un coût élevé. Au point même qu’IBM croit utile de mentionner, dès sa page d’accueil, de prestataire Big Data:

De nombreux clients bénéficient d’un retour sur investissement tangible avec les solutions IBM.

Dès la page d’accueil… il ne s’agit déjà que de “nombreux clients“ (donc… “pas tous“)… et de retour sur investissement “tangible“ (donc… pas “spectaculaire“). On ne saurait mieux évoquer le caractère très problématique du retour sur investissement. Qu’en adviendra-t-il après une augmentation exponentielle de la quantité de données ?… sachant que l’impact documentaire aura un rendement décroissant.

les impasses méthodologiques du big data

la question des causalités

Afin de ne pas entrer dans un développement philosophique aux limites incertaines, nous allons poser que “donner un sens“ à un phénomène consiste à le traduire en des termes qui se réfèrent à une “relation de causalité“.

Les capacités du Big Data à compiler et classer une grande masse d’informations ne peut être mise en cause et seront pleinement opératoires dès qu’il s’agira d’accumuler des données sur une cible pré-identifiée… c’est-à-dire quand les causalités la concernant auront été gérées par ailleurs. Il pourrait donc “tout“ savoir d’un individu ciblé (si tenté que cela ait un sens)

Mais dans quelle mesure sait-il créer du sens par lui-même ?

Cette opération ou ce qui en tient lieu ne peut être envisagée qu’à partir de la corrélation dont le bénéfice attendu est résumé par cette citation:

Si l’étude de millions de dossiers médicaux montre que les personnes atteintes d’un cancer voient leur maladie entrer en rémission s’ils prennent de l’aspirine et du jus d’orange par exemple, alors la cause exacte qui explique l’amélioration de leur santé est beaucoup moins importante que le fait qu’ils vivent”, que le remède marche.

On serait spontanément porté à adhérer à ce raisonnement. C’est en seconde lecture que l’on prend la mesure des problèmes épistémologiques sous-jacents.

• Si le jus d’orange et l’aspirine sont des remèdes, comment l’a-t-on su, si l’on ignore pourquoi ils en sont? A-t-on essayé toutes les combinaisons les plus excentriques de produits? D’ailleurs, dans ce cas on n’est plus dans le cadre d’une corrélation, mais d’une relation de causalité.
• Si, par contre, c’est une corrélation, quelle garantie avons-nous de sa validité et notamment que les deux produits nous parlent de la même chose ?Le jus d’orange pourrait être liée au pays où ces fruits sont très cultivés et consommés et qui n’interviendrait dans la corrélation susmentionnée qu’au travers de l’action bienfaitrice d’une épice présente dans la paella, mais impossible à traiter en tant que donnée indépendante.
Quant à l’aspirine, elle pourrait montrer que les personnes concernées auraient souvent mal à la tête… ceci pouvant être provoqué par la rémission de la maladie elle-même. Ce ne serait plus une cause, mais un effet de la rémission.

Un ensemble de séries corrélées peuvent être liées à une cause commune: la religion par exemple peut influencer les habitudes alimentaires, vestimentaires, la fréquentation de certains lieux …etc. Or, le traitement de type Big Data et son principe des libres corrélations va supposer de rendre autonome chaque série de données, c’est-à-dire détruire les systèmes de causalités internes puisque, en reprenant l’exemple, la religion n’est pas la même pour tout le monde et chacune n’induit pas les mêmes comportements.
Cela signifie que non seulement le Big data ne crée pas directement du sens, mais qu’il en détruit.

la lisibilité des corrélations

Soit un individu dont les goûts musicaux permettent de l’inscrire, par corrélation, parmi les individus à risque, alors que ses goûts vestimentaires auraient l’effet inverse. Quelle signification globale va-t-on obtenir en accumulant les corrélations ? Sans aucun doute, la généralisation de ce phénomène ou de multiples sous-ensembles convergents seront appelés à diverger entre eux… ce qui nous donne quelque chose de tout à fait inutilisable en démocratie et de tout à fait inutile en régime totalitaire («le futur du big data: le préalable idéologique»)

l’ancrage à la simplicité

Soit le Big Data s’inscrit dans un processus totalement automatisé qui gère lui-même ses entrées, ses corrélations de données, ses sorties et les actions impliquées en réponse, ce pourrait-être le cas dans une problématique d’autorégulation de systèmes, soit il est une grosse boite noire qui absorbe d’énormes quantités de données pour livrer des sorties utilisables par l’humain.

L’utilisation humaine concrète dans le domaine policier passe par la réintégration de ces données personnelles dans un fichier.

Comment les résultats d’une immense quantité de corrélations peuvent-ils être réintégrés dans un fichier de police? Peut-on imaginer autre chose qu’une forme de notation, par exemple de 1 à 5, sur une échelle de risques théoriquement présentés par l’individu concerné ?

Tout çà pour çà ? A-t-on envie de dire.
Tout çà pour retrouver finalement quelque chose qui existe déjà et de façon sans doute mieux fondée.

l’improbable contre-utopie

le procès en illégitimité

Si l’on reste dans le cadre de la contre-utopie, le Big Data apparait peu recevable sur un plan théorique et méthodologique. On ne peut, en outre, qu’émettre d’extrêmes réserves sur sa future rentabilité économique (… du moins pour ses clients :-)). De plus, l’approche par les courbes consistant à prévoir le futur par extrapolation directe des tendances concentre l’essentiel de tout ce qui s’est produit comme erreur dans le domaine de la prospective.

Socialement, nous serons probablement amenés à admettre le recueil de nos données personnelles, dans la mesure où celui-ci nous sera le plus souvent caché. Mais leur utilisation, spécialement dans des fichiers de police, risque d’être longtemps encore considéré comme illégitime.

Cette illégitimité sociale impliquera logiquement la non-recevabilité par la justice des acquis éventuels du Big Data. Son utilité finale en deviendra d’autant plus discutable… au regard de son coût.

le procès en inutilité

On lira une présentation détaillée du système Echelon dans le Monde Diplomatique de juillet 1999

Il peut être présenté ici de la façon suivante:

Aujoud’hui, il existe une grande puissance qui espionne le monde. Aujoud’hui, vos communications téléphoniques, vos e-mails, vos fax, vos télex, peuvent être interceptés par d’immenses oreilles qui écoutent la planète entière. Aujoud’hui, une grande puissance arrive à lire via satellite le titre du journal que vous lisez à la terrasse d’un café, et bientôt elle lira les articles eux-mêmes. Aujoud’hui, il existe une puissance capable de filtrer les conversations téléphoniques d’un pays entier, de les trier, de les recouper grâce à des ordinateurs capables de recherches intelligentes et thématiques, indexées par mots clefs. Cette grande puissance, c’est l’Amérique.

Echelon a été crée en 1943, et a évidemment bénéficié depuis de tous les progrès des technologies de ce secteur.

Ces grandes oreilles qui savent tout n’ont en aucune manière fait reculer les activités mafieuses, n’ont prévu ni le 11 septembre, ni les massacres cycliques dans les écoles américaines… ni beaucoup d’autres choses… ni même Wikileaks pourtant éminemment redouté par le pouvoir américain.

en guise de conclusion

Toute contre-utopie mise à part, le Big Data ne va sans doute pas être sans effet sur notre futur, bien au contraire. Nous allons y revenir dans un futur billet.