internet est-il apte à la survie?

L’analyse de ce volet va demander une difficile prise de recul vis-à-vis des chiffres de l’économie de surveillance qui impressionnent, tout autant que les révélations d’Edward Snowden.

Commençons par poser que contrôle social et consommation de masse constituent aujourd’hui les fondements économiques d’internet, et que c’est autour de ces thèmes que devrait se jouer son futur.

données & internet: une dialectique de la valeur

En dehors des registres utilitaires les plus fondamentaux, la valeur d’un produit ou d’un service est principalement fonction de l’idée qu’on s’en fait. C’est le fondement même de la publicité et le moteur de la société de consommation. Or, dans le domaine qui nous occupe, ce qui pilote les idées c’est l’idéologie du “tout savoir”, qui brouille les analyses par un dédoublement:

idéologie du contrôle pour le dominant: “tout savoir” pour “tout contrôler”
idéologie égocentrique pour le dominé: tout savoir sur… “moi”

Chacune à sa manière égare la pensée, car le savoir qui serait supposé permettre à un pouvoir politique de “tout contrôler” est “principalement” de type statistique, alors “qu’en règle générale” – nous allons y revenir – personne ne se soucie vraiment de tout savoir sur moi.

Or, plus les données d’un individu ont une valeur spécifique, moins elles ont de valeur statistique… et inversement. Ainsi, sauf exception, un message adressé dans les réseaux sociaux est une donnée dont la valeur est très faible, mais elle se multiplie pour devenir, statistiquement, un indicateur d’opinion. Inversement, toute donnée concernant un chercheur ou un terroriste a une valeur spécifique très élevée, mais aucun intérêt du point de vue statistique.

La collecte massive présente le handicap de devoir être triée… et l’avantage de pouvoir l’être. Car c’est aujourd’hui environ un million et demi de gigaoctets de données par minute qui sont à la recherche d’un sens, alors même que la plus grande partie sont inutiles, redondantes ou incomplètes. En outre, sur la durée, plus le recueil est massif, plus il est coûteux et moins il est informatif, car il contient de plus en plus de données déjà recueillies… et même massivement déjà recueillies.

gestion de données hiérarchisée ou polarisée

données hiérarchisées

Les clés ultimes du tri vont dépendre de la problématique du demandeur, cependant, quelle que soit cette problématique, le recueil massif de données vise à être prédictif, ce qui lui donne pour finalité la modélisation des phénomènes ou des comportements. Cette modélisation se construit à partir des corrélations que l’on peut observer dans un ensemble de données, et qui sont d’autant plus fiables que l’ensemble des données analysé est vaste, ce qui permet d’obtenir une hiérarchisation, voire une imbrication, de modèles selon le nombre et la stabilité des corrélations observées.

Ce mode de traitement est, à beaucoup d’égards, le moins intelligent. C’est celui où la machine fait presque tout toute seule (corrélations, regroupements), alors qu’il est aussi celui qui intéresse le plus grand nombre d’organismes de tous horizons. Il est le mode de traitement le plus spécifique d’internet et le fondement de son économie. Son avenir n’en est pas moins entaché d’un certain nombre d’incertitudes. Nous allons y revenir.

données polarisées

Lorsqu’il s’applique à des cibles identifiées, le recueil va s’appliquer à tout ce qui peut leur être corrélé (lieux, personnes…) et tout ce qui peut être associé… à ces premières corrélations… à l’image du “cas contact”, qui nous est devenu familier avec la Covid. On obtient, dans ce cas, un ensemble de données polarisé. Curieusement, ce sont celles-ci qui font le plus peur (le “tout savoir sur moi”), alors que le futur d’internet en dépend très peu:

Nos données les plus essentielles, nous les mettons de nous-mêmes – et généralement par obligation – à la disposition des organismes qu’elles intéressent vraiment (voir “Big Brother: l’écran de fumée qui cache un autre futur”)… quand ce ne sont pas eux qui nous les fournissent.
La publicité personnalisée, icône de cet abus de surveillance, tient plutôt du gadget
Le suivi “ciblé” est un outil d’espionnage, activité financée à fonds perdu, qui n’est même pas supposée offrir un retour significatif, à l’image de la NSA qui, en dépit des moyens considérables dont elle dispose, n’a jamais rien prévu des drames qui ont pu frapper les États-Unis (dans ces conditions, une entreprise classique aurait fait faillite depuis longtemps). Cette activité est surtout portée par l’idéologie du “tout savoir” des pouvoirs en place.

Le suivi ciblé n’est cependant pas réservé aux seuls terroristes. Il peut concerner tout individu considéré comme représentatif de quelque chose de plus grand que lui:

indicateur direct, comme un ingénieur dans le domaine de l’espionnage économique, dont les changements de contacts ou d’habitudes peuvent renseigner sur les nouvelles orientations d’une entreprise
indicateur indirect, associé à une modélisation, et considéré comme représentatif d’une certaine population. Les “analyses d’audience” de la télévision fonctionnent depuis longtemps sur ce principe.

Le suivi des indicateurs se positionne comme un “substitut” possible au traitement massif. Leur détection pourrait même devenir l’objectif principal de ce traitement… avant de finir par s’y substituer.

quelques paramètres de l’économie des données

En dehors d’un contexte de guerre, si l’internet “public” était amené à sombrer, ce serait par des effets dominos de type économique: coûts en hausse, bénéfices en baisse… pour l’exploitant, les intermédiaires, les clients … ou les utilisateurs.

Au travers de l’exploration systématique des différents paramètres de la consommation par le recueil massif de données, Internet vit donc surtout du transfert de données à faible valeur qui ne trouvent un sens que par leur nombre.

le futur des statistiques massives

La pertinence des statistiques massives suppose que l’évolution des modèles de comportement se maintienne à l’intérieur d’au moins deux “fourchettes”:

Trop de stabilité génère un rendu peu informatif (la courbe plate). Trop d’instabilité (la courbe en dents de scie) induit des interprétations aléatoires et surtout éphémères.
Trop peu de variables prises en compte amènent, là encore, à un rendu peu informatif. Beaucoup de variables provoquent l’accumulation de “cas” ou l’augmentation des écarts-types qui amènent rapidement à la perte d’un sens exploitable.

Dans tous les cas de “sorties de ces fourchettes”, on obtient un outil d’aide à la décision peu performant pour l’entreprise cliente, susceptible de la pousser à travailler à partir de ses propres hypothèses… soit, ce qu’elle faisait… avant internet.

le futur des processus de recueil et de traitement

Une pression sur le prix des prestations dans ce domaine sera exercée par une concurrence sans doute sévère. Ainsi, le recueil massif va devoir, d’une façon ou d’une autre, s’inscrire dans des processus d’optimisation, difficiles à gérer, susceptibles d’impliquer un affaiblissement de la qualité, et dont on peut prévoir qu’ils vont être contrariés par les activités mafieuses (davantage de barrières, de précautions, de chiffrement …), sur lesquelles nous allons revenir dans un prochain billet.

le futur des évaluations

Les machines, l’IA et autres robots vont permettre “aussi” aux entreprises clientes de mieux évaluer le réel bénéfice qu’elles tirent du recueil massif, en tenant compte notamment des charges qui leur incombent en matière de “préparation des données”. Dans les activités commerciales, les promesses et les idéologies pourraient n’avoir qu’un temps.

le futur de la société de consommation

Dans l’attente d’un croisement des différents angles de vue retenus pour évaluer la pérennité d’internet, on peut déjà avancer:

que le futur d’internet sous sa forme actuelle est intimement lié à la pérennité de la grande consommation… loin d’être assurée à moyen terme (voir: “la société de consommation: une parenthèse historique?”)
que la gratuité d’internet serait gravement affectée par l’affaiblissement du marché des données personnelles qui fonctionnent comme une de ses principales contreparties aux côtés de la publicité

La gratuité se réduisant, le nombre d’utilisateurs pourrait fondre rapidement dans de nombreux usages. Le recueil massif de données y deviendrait… beaucoup moins massif… donc moins pertinent dans les registres où la qualité dépend de la quantité collectée (voir plus haut)

… ce qui ferait d’autant plus reculer la gratuité … etc…

Soit un exemple d’effet domino comme évoqué plus haut.

en marge de l’économie

Une prise de pouvoir d’organismes de surveillance de type Big Brother ne peut être totalement exclue, notamment avec l’émergence des capacités multipliées de traitement que devrait proposer l’informatique quantique, mais on peut postuler qu’elle ne pourra s’installer ni très rapidement, ni très facilement, ni très complètement. Même appuyée sur de gros moyens, elle ne pourrait sans doute s’opérer que sur un nombre relativement restreint de données, même si celles-ci sont à haute valeur ajoutée: la géolocalisation des individus en temps réel est ce qui correspond le mieux à ce profil.

Mais si nous sommes toujours là dans l’univers des données, nous ne sommes sans doute plus dans celui d’internet.

internet est-il apte à la survie? – (2) les données