au siècle du “ big data-roi ”, compter va devenir impossible

Classé dans : à partir de la communication | 0

Le Covid-19 a posé la problématique du décompte comme allant bien au-delà des joutes d’intérêts partisans auxquelles nous avions pris l’habitude de la réduire.

Révélée et amplifiée par l’impératif des comparaisons internationales, une réalité est apparue, très paradoxale par rapport à l’idée qu’on se faisait de notre époque: compter devient de plus en plus difficile.

pourquoi est-il devenu aussi difficile de compter?


une dynamique propre au recueil massif de données

À l’instar de beaucoup de consommations, celle des données devient très rapidement addictive. Dans ce domaine particulier, il reste cependant suffisamment de “mathématique” pour que l’on puisse comprendre pourquoi.
  • Plus les données particulières s’accumulent dans un ensemble, initialement perçu comme homogène, plus elles génèrent… des dispersions d’abord, … puis des sous-ensembles visant à créer un ordre dans ces dispersions. Il apparait alors que chaque sous-ensemble identifié… manque de données spécifiques… que l’on va alors rechercher… créant ainsi de nouvelles dispersions… donc de nouveaux sous-ensembles… Prenons l’exemple de la disparition des espèces, sujet très sensible dans l’écologie des écosystèmes et intéressons nous à un animal extrêmement commun: l’abeille.

 

(*) Certains insectes emblématiques, comme les abeilles sauvages, sont relativement bien étudiés. Pourtant, la liste rouge de ce groupe de pollinisateurs révèle que 57 % des 1965 espèces européennes n’ont pu être évaluées faute de données adéquates.
  • Des sous-ensembles mais aussi des corrélations plus ou moins énigmatiques en quête de causes… dont l’identification exigera de nouvelles données.
  • Les données qui se sont accumulées dans chaque domaine exigent un rôle dans les problématiques qui le concernent, faute de quoi, elles alimenteront les remises en cause des résultats obtenus… ce qui nécessitera d’autres données particulières pour faire face à ces controverses.
On sait toujours compter, mais il devient de plus en plus difficile de délimiter avec précision les ensembles que l’on compte.

savoir… de toute urgence

Quand survient l’exigence de disposer d’un chiffre, on le veut, sinon spectaculaire, mais au moins significatif et surtout on le veut… immédiatement. Or «(*) Les systèmes de recensement statistique sont peu adaptés à l’information en temps réel». En temps réel, on ne disposera que “d’estimations”, plus ou moins justes, qui vont néanmoins occuper le terrain du chiffre. Les controverses qui en découleront seront épuisées quand arriveront les “vrais” chiffres… si tenté qu’ils arrivent jamais.

 

(*) La canicule survenue début août 2003 a entraîné près de 15 000 décès supplémentaires en France en l’espace de 10 jours, principalement chez les personnes âgées. Mais on ne l’a su que bien plus tard.

Pourquoi ne l’a-t-on su que bien plus tard?

Plusieurs chiffres sont généralement nécessaires pour “faire sens” et le recueil de chacun d’eux peut faire face à des contraintes spécifiques. Ainsi pour le Covid:

 

(*) L’Insee publie le nombre des décès dans le mois qui suit, tandis que le centre spécialisé de l’INSERM, le CépiDc, publie la statistique des causes de décès (- protégées par le secret médical -) une ou plusieurs années après, tant est complexe le cheminement des informations
Recueils et traitements recouvrent donc des incertitudes multiples. D’autres exemples en témoignent comme l’évaluation des revenus (*) et la mesure de leurs inégalités (*). Il existe plusieurs outils de mesure des inégalités de revenus, qui peuvent aboutir à des conclusions différentes.) et d’autres encore:

 

(*) Chaque année, le ministère de l’Intérieur communique un bilan des disparitions de mineurs, toutefois, il n’évoque pas un nombre « d’enfants disparus”, mais un nombre de « signalements »…/…Personne ne sait combien d’enfants ont réellement disparu.

des problèmes purement statistiques

Les exigences de la communication publique imposent de rendre compte d’un phénomène avec très peu de chiffres et si possible un seul… ce qui généralement impose une “moyenne statistique” qui est susceptible de très mal représenter la réalité d’un phénomène.
Dire que le Covid a fait 10000 morts dans les EHPAD parle ainsi beaucoup plus, que d’entrer dans l’extrême confusion des détails:

 

(*) L’Insee a d’abord calculé la surmortalité constatée en France entre la période du 1er mars et du 13 avril 2019 puis la même période en 2020. Elle est évidente et surtout, extrêmement concentrée géographiquement.
– évidente puisque cette surmortalité apparaît dans 81 départements sur 100.
– dans 4 départements, elle fait plus que doubler par rapport à 2019.
– dans 33 départements, elle excède + 20%.
Ce qui signifie que dans une majorité de départements la surmortalité est inférieure à 20%… voire inexistante:

 

À l’inverse, dans 19 départements, essentiellement situés en Nouvelle Aquitaine, dans le Massif Central ou en Occitanie, une sous-mortalité parfois impressionnante a été constatée comme en Guyane (- 30%) ou dans le Tarn (-20%). Non seulement les morts du Covid y ont été peu nombreux, mais les autres facteurs de décès (notamment les accidents de la route) se sont évidemment fortement réduits.
En outre, l’association de chiffres peut faire pencher dans un sens ou un autre la balance de l’interprétation immédiate. Ainsi souligner qu’en temps normal 50000 personnes décèdent chaque mois, soit 1600 par jour, modifie assez sensiblement la perception que l’on peut avoir des chiffres bruts de l’épidémie… ce qui pourrait, à tort, la faire paraitre inoffensive. Il n’en demeure pas moins que (*):

 

Entre le 1er mai et le 1er juin, 49 178 décès ont ainsi été enregistrés sur le territoire, soit 3% de moins que durant la même période en 2019

décomptes et connaissance


En dépit de toutes ses faiblesses, le chiffre demeure incontournable non seulement dans la perception du vrai, mais dans l’expression même de toute problématique, alors que les distorsions évoquées ci-dessus ont un caractère structurel. On ne voit, en effet, aucune raison pour que les deux forces antagonistes qui agissent en permanence sur le décompte soient appelées à être moins actives dans le futur:
  • l’exigence fondamentale de la communication qui impose de transmettre un phénomène par un nombre de chiffres le plus réduit possible… maximum “2”… si possible “1”… et qui se donne pour objet d’imposer une conviction dénuée d’ambiguïté
  • une approche de la connaissance qui se nourrit d’un inextinguible besoin de données et qui ne peut déboucher que… sur l’incertitude.
Le chiffre a perdu sa neutralité d’entité mathématique: aujourd’hui il mesure des choses qui vivent, qui bougent, des ensembles qui ne se définissent pas de la même façon pour tout le monde. Il devient impossible de délimiter les ensembles de ce que l’on compte. Un précédent billet (voir “probabilités,corrélations: quand la science ne sait plus”) amenait à une conclusion du même type:

 

Au-delà d’une masse critique, plus on a de données… moins on sait

Ce problème du décompte devrait mettre en danger le “marché de la donnée” si celui-ci était vraiment motivé par l’exactitude. Il sera sans effet sur “l’idéologie des données” qui semble désormais bien installée… et sans doute pour longtemps.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *