Carte à ne pas faire : La mauvaise discrétisation de Caradisiac

caradisiac-carte-indice-flicage-screenshot

La réalisation d’une carte en plages de couleurs à partir d’une donnée chiffrée peut se révéler un exercice plus périlleux qu’il n’y parait !

Un grand site d’information sur l’automobile a récemment proposé une enquête très intéressante sur le rapport entre les points de permis retirés et le nombre d’automobiles en circulation dans les régions. Si l’enquête se révèle pertinente, elle est pourtant desservie par une carte « à ne pas faire », ou « comment une mauvaise discrétisation* peut entrainer une mauvaise lecture d’un phénomène ».

Voir l’enquête sur le site de Caradisiac

La discrétisation « CARADISIAC »

caradisiac_1

Très mauvais TAI* (0,5/1 seulement), la carte proposé par le site Caradisiac ne met pas en évidence le décalage entre l’Ile-de-France (très au dessus) par rapport au reste des régions. Les classes coupent des groupes naturels de régions, introduisant des différences là où il devrait y avoir appartenance à une même classe, et inversement (ex : Bourgogne et Auvergne rassemblées à tort avec Picardie et Limousin dans les régions « en vert » au lieu d’être classées dans les régions « en jaune »).

La discrétisation « Articque »

Articque a pris soin de choisir un plus grand nombre de caradisiac_2classes (7) pour une vision moins simpliste de la problématique. Nous utilisons un découpage en méthode des moyennes emboitées avec 8 classes, puis ré-affinée en 7 classes grâce aux seuils observés. On perçoit des différences plus nettes notamment dans les régions « en rouge », et les groupes naturels de régions sont respectés.

Une autre vue : résultat d’une étude de corrélation linéaire

La comparaison linéaire des deux variables, qui sont très fortement corrélées (0,98/1) fait apparaître des subtilités que la simple discrétisation masque : la Corse, par exemple, qui apparaissait dans les régions « en vert », montre en fait une disproportion de points de permis retirés par rapport au parc automobile si on la compare à la tendance nationale.

caradisiac_3

* Discrétisation : opération statistique qui consiste à découper une variable quantitative en classes ou « fourchettes » de valeurs.

  • On remplace chaque valeur « précise » de la données étudiée, associée à un territoire, une commune, une région, etc. par la fourchette de valeurs dans laquelle elle se situe.
    Ex : « 92 habitants, 234 habitants, 728 habitants, … » => « de 10 à 100 habitants / de 100 à 500 habitants / de 500 à 1000 habitants /… ».
  • Cette opération est nécessaire à la réalisation de cartes en plages de couleurs lorsqu’elles représentent une donnée quantitative chiffrée.
  • Il existe de nombreuses méthodes statistiques ou manuelles pour découper une donnée statistique en classes. Elles peuvent donner des résultats très différents.
  • Une mauvaise discrétisation peut induire le lecteur en erreur en lui donnant l’impression que des régions sont semblables (ex : elles sont de la même couleur sur la carte), alors qu’elles ont en réalité des valeurs très différentes.
  • L’indice TAI est un moyen de vérifier la qualité d’une discrétisation.

* TAI : Indice de pertinence de découpage des classes.

  • Un indice qui se rapproche de 0 indique que les classes construites rassemblent des régions qui ne se ressemblent pas. Cela se traduit par une carte qui représente mal la réalité du phénomène observé.
  • A l’inverse, un indice proche de 1indique que les classes construites sont composées de régions qui se ressemblent et qui montrent le phénomène observé avec le moins de subjectivité possible.
Menu