Données carroyées de l’INSEE, entre espoir et déception
Catégorie: Cartographie, Données, Entreprises, Géomarketing, Institutions, Reportages
Pour les uns, la diffusion par l’INSEE de données carroyées gratuites selon une maille de 200 m de côté est une grande avancée. Pour les autres, c’est plutôt une fausse bonne idée. Explications et regards croisés.
La première tentative fut un flop ! Alors qu’elles étaient attendues avec impatience, les données publiées par l’INSEE sous forme de mailles en début d’année 2013 avaient été rapidement épinglées par Le Canard enchaîné. La méthodologie proposée faisait amplement appel à des techniques de « brouillage » pour éviter l’identification d’individus, mais n’avait pas été comprise.
De rectangles en carreaux
L’institut a rapidement révisé sa copie et a publié en novembre 2013 une série de données sur les ménages (revenus, composition, logements) selon une maille de 200 m de côté en France métropolitaine. Le territoire est ainsi découpé en 2,3 millions de carreaux habités qui comprennent un minimum statistique de 11 ménages. Pour chaque carreau, l’INSEE publie un comptage de la population obtenu par géolocalisation à l’aide du cadastre de la taxe d’habitation et des déclarations de revenu 2010 (fichier des revenus fiscaux localisés – RFL). Ces carreaux sont eux-mêmes issus de la division de 700 000 rectangles plus larges et de taille variable en fonction de la densité de population (en zone très dense, carreaux et rectangles sont identiques). En fait, la plupart des données sont proposées selon ce découpage plus global (revenus, âge…), aux utilisateurs de les répartir dans les carreaux en utilisant la variable population comme clé de répartition. De plus, certaines données « sensibles » (revenus extrêmes, familles monoparentales, personnes âgées…) sont parfois « windsorisées », c’est-à-dire que les valeurs extrêmes sont ramenées dans les classes plus centrales.
L’avenir est là !
Depuis la disparition de la diffusion des données à l’îlot, les statisticiens attendaient des données plus précises que l’Iris, qui reste trop grossier avec ses 2 000 habitants minimum. Ils apprécient les données carroyées, qui permettent de s’abstraire des découpages administratifs et facilitent la comparaison entre territoires. Pour Emmanuel Granger de CARTEGIE, cette publication est une véritable plus : « Elle nous apporte une nouvelle richesse d’analyse, et nous a permis de calculer des indicateurs pour mieux appréhender les revenus. » L’entreprise de géomarketing loue des fichiers de particuliers que les données INSEE lui permettent de mieux qualifier. Même enthousiasme chez Henry Ciesielski, chargé d‘études au conseil général des Yvelines qui a testé les données pour mieux comprendre la composition sociale des nouveaux quartiers grâce notamment à la variable sur le nombre de ménages présents depuis plus de cinq ans. CARTEGIE propose également une plateforme d’analyse de données en mode SaaS (data drive) où les utilisateurs peuvent désormais calculer des zones de chalandise exploitant ce carroyage.
Mais des réserves
Le directeur du développement de CARTEGIE n’en est pas moins prudent sur ce qui peut être fait avec ces données, dont il connaît les limites. « Ce qui nous intéresse, ce sont les tendances. Nous n’utilisons que des rapports de densité et nous nous gardons bien de faire des comptages au carreau. » « Je ne me permettrai pas de croiser d’autres données sur ces carreaux, complète Henry Ciesielski, ce serait trop risqué statiquement ». Laurent Lepiller, en charge du géomarketing chez Esri France, n’apprécie pas l’élimination des extrêmes : « La windorisation est un contresens. Ce qui nous intéresse en géomarketing, ce sont les écarts, pas les médianes ! » Également critique sur le géocodage du RFL, l’éditeur a publié son propre maillage à 50 m de côté, France50 : « Nous ne communiquons pas sur le détail de notre méthode, mais nous sommes partis du bâti que nous avons qualifié selon une typologie nous permettant d’en déduire un nombre de logements, de mètres carrés habitables et donc, de ménages. Nous avons ensuite rapporté les résultats du recensement à l’Iris, ce qui nous permet de projeter d’autres données, selon une règle de trois. » Mais là encore, le maillage ne doit pas être lu maille à maille « car avec un carroyage, il y a toujours une forme de lissage » tient à préciser Laurent Lepiller.
Ce découpage initial proposé par l’INSEE servira-t-il de base à la diffusion régulière de données essentielles ? Une question qui reste ouverte et fera (ou pas) le succès de cette nouvelle forme de géolocalisation.