Données issues de la téléphonie mobile : potentiel et limites
Catégorie: Cartographie, Contrats, Données, Entreprises, Environnement, Géomarketing, Grand public, Marché, Matériel/GPS, Mobilité, Recherche, Reportages, Réseaux/Transports, Utilisateurs, WebMapping
Chaque utilisateur de téléphone portable génère quotidiennement des milliers de données géolocalisées. Nombreux sont les chercheurs qui explorent cette nouvelle manne d’informations, tandis que des offres commerciales sont désormais proposées par les opérateurs et leurs partenaires. Mais quelles données sont réellement disponibles et à quelles analyses peuvent-elles servir ?
Vingt-sept millions d’abonnés chez Orange, 21 chez SFR, 11,1 chez Bouygues Télécom… Nous avons désormais tous au moins un téléphone mobile dans notre poche, que nous éteignons de moins en moins et qui nous accompagne dans tous nos déplacements. Pour faire fonctionner leurs réseaux, les opérateurs orchestrent un flux de données quasi permanent entre les téléphones et les antennes relais. En effet, le contact entre les téléphones et les antennes ne se fait pas uniquement en cas de communication (SMS, conversation ou appel à une application) mais également à intervalle régulier pour optimiser l’utilisation du réseau. Ainsi, chaque téléphone est localisé plusieurs dizaines de fois par jour grâce au réseau de plus en plus dense des antennes relais.
Une vision au plus près du terrain
Voilà plusieurs années que ces données intéressent les géomaticiens, car elles pourraient offrir une vision en temps réel de la population présente et en déplacement sur le territoire, selon une précision géographique inégalée puisqu’il n’existe pas moins de 20 000 antennes 2G sur le territoire national (et 3 000 sur Paris). Plusieurs travaux de recherche ont montré leur utilité et leur capacité à enrichir toutes sortes d’analyses. « Ces données sont intéressantes car elles sont massives » se félicite Françoise Bahoken de l’IFSTTAR qui a mené plusieurs travaux de recherche. Dans l’absolu, on peut imaginer toutes sortes d’exploitations allant jusqu’à la reconstitution précise de nos déplacements quotidiens. Si mon téléphone reste régulièrement entre 20 h et 6 h au même endroit, il est aisé d’en déduire qu’il s’agit de mon lieu de résidence, surtout si ce motif se répète la majeure partie de l’année. Si je vais de Montpellier à Nîmes en 20 minutes, j’ai certainement pris un train. S’il m’a fallu 40 minutes, j’étais en voiture ou en bus, alors qu’en deux jours, j’étais peut-être à vélo ou à pied. Croisez tout cela avec mon profil socio-économique (mon opérateur détient de nombreuses informations à titre commercial, et mon smartphone en dit aussi beaucoup sur mes habitudes de consommation) et ma vie est suivie à la trace !
Mais dans les faits, l’affaire est plus complexe qu’il n’y paraît. Techniquement, la reconstitution de parcours individuels est délicate, car les données sont aussi brutes (un identifiant, une heure, une cellule de rattachement) que massives. De plus, les antennes sont regroupées en zones plus larges appelées LAC (Location Area Code). Enfin, elles ne sont pas aussi accessibles que nos pires cauchemars pourraient le laisser penser.
Accès restreint
Les restrictions qui pèsent sur leur utilisation sont même devenues un handicap pour les chercheurs qui essayent d’en évaluer tout le potentiel. Pour mener leur étude sur les densités de population en France et au Portugal exploitant un milliard de données Orange, Pierre Deville et Catherine Linard ont dû montrer patte blanche. « Nous avons travaillé sur des données de 2007 et notre projet a dû être validé par Orange » se souvient Pierre Deville, alors à l’Université catholique de Louvain. « Si nous n’avions pas eu Ana-Maria Olteanu-Raimond en post-doc chez Orange Labs, nous n’aurions jamais eu accès aux données » renchérit Françoise Bahoken qui a étudié différentes méthodes pour reconstituer des matrices origine-destination à partir de données Orange. Les procédures sont très strictes et les chercheurs doivent décrire très précisément leur méthode, avant que leur projet ne soit approuvé. Les données auxquels ils accèdent sont anonymisées et déjà partiellement agrégées. Ils ne peuvent faire que des extractions ciblées. Françoise Bahoken a dû se déplacer pour faire ses traitements car aucune donnée ne sort des laboratoires de l’opérateur.
Sujet sensible
Et la situation ne s’arrange pas, car la position de la CNIL se durcit. Entre éthique et obligations légales, les chercheurs européens perdent « du terrain » face à d’autres zones du globe où les autorités en charge de la protection de la vie privée sont moins regardantes. « Si Orange est accusé de surveiller ses abonnés, le risque commercial est énorme et il peut perdre des milliers de clients » analyse Zbignew Smoreda, sociologue à l’Orange Labs. Même en interne, les équipes ne font pas ce qu’elles veulent. La question de l’image est parfois à double sens. Si Orange est très prudent en France (et a refusé par exemple de donner aux préfectures des données de comptage lors de manifestations), il est plus proactif dans certains pays en développement qui ont peu de données statistiques officielles. Les Challenges D4D (Data for Development) qui se sont déroulés en Côte d’Ivoire et au Sénégal ont permis à différentes équipes de recherche d’explorer des jeux de données très complets sur les communications locales. Différents programmes internationaux de ce type rassemblent même des données émanant de plusieurs opérateurs, comme Global Pulse, initié par les Nations unies.
Une offre commerciale
Grâce à ces différentes recherches, les opérateurs ont aussi bien compris tout le potentiel commercial des données techniques qu’ils accumulent. Depuis fin 2013, SFR et Orange ont développé des offres. Ici, pas question de commercialiser les données brutes, mais plutôt des indicateurs ciblés pour différents métiers. SFR ne semble pas se positionner sur le marché en tant que tel mais a signé des partenariats avec Intersec et Web Geo Services. Alors que le premier se concentre sur la publicité localisée, Web Geo Services a construit une offre cartographique baptisée Flows. L’entreprise s’est intéressée aux données des opérateurs en participant à différents travaux de recherche menés dans le cadre du projet ANR Territoires mobiles dès 2006 sur l’organisation des transports en commun. Elle a ensuite étudié des scénarios d’implantation de véhicules en auto-partage pour la communauté urbaine de Saint-Quentin en Yvelines. À cause des engagements de confidentialité qu’il a signés avec SFR, Jean-Thomas Rouzin, fondateur de l’entreprise, reste assez évasif sur la méthodologie utilisée pour produire les données agrégées, mais il se veut rassurant : « Nous ne traitons pas d’agrégats inférieurs à dix téléphones. Nous fournissons également les outils de visualisation et d’exploration car les données, même agrégées, seraient trop lourdes à gérer pour les utilisateurs. » L’outil, hébergé dans le Cloud, donne une vision de la population présente et des échanges à l’Iris (parfois selon des zonages plus détaillés en centre-ville) par pas de trente minutes, pour des journées standards de l’année.
Orange Business Services propose son offre sous la bannière Flux Vision. Le principe est assez différent. Sur la base de problématiques précises et détaillées avec le client (étude de la fréquentation touristique, mesure de l’impact d’un événement sportif ou culturel, adaptation de l’offre de transports…), l’opérateur met le territoire « sur écoute ». Il fournit alors pendant plusieurs mois des données agrégées selon une répartition spatio-temporelle définie à l’avance. En revanche, il différencie différents types de population : les habitants (ceux qui passent plus de 45 nuits au même endroit), les touristes (qui passent au moins une nuit), les excursionnistes (trois heures) et ceux qui sont simplement en transit. Il caractérise également les grandes masses de population par croisement avec les données du recensement. « Une fois que nous avons construit le modèle, le processus est automatique et les données ne sont pas conservées » explique Jean-Luc Chazarain, directeur des ventes chez Oranges Business Service. Offices du tourisme, collectivités… l’opérateur annonce environ quatre-vingts clients.
Malgré leur niveau d’agrégation, les données issues des opérateurs de téléphonie mobile peuvent compléter utilement d’autres sources de données pour comprendre comment fonctionnent les territoires. Elles ne sont pourtant pas prêtes à remplacer les enquêtes ménages-déplacements car elles n’en possèdent pas la richesse sémantique. Mais elles les complètent utilement en apportant une vision plus quantitative.