No Banner to display

Données issues de la téléphonie mobile : potentiel et limites

| 16 février 2015 | 0 commentaire

Catégorie: Cartographie, Contrats, Données, Entreprises, Environnement, Géomarketing, Grand public, Marché, Matériel/GPS, Mobilité, Recherche, Reportages, Réseaux/Transports, Utilisateurs, WebMapping

Chaque utilisateur de téléphone portable génère quotidiennement des milliers de données géolocalisées. Nombreux sont les chercheurs qui explorent cette nouvelle manne d’informations, tandis que des offres commerciales sont désormais proposées par les opérateurs et leurs partenaires. Mais quelles données sont réellement disponibles et à quelles analyses peuvent-elles servir ?

Vingt-sept millions d’abonnés chez Orange, 21 chez SFR, 11,1 chez Bouygues Télécom… Nous avons désormais tous au moins un téléphone mobile dans notre poche, que nous éteignons de moins en moins et qui nous accompagne dans tous nos déplacements. Pour faire fonctionner leurs réseaux, les opérateurs orchestrent un flux de données quasi permanent entre les téléphones et les antennes relais. En effet, le contact entre les téléphones et les antennes ne se fait pas uniquement en cas de communication (SMS, conversation ou appel à une application) mais également à intervalle régulier pour optimiser l’utilisation du réseau. Ainsi, chaque téléphone est localisé plusieurs dizaines de fois par jour grâce au réseau de plus en plus dense des antennes relais.

Une vision au plus près du terrain

Voilà plusieurs années que ces données intéressent les géomaticiens, car elles pourraient offrir une vision en temps réel de la population présente et en déplacement sur le territoire, selon une précision géographique inégalée puisqu’il n’existe pas moins de 20 000 antennes 2G sur le territoire national (et 3 000 sur Paris). Plusieurs travaux de recherche ont montré leur utilité et leur capacité à enrichir toutes sortes d’analyses. « Ces données sont intéressantes car elles sont massives » se félicite Françoise Bahoken de l’IFSTTAR qui a mené plusieurs travaux de recherche. Dans l’absolu, on peut imaginer toutes sortes d’exploitations allant jusqu’à la reconstitution précise de nos déplacements quotidiens. Si mon téléphone reste régulièrement entre 20 h et 6 h au même endroit, il est aisé d’en déduire qu’il s’agit de mon lieu de résidence, surtout si ce motif se répète la majeure partie de l’année. Si je vais de Montpellier à Nîmes en 20 minutes, j’ai certainement pris un train. S’il m’a fallu 40 minutes, j’étais en voiture ou en bus, alors qu’en deux jours, j’étais peut-être à vélo ou à pied. Croisez tout cela avec mon profil socio-économique (mon opérateur détient de nombreuses informations à titre commercial, et mon smartphone en dit aussi beaucoup sur mes habitudes de consommation) et ma vie est suivie à la trace !

 

La durée de la présence dans la zone ainsi que les informations sur le « roaming » (prise en charge d’abonnés étrangers) permettent de différencier les types de touristes en région parisienne, comme l’a prouvé Ana-Maria Olteanu alors qu’elle était chercheuse au laboratoire SENSe d’Orange Labs.

La durée de la présence dans la zone ainsi que les informations sur le « roaming » (prise en charge d’abonnés étrangers) permettent de différencier les types de touristes en région parisienne, comme l’a prouvé Ana-Maria Olteanu alors qu’elle était chercheuse au laboratoire SENSe d’Orange Labs.

Mais dans les faits, l’affaire est plus complexe qu’il n’y paraît. Techniquement, la reconstitution de parcours individuels est délicate, car les données sont aussi brutes (un identifiant, une heure, une cellule de rattachement) que massives. De plus, les antennes sont regroupées en zones plus larges appelées LAC (Location Area Code). Enfin, elles ne sont pas aussi accessibles que nos pires cauchemars pourraient le laisser penser.

Accès restreint

Les restrictions qui pèsent sur leur utilisation sont même devenues un handicap pour les chercheurs qui essayent d’en évaluer tout le potentiel. Pour mener leur étude sur les densités de population en France et au Portugal exploitant un milliard de données Orange, Pierre Deville et Catherine Linard ont dû montrer patte blanche. « Nous avons travaillé sur des données de 2007 et notre projet a dû être validé par Orange » se souvient Pierre Deville, alors à l’Université catholique de Louvain. « Si nous n’avions pas eu Ana-Maria Olteanu-Raimond en post-doc chez Orange Labs, nous n’aurions jamais eu accès aux données » renchérit Françoise Bahoken qui a étudié différentes méthodes pour reconstituer des matrices origine-destination à partir de données Orange. Les procédures sont très strictes et les chercheurs doivent décrire très précisément leur méthode, avant que leur projet ne soit approuvé. Les données auxquels ils accèdent sont anonymisées et déjà partiellement agrégées. Ils ne peuvent faire que des extractions ciblées. Françoise Bahoken a dû se déplacer pour faire ses traitements car aucune donnée ne sort des laboratoires de l’opérateur.

La densité de la population en France, jour après jour, vue par nos téléphones mobiles. Une étude exploitant des données Orange et publiée par des chercheurs belges.

La densité de la population en France, jour après jour, vue par nos téléphones mobiles. Une étude exploitant des données Orange et publiée par des chercheurs belges.

Sujet sensible

Et la situation ne s’arrange pas, car la position de la CNIL se durcit. Entre éthique et obligations légales, les chercheurs européens perdent « du terrain » face à d’autres zones du globe où les autorités en charge de la protection de la vie privée sont moins regardantes. « Si Orange est accusé de surveiller ses abonnés, le risque commercial est énorme et il peut perdre des milliers de clients » analyse Zbignew Smoreda, sociologue à l’Orange Labs. Même en interne, les équipes ne font pas ce qu’elles veulent. La question de l’image est parfois à double sens. Si Orange est très prudent en France (et a refusé par exemple de donner aux préfectures des données de comptage lors de manifestations), il est plus proactif dans certains pays en développement qui ont peu de données statistiques officielles. Les Challenges D4D (Data for Development) qui se sont déroulés en Côte d’Ivoire et au Sénégal ont permis à différentes équipes de recherche d’explorer des jeux de données très complets sur les communications locales. Différents programmes internationaux de ce type rassemblent même des données émanant de plusieurs opérateurs, comme Global Pulse, initié par les Nations unies.

Potentiel des données issues de la téléphonie mobile dans l’étude de la propagation du virus Ebola. Une étude menée par une équipe de chercheurs de la Flowminder foundation et de l’École de santé publique de Boston exploitant des données Orange, publiée en septembre 2014

Potentiel des données issues de la téléphonie mobile dans l’étude de la propagation du virus Ebola. Une étude menée par une équipe de chercheurs de la Flowminder foundation et de l’École de santé publique de Boston exploitant des données Orange, publiée en septembre 2014

Une offre commerciale

Grâce à ces différentes recherches, les opérateurs ont aussi bien compris tout le potentiel commercial des données techniques qu’ils accumulent. Depuis fin 2013, SFR et Orange ont développé des offres. Ici, pas question de commercialiser les données brutes, mais plutôt des indicateurs ciblés pour différents métiers. SFR ne semble pas se positionner sur le marché en tant que tel mais a signé des partenariats avec Intersec et Web Geo Services. Alors que le premier se concentre sur la publicité localisée, Web Geo Services a construit une offre cartographique baptisée Flows. L’entreprise s’est intéressée aux données des opérateurs en participant à différents travaux de recherche menés dans le cadre du projet ANR Territoires mobiles dès 2006 sur l’organisation des transports en commun. Elle a ensuite étudié des scénarios d’implantation de véhicules en auto-partage pour la communauté urbaine de Saint-Quentin en Yvelines. À cause des engagements de confidentialité qu’il a signés avec SFR, Jean-Thomas Rouzin, fondateur de l’entreprise, reste assez évasif sur la méthodologie utilisée pour produire les données agrégées, mais il se veut rassurant : « Nous ne traitons pas d’agrégats inférieurs à dix téléphones. Nous fournissons également les outils de visualisation et d’exploration car les données, même agrégées, seraient trop lourdes à gérer pour les utilisateurs. » L’outil, hébergé dans le Cloud, donne une vision de la population présente et des échanges à l’Iris (parfois selon des zonages plus détaillés en centre-ville) par pas de trente minutes, pour des journées standards de l’année.

D’où viennent les gens qui participent à la Feria d’Arles ? L’offre Flux Vision a mis en évidence que 80 % des visiteurs venaient des alentours (moins de 30 km), contrairement à ce que pensait la collectivité. (© Leonid Andronov pour Thinkstock)

D’où viennent les gens qui participent à la Feria d’Arles ? L’offre Flux Vision a mis en évidence que 80 % des visiteurs venaient des alentours (moins de 30 km), contrairement à ce que pensait la collectivité. (© Leonid Andronov pour Thinkstock)

Orange Business Services propose son offre sous la bannière Flux Vision. Le principe est assez différent. Sur la base de problématiques précises et détaillées avec le client (étude de la fréquentation touristique, mesure de l’impact d’un événement sportif ou culturel, adaptation de l’offre de transports…), l’opérateur met le territoire « sur écoute ». Il fournit alors pendant plusieurs mois des données agrégées selon une répartition spatio-temporelle définie à l’avance. En revanche, il différencie différents types de population : les habitants (ceux qui passent plus de 45 nuits au même endroit), les touristes (qui passent au moins une nuit), les excursionnistes (trois heures) et ceux qui sont simplement en transit. Il caractérise également les grandes masses de population par croisement avec les données du recensement. « Une fois que nous avons construit le modèle, le processus est automatique et les données ne sont pas conservées » explique Jean-Luc Chazarain, directeur des ventes chez Oranges Business Service. Offices du tourisme, collectivités… l’opérateur annonce environ quatre-vingts clients.

Malgré leur niveau d’agrégation, les données issues des opérateurs de téléphonie mobile peuvent compléter utilement d’autres sources de données pour comprendre comment fonctionnent les territoires. Elles ne sont pourtant pas prêtes à remplacer les enquêtes ménages-déplacements car elles n’en possèdent pas la richesse sémantique. Mais elles les complètent utilement en apportant une vision plus quantitative.

 

Print Friendly, PDF & Email
Signaler un contenu

Laisser un commentaire

No Banner to display

No Banner to display