Geolabel-maker : Génération d’échantillons pour l’IA en open source
Catégorie: A l'actu, Cartographie, Données, Imagerie, Recherche, Satellite/Spatial
Les stages et les projets étudiants aboutissent régulièrement à des outils finalisés. La preuve avec Geolabel-maker, dédié à la génération d’échantillons pour les algorithmes d’apprentissage supervisé. Récemment publié sur Github, il est le fruit d’une collaboration entre Makina Corpus, une stagiaire et un étudiant. Détails.
« Dans le cadre du développement de chaînes de traitement basées sur le deep learning, nous souhaitions automatiser l’extraction des toits en milieu urbain, visibles sur les images aériennes ou satellitaires, rappelle Daphné Lercier, chercheuse à Makina Corpus. En 2020, nous avons accueilli pendant six mois Lucie Camanez, data analyste, stagiaire de la Wild Code School, afin de faire les développements. Il lui a fallu constituer son jeu d’apprentissage et c’est ainsi qu’est né Geolabel-maker, car nous nous sommes vite rendu compte qu’un outil un peu plus générique nous serait également très utile. » En effet, dans le domaine de la géographie, les bases d’apprentissages manquent (voir par exemple nos articles sur le sujet ici et ici) et chacun se construit sa bibliothèque en fonction de la problématique traitée, plus ou moins manuellement.
Générer automatiquement des échantillons, même sans données sources
Le rôle de Geolabel Maker est donc d’automatiser la production des jeux d’apprentissage. Pour cela, le logiciel se sert de géométries vectorielles déjà constituées et labellisées (la fameuse vérité terrain) pour enrichir des images aériennes ou satellites, constituant ainsi des données d’entraînement qui permettront au réseau de neurones d’apprendre à identifier ces mêmes labels (bâti, végétation…) sur une simple image aérienne ou satellitaire.
« L’une des originalités de Geolabel-maker, c’est qu’il est désormais capable de fournir des données à différents types de réseaux de neurones » se félicite Arthur Dujardin, étudiant en dernière année d’ingénieur à l’ENSG qui a poursuivi et enrichi les développements réalisés par Lucie Camanez. « Entièrement développé en Python, Geolabel-maker sait aussi bien générer des échantillons pour des algorithmes de classification, de segmentation que de détection, avec des formats adaptés, comme le COCO (Common Objects in Context) utilisé par Microsoft pour fournir des bases d’échantillons de segmentation et de détection ».
L’étudiant a également optimisé le code et amélioré l’ouverture du logiciel à l’amont. « Nous utilisons OpenStreetMap pour les données vectorielles. Mais si l’utilisateur n’a pas de données d’entrée pour son projet, Geolabel-maker lui permet d’aller chercher des couples (images/vecteurs) via des flux ouverts : celui d’OSM bien sûr, mais également des images fournies par l’API Mapbox ou Sentinelsat ». L’outil sait en outre travailler à des échelles différentes, avec des niveaux de zoom différents.
Même si Geolabel-maker est déjà disponible sur Github, Arthur Dujardin finalise la documentation et les tutoriels, avant sa soutenance début mars. Ensuite, il fera son stage de fin d’études, toujours dans le domaine de l’imagerie spatiale et de l’intelligence artificielle.