Chroniques d’un GEOINT au goût de COVID.
Épisode 3
Catégorie: A l'actu, Données, Entreprises, Sécurité/défense
La chronique GEOINT de Thierry Rousselin, TMCftn
Dans la pagaille ambiante, le petit monde de l’intelligence géospatiale, alias GEOINT, ne pouvait pas rester à l’écart. Faisons le tour des acteurs… et de leurs actions. Et après la Chine et la Défense US, comment ça se passe au pays des stakhanovistes du label ?
L’étiquetage (labelling en anglais) est depuis deux ans au cœur de toutes les discussions sur la bascule des workflows d’analyse traditionnels vers des workflows « AI enabled » dans le monde du GEOINT. Pendant la période de confinement, l’Amiral Sharp, directeur de la NGA a indiqué qu’une partie des analystes en télétravail se consacraient à des tâches de labelling. Et une étude Cognylitica, publiée en début d’année, a montré que les projets d’IA consommaient 25 % du temps au nettoyage des données et 25 % à l’étiquetage. C’est donc un enjeu colossal en termes de temps consommé à des tâches de servitude, ainsi qu’en termes de coût et de qualité des résultats.
L’étiquetage : loin d’un job de rêve
Comment chaque acteur se débrouille-t-il avec cette contrainte ? Aux États-Unis, après des années de bricolage, la défense US a décidé en 2017 de passer à l’ère industrielle avec des succès techniques, mais également des polémiques : les grandes opérations de labelling incluses dans le projet Maven pour la défense faisaient partie des conflits qui ont agité les salariés de la Silicon Valley en 2018-2019. En France, la récente polémique sur les activités d’Ingedata illustre le caractère sensible du sujet. Les opérations fastidieuses et répétitives réalisées à la main se retrouvent assez vite délocalisées dans des pays à coût de main-d’œuvre faible. Et on ne peut s’empêcher de faire un parallèle avec ces municipalités françaises progressistes qui, il y a quelques années, faisaient numériser leur cadastre dans des pays aux législations sociales accommodantes.
Une industrie en développement… mais peut-être éphémère
Car ce besoin a créé un énorme marché et donc… une industrie. Des acteurs majeurs se déploient comme IMerit, Figure Eight (racheté l’an dernier 300 millions de dollars par Appen), Mighty AI (racheté en 2019 par… Uber) ou Cloud Factory. IMerit fait tourner 9 usines 24 heures sur 24 dans des pays à bas salaires pour satisfaire des marchés divers : médical, véhicule autonome, sport, assurance, agriculture, commerce… mais aussi l’imagerie. Appen prétend disposer d’un accès à une foule « qualifiée » de plus d’un million de « flexible contractors » répartis sur l’ensemble du globe. Dans le monde d’Après, « flexible contractor » se traduit par « esclave à domicile ». Les capacités de ces industriels visent finalement à égaler la disponibilité pour les acteurs chinois de l’IA de « foules qualifiées » (volontaires ou pas).
Dans notre domaine thématique, les conférences GeoConnect Series remplaçant GEOINT 2020 permettaient de se faire une idée des éléments clés et des bonnes pratiques à développer. On recommandera les présentation de Daniel Hogan (de In-Q-Tel Cosmic Works), de Slingshot Aerospace et de Kitware (15 mn chaque).
Pourtant, l’avenir pourrait être assez différent. Quelle est la boîte d’IA sur laquelle tout le monde s’excite actuellement ? Snorkel AI. Issue du labo d’IA de Stanford, elle est restée en mode furtif pendant 5 ans pour développer ses services en les testant pour Google, Apple ou la défense américaine (eh oui, on ne se refait pas), elle est devenue publique en 2019 avec des financements privés et… In-Q-Tel. Son créneau ? La construction et la gestion programmatique des données d’entraînement et la suppression des phases d’étiquetage « à la main ».