No Banner to display

La science aussi veut s’ouvrir

Catégorie: Cartographie, Données, Environnement, Formation, Grand public, INSPIRE, Institutions, Logiciels, Open Data, Recherche, Reportages

La science est un processus continu. Chaque découverte se nourrit du travail accumulé par plusieurs générations de chercheurs. Peut-on alors penser la science autrement que dans une ouverture totale ? Pas besoin de travailler dans un laboratoire scientifique pour savoir qu’il n’en est rien, ou encore si peu. Pourtant, ici aussi, le numérique fait bouger les choses.

L’absence d’ouverture de la science coûte cher et amène une augmentation des rétractations d’articles scientifiques, qui a été multipliée par cinq depuis les années 90. (Extrait de l’infographie publiée par Julia Giddings le 13 janvier 2014 sur le blog de Projects : https://projects.ac)

L’absence d’ouverture de la science coûte cher et amène une augmentation des rétractations d’articles scientifiques, qui a été multipliée par cinq depuis les années 90. (Extrait de l’infographie publiée par Julia Giddings le 13 janvier 2014 sur le blog de Projects : https://projects.ac)

Plusieurs études le montrent : la science est en danger par manque d’ouverture. Nicole A. Vasilevsky de l’université d’Oregon, note que 54 % des ressources citées dans les 238 études sur le cancer qu’elle a analysées ne sont pas identifiables. « Il y a en effet une tendance inquiétante démontrant que chaque année, la quantité de données de recherche générée augmente de 30 % alors que 80 % des données scientifiques sont perdues en vingt ans », résume Rayna Stamboliyska commentant une infographie publiée à l’occasion de l’initiative Projects. Alors que les scientifiques s’appuient de plus en plus sur des données, ces dernières sont perdues, mal décrites, enfermées à double tour… ce qui nuit à la reproductibilité des expériences. Roberto Toro de l’Institut Pasteur est encore plus sévère. À ceux qui estiment que corps calleux de petite taille et autisme sont corrélés (une opinion visiblement répandue), il répond que les échantillons statistiques des études scientifiques corroborant cette hypothèse sont trop réduits pour que les déviations par rapport à la moyenne soient statistiquement signifiantes. Et d’ailleurs, quand il mesure cet élément du cerveau sur les images cérébrales de 700 individus grâce au projet de science ouverte ABIDE (Autism Brain Imaging Data Exchange), les résultats, cette fois statistiquement valables, sont clairs : aucun lien ne peut être établi !

Entre messages cryptés et recopiages

Face à ce constat et à la nécessité de réconcilier science et société, un mouvement se propage dans les milieux scientifiques qui milite pour une science ouverte qui diffuse sans restriction ses données, ses protocoles, ses logiciels et ses résultats. L’idée n’est pas nouvelle et les scientifiques ont toujours été tiraillés entre protection de leurs matériaux et mise en commun. « Leibnitz et Newton correspondaient en messages cryptés » rappelle ainsi Danièle Bourcier, directrice de recherche au CERSA en ouverture du colloque So Data. Pourtant, dès 1665 et les premières revues scientifiques (Journal des Sçavants, Philosophical Transactions), la notion de droit de copie et de recopie était explicite. « En 1829, le périodique Le Pirate fait l’apologie de la recopie au nom de la science, rappelle Pierre-Carl Langlais de l’Open Knowledge Fondation. Ce n’est qu’en 1908 que la conférence de Berlin signe la fin du droit de recopie, et la mention « tous droits réservés » se répand vraiment dans les années soixante-dix. »

Prise de conscience

La recherche scientifique s’appuyant de plus en plus sur des traitements de données, le mouvement de l’open science rejoint celui de l’open data et plus généralement de l’open access. Les instances européennes semblent désormais sensibilisées à la question, même si la multitude d’actions sectorielles soutenues limite la visibilité des avancées. Le dernier agenda de la recherche européenne Horizon 2020, milite pour l’ouverture des travaux financés pour moitié par des fonds publics, même s’il reconnaît la notion d’embargo pour les résultats de la recherche. L’alliance internationale pour la diffusion et le partage des données scientifiques bataille pour une plus grande ouverture et abrite de nombreux sous-groupes qui analysent la situation par thèmes ou par problématiques particulières. Pourtant, le ministère de la Recherche français n’a pas encore de position claire, et la loi CADA considère encore aujourd’hui les données scientifiques issues de la recherche publique comme des données « à part » pouvant faire l’objet de restrictions.

De nombreuses initiatives ont été prises qui vont dans le sens de cette ouverture. Banques de données librement accessibles d’imageries médicales par exemple (UK Biobank), initiées par des fondations privées mais aussi par quelques structures publiques et des regroupements de laboratoires. Dans le domaine de la biodiversité, citons le GBIF (Global Biodiversity Information Facility), collaboration intergouvernementale créée en 2001 à l’initiative de l’OCDE pour le partage de données sur la biodiversité. Aujourd’hui, 54 pays et 41 organisations représentant 657 fournisseurs de données y participent (dont le Muséum d’histoire naturelle en France), mais peu de données sont géolocalisées sur les 14 000 jeux de données rassemblés. Et Danièle Bourcier de conclure qu’en matière de science, « les données sont entrouvertes ».

Pas facile d’être ouvert

Il faut dire que les problématiques sont variées et ne sont pas sans rappeler celles qui pèsent sur les données géographiques. Même anonymisées, nombreuses sont les données ayant un caractère personnel, voire intime. Comment faire comprendre aux personnes concernées par une recherche médicale que leurs données seront exploitées dans un but scientifique et ne risquent pas de se retourner contre elles ? La notion de consentement n’est pas toujours possible. De plus, à l’heure du big data qui fait du traitement des données une finalité en soi, il est difficile d’appliquer les règlements de la CNIL basés sur la justesse du rapport entre finalité et moyens mis en œuvre.

Les législations sur les données et le droit de copie ne sont pas toujours cohérentes avec la notion de libre réutilisation. En France par exemple, si vous lisez un article en ligne (gratuit), vous n’avez pas le droit d’en extraire des faits, comme des formules mathématiques ou chimiques. Mais c’est possible au Royaume-Uni, ce qui a permis à l’initiative contentmine.org de se développer et d’analyser par divers processus automatiques des centaines de publications scientifiques.

La question des éditeurs de revues scientifiques est également complexe à résoudre. En effet, c’est la publication d’articles dans des revues à comité de lecture qui est la base de l’évaluation des carrières des chercheurs. Ces revues, qui s’appuient sur des comités scientifiques et des relecteurs (a priori bénévoles) garants de la qualité des articles soumis, font un travail de mise en forme, d’impression, de distribution… et de commercialisation. Leur modèle économique étant basé sur la vente des articles, les chercheurs qui choisissent de publier ne sont plus libres de diffuser les résultats de leurs recherches. Consciente de la limite de l’exercice, certaines maisons d’édition ont opté pour l’approche inverse et c’est désormais au chercheur de payer pour être publié, une situation à laquelle de nombreux laboratoires désargentés ont du mal à faire face. Cette nouvelle approche est d’ailleurs devenue la règle pour une nouvelle sorte de publication, les « data papers » (articles sur les données), qui présentent certains jeux de données et traitements utilisés dans le cadre scientifique. Même si le jeu semble un peu plus ouvert, les sommes à payer pour être publié (parfois bien au-delà du millier d’euros) freinent nombre de chercheurs qui passent beaucoup de temps à assembler des données. Pour lutter contre cette main mise des maisons d’édition sur la recherche scientifique, certains proposent de créer des contre-revues en ligne comme le Self Journal of Science.

La multiplication de volumes de données pose également la question des outils de stockage et de traitement, qui ne sont pas à la portée de tous. Des infrastructures mutualisées essayent de se développer afin de faciliter les traitements sans avoir à télécharger des milliards d’octets sur sa machine.

C’est sans doute du côté de l’éthique que les chercheurs trouveront les meilleures réponses aux questions qu’ils se posent, cette zone « de pré-droit ou d’infra-droit, comme l’appelle Danièle Bourcier, qui met en jeu des principes et des valeurs, domaine plus fluctuant, lieu du débat qui doit co-exister avec le droit et renvoie à la notion d’utilisation raisonnable (fair use) ». Les discussions sont loin d’être closes !

 

Point de vue
Questions de faits
Pour les géographes, cartographes, historiens et autres chercheurs en sciences humaines et sociales, la notion même de « fait » pose question. « Une donnée récoltée est toujours ambiguë, rappelle Maurizio Gribaudi, historien à l’EHESS à l’initiative de GeoHistoricalData, qui a permis la vectorisation de certains éléments de cartes anciennes. Les récits en sociologie, histoire, économie… fondent leurs preuves sur des catégories déjà déterminées. » Et c’est pour questionner l’image du Paris ouvrier du XIXe siècle qui s’impose à tous depuis Victor Hugo qu’il a souhaité repartir du tracé des rues, du bâti, des répertoires des métiers et qu’il a rencontré des géomaticiens.
« Même la carte de Cassini ne peut pas être considérée comme neutre. De nombreux sous-traitants y ont participé et certains étaient impliqués dans la vie locale. Sur certaines cartes, le transport fluvial, pourtant important à l’époque, semble sous-évalué par des tenants de la route par exemple. »
L’ouverture pousse bien sûr à des approches plus participatives, comme l’a testé Maurizio Gribaudi dans le cadre de GeoHistoricalData et au rapprochement entre disciplines, ce qui n’est pas toujours facile à gérer. « Chacun évalue la rigueur scientifique de la démarche selon ses propres critères sur les différentes parties de l’expérience et a sa vision de la finalité de la recherche, le tout sans hiérarchie décisionnelle », ce qui a donné lieu à de grandes discussions, semble-t-il. L’expérience n’en demeure pas moins bénéfique car elle a permis de mobiliser une masse de travail importante en peu de temps, tandis que tout le monde s’est enrichi dans l’échange interdisciplinaire, sans trop subir le poids des contraintes bureaucratiques inhérentes à un projet de recherche formel.

 

Retour d’expérience
Charlie et la photographie
WEB-167-sodata-charlieFabien Cissé fait sa thèse à l’Institut des systèmes complexes sur les mouvements de foules et notamment des piétons. Il a posé sa caméra place de la Bastille le 11 janvier dernier et a filmé en continu le défilé populaire. Un document particulièrement utile pour ses recherches qui, visionné en accéléré, montre bien les vagues de congestion. Mais que faire de ce film qui montre les visages de centaines de milliers de personnes (et qu’il n’a absolument pas les moyens de flouter) ? Ils étaient là de leur plein gré et certainement avec l’envie de se montrer, mais est-ce un consentement tacite suffisant pour mettre ce film sur le Web comme le voudrait son engagement pour la science ouverte ?

 

 

Print Friendly, PDF & Email
Signaler un contenu

Laisser un commentaire

No Banner to display

No Banner to display