" "
Sciences Po | Library - New window

Guides thématiques

Données de la recherche

Vous êtes plutôt fictions?

DE LA FICTION !

Vous voulez goûter des mots comme des senteurs enivrantes ? Des nanofictions ou petites histoires sans importance vous emmènent à la rencontre de Downey et Donna, deux “nez” à la recherche de l'ultime fragrance, une "Ô de data" mirifique et merveilleuse dont la formule précise leur échappe encore ! Créateurs, compositeurs, artistes de parfums, inventeurs de fragrance, leurs aventures fantastiques et décalées mais pas si irréalistes qu'elles en ont l'air seront, nous l'espérons, l'occasion de découvrir autrement quelques-uns des problèmes essentiels soulevés par les données de la recherche. 4 cycles à respirer au fil du temps, bientôt, tout bientôt, à donner le tournis à votre curiosité, que vous soyez chercheuse, chercheur ou rien de tout cela !

Les deux nez de la recherche saison 1 :
Cycle Ô de Data

 

Ep. 1/20

Downey et Donna recueillirent les bouffées d’une mandragore à trois racines. Big, la première racine, exhalait mille pensées : battre l’amazone au jeu du conseil, gambader parmi les vivants et les non-vivants, espionner les autres mandragores sur les réseaux sociaux. Donna porta sa loupe sur la deuxième racine, Open. Open était translucide, s'attachait à rendre des comptes sur le fonctionnement de l'organisation pour laquelle elle travaillait et rêvait que ses neurones servent au bonheur quotidien de tous. La troisième racine, Research, ne livrait pas ses évanescences facilement. Mais ses bribes ténues étaient à portée de nez.

On compte pas moins de trois familles de données :
- le "big data" qui concerne aussi bien les systèmes de recommandations d'Amazon, que les sciences du vivant ou l'étude des réseaux sociaux ; 

- l'"open data" qui entend partager les données publiques pour alimenter de nouveaux services utiles à tous et faire en sorte que l'Etat rende des comptes à ses administrés ;
- les "research data" : aux définitions multiples, voir l'ép. 2.
 
Plus d'infos.

Ep. 2/20

Les relents de Research inspirèrent à nos deux nez des mots, des sons, des visions, des chiffres, de quoi prouver la valeur de leur ô ultime à leurs patrons de l’ÔCDE, Ô de calices et délicieuses effluves. De quoi permettre aussi à leurs collègues de l’Assemblée des Aériennes Fragrances d’en reconstituer la formule enivrante. Mais attention aux fuites indues des senteurs volatiles.

L’OCDE et l’Association des Archivistes Français ont chacun leur définition des données de recherche.
Pour l'OCDE, il s'agit des chiffres, textes, images et sons produits par les équipes de recherche pendant le projet et utiles à la validation des résultats. L'AAF va plus loin... : à vous de voir ! 

Plus d'infos.

Ep. 3/20

Tout à leurs deux nez, Donna et Downey attrapèrent les odeurs de Research. Le premier flacon extirpait l’odeur de la mandragore de ses brutes canines. Le second en choisissait les notes les plus folles et en notait chaque note comme dans une partitions d'odeurs symphoniques. Le duo imaginait déjà parler de la fragrance qu’ils pourraient tirer de la masse des auras du troisième.

Les données brutes diffèrent en nature et en volume des données sélectionnées et traitées et des données sur lesquelles s'appuient les publications. Données brutes > données traitées > données d'appui. 
Plus d'infos pour s'y retrouver.

Ep. 4/20

De ces senteurs observées sur le terrain, les deux nez comptaient bien simuler l’essence absolue, ensuite dans leur laboratoire. Ils en avaient la recette mais la distillation était chère en temps et en argent et il leur faudrait compiler les odeurs de la mandragore avec celles d’autres plantes rencontrées : oranges bleues, fleurs d'Yggdrasil, pommes du jardin des Hespérides, feuilles de la nymphe Mintha, pétales de Narcisse… Et atteindre ainsi l’idéal du parfum picotant et sucré, sanctifié, dont les essences seraient utilisables par tous.

Les données d’observation sont souvent uniques et irremplaçables. Les données expérimentales et les données compilées sont souvent reproductibles mais à des coûts dissuassifs. Les modèles de simulation (économique...) sont souvent plus utiles que les données de simulation qu'ils génèrent. Les données canoniques sont organisées, validées et très utilisées, comme à l'Insee. Plus d'infos.

Ep. 5/20

Mais soudain ils suffoquèrent. Seraient-ils allés trop loin ? Des êtres qui leur ressemblaient trait pour trait les regardaient avec leurs narines. "Pourquoi partager et marquer de leur sceau une telle cuisine olfactive ?" dit l'un des êtres à nos deux nez. "Pour s’entraider ? Pour gagner du temps et de l’argent ? Pour désamorcer les vols de senteurs ? Pour favoriser la découverte d’autres fous qui comme eux voient avec leur nez ?"
“Pour faire plaisir au patron qui nous paye”, dit l’un des nez. Et les fantômes s’évaporèrent.


Bien gérer ses données de recherche, c'est crucial. Les enjeux scientifiques, financiers, techniques, juridiques sont nombreux : l'entraide entre chercheurs, le gain de temps et d'argent, éviter le plagiat, favoriser la découverte de sujets insoupçonnés et... répondre à une obligation des financeurs de la recherche (retour sur investissement). Plus d'infos.

Ep. 6/20

A vue de nez,  au pifomètre, au doigt mouillé, il leur fallait rentrer se reposer. En chemin, la règle d'or de Lenfumeur, leur maître parfumeur, leur revint comme une litanie : “vos deux nez devront être aussi ouverts que possible, aussi fermés que nécessaires”. La belle afflaire… “Surtout si votre nouveau parfum révolutionnaire ne dégage aucune senteur. Ou s’il sert à un empoisonnement de masse, fermez vos deux nez”. Comment garder ses narines dilatées ? “Ceux qui vous donneront leurs odeurs devront signer leur consentement de leur nez et renoncer à leur nom. Dès lors votre fragrance ne risquera plus de leur faire du mal".

Ouvrir ses données, ce n'est pas toujours un dû ; il y a des cas où il est juridiquement obligatoire de les fermer : secret industriel (le nouveau parfum révolutionnaire), secret défense (les personnes interviewées risquent leur vie pour aider votre recherche), le projet ne génère pas de données. La technique pour parer ces risques sans noyauter la recherche : le formulaire de consentement et l'anonymisation des données. Plus d'infos.

Ep. 7/20

En flairant l’air du matin depuis leur laboratoire, les deux nez recherchaient la formule qui résoudrait toutes leurs angoisses. Et soudain un éclair de Force 11 transforma leur chaos d’odeurs en polyphonie olfactive. Les principes FAIR un jour toujours, senteur de bouc ! Quand on collecte les senteurs, quand on les stocke pour les analyser, quand on les partage pour qu’elles soient réutilisées et collectées à nouveau ! Le cycle de la vie en somme !

Les principes FAIR et le cycle de vie des données sont les deux piliers d'une gestion saine des données. Les principes FAIR ont été mis au point par le collectif Force 11. Le cycle de vie des données comprend des phases de collecte, stockage, analyse, partage, réutilisation, recollecte par d'autres et ainsi de suite. Découvrez-les !

Ep. 8/20

"Les principes FAIR à flairer des pieds à la tête comme un chemin vers la composition parfaite". Soit. Principe 1 : votre parfum doit être facile à repérer et permettre à l’odorat de s’orienter dans le noir grâce aux odeurs des objets qui l’entourent. Comment ? Grâce à un ingrédient magique : le DOI. Il permet de créer des parfums personnels, uniques, comme des vêtements sur mesure, qui ne vont qu’à vous ; leurs notes de fond durent l’éternité.

Les identifiants uniques et pérennes comme le DOI (Digital Object Identifier) sont le remède anti-erreur 404 pour vos données. Ils rendent vos données Faciles à trouver par les moteurs de recherche ; ils apposent une URL pérenne à vos données. En savoir plus.

Ep. 9/20

Faciles à trouver, facile à dire et quelle perte de temps ! Les voilà nez à nez avec le fatras laissé par ce stagiaire nez abonné aux noms nébuleux. Comment s’y retrouver parmi cette orgie de flacons infâmes ? Les deux nez examinèrent les millions de fragments odorants qui gisaient dans les ruines de leurs souvenirs et les classèrent sur l’étagère, par notes de tête, notes de cœur, notes de fond, par fragrance, par sous-fragrance. Un fil d’Ariane dans un jeu de piste !

Les règles d’arborescence des dossiers, c'est pour permettre aux autres d'y comprendre quelque chose à votre travail. Plus d'infos.

Ep. 10/20

Classer c’est bien… Mais si j’utilise un flacon et que je ne sais plus où le ranger ensuite? Et là resurgit Lenfumeur le doigt levé et la lunette scintillante : “notre langage ne vaut rien pour décrire le monde des odeurs mais tentez d’être brefs, d’attraper le reflet de vos ingrédients, de dater chaque état de vos fragrances, d’écrire en premier ce qui prime et surtout ne soyez pas pédants…” Et donc là, on est dans le principe “Facile” ? Soit.

Les règles de nommage des fichiers, c'est pour savoir ce qu'il y a dedans sans passer trois heures à en lire le contenu. Plus d'infos.

Ep. 11/20

Alors principe 2 “Accessible” dit l’un des nez armé de sa loupe à effluves. “C'est-à-dire ? Éviter de tout stocker sur l’étagère la plus haute de mon orgue à parfum ?” “Oui, dit l’autre, ou éviter de perdre tes éléments premiers au détour d’une cavalcade sur un cyclope. Et si une chimère vous vole un parfum du jardin des Hespérides ou enflamme vos flacons de dépit ? Souviens-toi de la règle des 3 2 1, trois flacons contenant la même substance dans deux coffrets différents dont un à distance, chez votre cousin Gougoule par exemple”. “Mouais,  c’est pas avec ça que j’atteindrai l’essence ultime…”

Stocker ses données pendant le projet de recherche, c'est tout un art : 3 copies identiques dans 2 supports différents dont 1 à distance. Pour éviter les pertes de données en même temps que de clés USB, au détour d'un vol, d'un incendie... Plus d'infos.

Ep. 12/20

Et si l’essence ultime, c’était celle dont on se souvient toujours, qui réactive des souvenirs oubliés ? Et si être nez, c’était garder solidement en mémoire ce que chaque parcelle de senteur a d’unique ?” “Toi qui a tendance à oublier ton ombre… Je t’ai pris un rendez-vous avec le docteur Cines. Le voilà qui arrive”. Et le docteur d'égrener les arcanes de la mémoire infaillible sur 10, 20 ou 30 ans..., de vanter les moyens de lutter contre la perte régulière de souvenirs tous les 5 ans. Recopiez vos souvenirs, faites migrer votre mémoire. L’homme serait-il une machine ?

L'archivage pérenne des données à la fin du projet de recherche, c'est plus qu'une lubie de bibliothécaire à chignon : c'est garder la mémoire de ce qui a été fait contre les risques de l'obsolescence programmée par la recopie de fichiers, la migration de formats...  Plus d'infos.

Ep. 13/20

Le rendez-vous avec le docteur Cines avait eu pour effet de ramener nos deux nez à la réalité. L’essence de la mandragore n’allait pas devenir capiteuse d’elle-même. Pour la comprendre malgré sa multiplicité foisonnante, il fallait en extraire les émanations malsaines avant qu'elles n’étouffent nos deux nez dans un marasme inintelligible. Leurs amis Gargantext et Grobid, êtres goulus d’odeurs, sauraient tout dévorer, faire parler les fleurs muettes et faire leur dans leur chasse ce suc qu’ils appelleraient “Lac de deux nez”. Mais c’était une affaire d’hommes bien sûr, prétendaient-ils… Comment pourrait-il en être autrement ? Allez ouste petite demoiselle.

La fouille de données, c'est être cyber-archéologue, extraire dans la foule d'informations disponibles les informations pertinentes pour un sujet, opérer des rapprochements et des choix qui rende cette foule d'informations intelligible par l'homme. Plus d'infos.

Ep. 14/20

Une fois la puanteur infernale mue en parfum plaisant, le mâle nez entreprit d’en faire jaillir le nuage qui raconterait aux nez passants une histoire percutante. Ou une toile, un enchevêtrement, une carte, des cercles mouvants, des bulles de… Mais attention à ne pas être plus éloquent que le roi. L’image ne doit pas trahir la nature de l’odeur. “Un Gephi dur à relever”, dirait Lenfumeur avec son accent lointain.

La visualisation de données, c'est être cyber-peintre, raconter une histoire, faire danser les couleurs pour que l'essentiel de la fouille d'informations devienne plus clair en un regard. Mais gare aux spectacles magnifiques qui ne font rien comprendre. Plus d'infos.

Ep. 15/20

Toutes ces divagations artistiques avaient eu pour effet d’enfumer toute la maisonnée. Foi d’alambic, il fallait ouvrir cette fenêtre. Mais tout restait clos. Premier réflexe : la poignée de fenêtre. Mais la voilà qui se mit à brailler sous l’effet de la fumée : “avez-vous la bonne clé ?” Mais non. Et derechef pour toutes les serrures du laboratoire. Alors Forma (c’était le nom de la poignée) demanda : “promettez-vous de partager la recette de votre “Lac” avec dame Donna et ne plus ainsi évaporer votre moitié?”. La poignée répondit au “oui” du nez en offrant la clé libérante.

Les formats ouverts de données, c'est le bonheur. Les formats fermés, c'est le mal. Les formats fermés, c'est la garantie de ne plus avoir accès à l'information dans quelques années. Les formats ouverts garantissent cet accès par la mise en commun des recettes de fabrication, donc leur reproductibilité. Découvrez comment et pourquoi.

Ep. 16/20

Downey nota qu’il avait perdu la tête et le cœur. A-t-il vraiment le gabarit ? pensa Donna. “Décris-moi le fond du parfum que tu as en tête et on verra. Avec ces éléments qui l’enrichissent sans le toucher, qui le décrivent sans l’atteindre. A quoi servent-ils ?” “A donner envie d’utiliser encore le même parfum, de le comprendre, d’embarquer pour une découverte”. “Et comment faire pour que ça marche ? “ “Chercher à adapter ces éléments à la personne, à sa nature, à son environnement, à sa personnalité”. "Viser l'intrication, le dialogue, l’interopérabilité des odeurs en somme”. “La quoi ?”

Les métadonnées et les standards de métadonnées, c'est la clé de la gloire pour vos données. Les métadonnées décrivent vos données de manière approfondie pour en favoriser la découverte. Elles ont un gabarit (des lettres ou des chiffres sont attendus ; nombre de caractère max...). Les standards, pour être pertinents, doivent être adaptés à l'objet : discipline, type de documents... Plus d'infos.

Ep. 17/20

Elle était satisfaite de sa réponse humaniste. Lui n’avait rien compris mais était heureux de renifler son sourire par-dessus la tête des gens. Pour se délasser, ils avaient résolu de recueillir l’encens de la foule (encore un conseil de Lenfumeur) et d’en faire le cœur de leur citadelle olfactive. "Ah mais où vous croyez-vous ? Rangez vos flacons ! Ai-je consenti à vous donner ma sueur de sensible moi ? ça ne s’imagine même pas l’impact que ça peut avoir sur les autres… Allez direction le Régisseur Général du Peuple Débonnaire pour inscrire ça au registre !"

La protection des données personnelles par le RGPD : c'est une contrainte socialement nécessaire. Des formulaires de consentement des personnes interviewées sont nécessaires. Une déclaration de traitement consignée au registre de la DPO (Data Protection Officer), voire une analyse d'impact pour les données le plus sensibles peuvent être demandées. Plus d'infos.

Ep. 18/20

"Avez-vous votre licence ? Parce que vous croyez qu’on peut récupérer les essences des gens comme ça, sans citer leur nom ? Et pourquoi pas en les modifiant ? Et pourquoi pas en les revendant ?" Le régisseur Lessing ne pouvait pas sentir ce genre de narines dévorantes. En dédommagement, vous préférez donner votre corps à la science, à l’EtaLab, ou à l’Etat tout court - “domaine public” que ça s’appelle ? Léguer vos biens à l’ OK Foundation (y a des gens d’accord sur tout il paraît) ? Être transformé en gnou ?" Les deux nez qui n’étaient jamais aussi fins que lorsqu’ils étaient ensemble, jugèrent qu’il valait mieux la jouer commun et créatif et optèrent pour la licence Creative Commons. Lessing exulta ; il en était l’inventeur.

Les licences de diffusion, c'est un dispositif révolutionnaire pour protéger votre partage de données, spécifier que vous acceptez la réutilisation de vos données si votre nom est cité, avec réutilisation commerciale ou non, avec autorisation de modification ou non. Le juriste Lawrence Lessing est le créateur de ce dispositif. L'Open Knowledge Foundation a adapté ces licences aux bases de données. La logique vient du monde du logiciel libre avec la licence GNU dont le symbole est le gnou. Plus d'infos.

Ep. 19/20

Les deux nez sortirent rassurés. Mais c’était sans compter leur poursuivant, celui dont ils avaient voulu ravir l’odeur, dont l’haleine exultait des insultes pestilentielles. “Donnez-moi un chêne et rendons justice ! Habeam corpus !”. Les deux nez attrapèrent au vol une livreuse avec des contrats sous le bras. “Tu nous servirais de juge ?” “Bof”, acquiesça la jeune fille à contre-coeur. “A qui appartient ma sueur ?” dit l’outragé. “A vous ? A l’Etat ? A votre employeur ?” “Oui mais si cette sueur est transformée, analysée ?” disent les deux nez. “ A vous deux ?” chercha la livreuse. “Et si j’érige une base où je rassemble tous les spoliés du monde ? “ “Vous serez protégés pendant 15 ans” et la femme continua son libre parcours, en laissant tomber une feuille sur laquelle etait écrit “Principe 4 : Réutilisable”.

La propriété intellectuelle des données, ce n'est pas si simple. A qui appartiennent les données des chercheurs ? Aux chercheurs ou à leur établissement ? Les données brutes sont dites de libre parcours, donc sans protection. En revanche, la structure des bases de données est soumise à une protection de 15 ans. Plus d'infos.

Ep. 20/20

Les deux nez sentaient bien en rentrant qu’ils touchaient un point limite. Parler de l’incident à leur comité de nez-ontologie ? Il fallait s’attendre à remplir des tas de papiers. Et ils étaient plutôt hommes de nez que de main. « Qui maîtrise les odeurs maîtrise le cœur des hommes, ça lui passerait » et voilà nos deux nez prêts à écrire sur l’originalité de leur formule, leur protocole de recherche, le contexte, la fiabilité, la rigueur de leurs essences, à réfléchir à la structure de l’écrit, à remercier leur cher Lenfumeur, à doser avec soin schémas et figures. Ils se voyaient déjà sanctifiés par les pairs, publiés dans une parution prestigieuse. Tout le monde connaîtrait la subtilité et la dangerosité de leur travail. Tout le monde parlerait d’eux.
Mais au fait à quoi bon puisque leur ultime fragrance n’était toujours pas terminée ?
Le réveil, par le nez, fut brutal.


Les data papers, c'est la fusion des publications et des données pour booster vos évaluations et votre carrière. C'est un article à la structure précise, révisé en comité de lecture, avec figures, schémas et remerciements, qui revient sur l'originalité de vos données, le protocole, le contexte de production des données. Plus d'infos.

Dernière mise à jour: Mar 24, 2024 9:23 AM