" "
Sciences Po | Library - New window

Guides thématiques

Données de la recherche

DES DÉTAILS !

Gérer ses données

Vous avez obtenu un financement de l'ANR ou de la Commission européenne ? On vous demande de rédiger un plan de gestion de données et de réfléchir aux multiples aspects de la gestion des données ?
Vous publiez dans une
revue prestigieuse ? On vous demande de partager vos données avec le comité de lecture ?
Aujourd'hui, la question des données de la recherche est devenu un enjeu majeur, à l'intersection de valeurs (administration de la preuve scientifique, réplication, réutilisation, valorisation et sauvegarde du patrimoine scientifique) et de mouvements français et internationaux : Open Access (libre accès à l’information scientifique et technique) ou Open science (libre accès aux publications, aux données, aux processus de recherche et d'évaluation, à l'enseignement...). Les politiques (
Plan national pour la science ouverte, 4 juillet 2018), les collectifs et les réseaux de tous les professionnels impliqués (Go FAIR ; Research Data Alliance) s'en sont emparé.

***********************************************

Cette page vous présente quelques éléments introductifs essentiels sur les données de la recherche :



Big, open, research : la data tricéphale

 

Big data : c'est quoi ?


Ensembles de données très volumineux, difficiles à appréhender avec des outils classiques de gestion de base de données. Pour ce faire, de nouveaux outils de gestion, traitement, analyse, outils de visualisation et conservation des données sont utilisés :  



  • Cloud computing : Google drive par exemple
  • Calcul distribué : en informatique, traitement d’une information ou d’un programme réparti sur plusieurs microprocesseurs et plus généralement sur plusieurs unités centrales informatiques
  • Supercalculateurs à grande vitesse de calcul
Exemples de projets concernés
  • Séquençage haut débit du génome

  • Observatoire virtuel en astronomie

  • Simulation en physique et énergie

  • Imagerie médicale

  • Données environnementales biotiques ou abiotiques

  • Données économiques : e-commerce (système de recommandation d’Amazon, par exemple) ; systèmes décisionnels (bases de données comme support et aide à la décision)

  • Données sociales : réseaux sociaux, bibliothèques numériques...


Open data : c'est quoi ?

Mouvement, philosophie en faveur du libre accès à l'information, aux publications, aux données. Son but : favoriser la réexploitation des données publiques, collectées ou produites par un service public dans le cadre de sa mission sur des fonds publics (loi 1978, circulaire 1994). L'information publique est un bien commun, financée par le contribuable donc collective, dont la diffusion est d'intérêt public et général. Les enjeux de sa diffusion sont donc multiples : 

  • Enjeux démocratiques : donner plus de transparence aux politiques publiques, diffuser les données publiques essentielles (grands textes de droit, information administrative du public), proposer de nouveaux services améliorant le quotidien des citoyens.
    Ex. dans le contexte des transports : informer sur les moments d’affluence en temps réel.

  • Enjeux politiques : valoriser la qualité du travail des administrations, promouvoir un État plus efficace, faire preuve d'"accountability" (être redevable, obligation des pouvoirs publics de rendre des comptes à leurs administrés). Cf. Memorandum transparence et ouverture du gouvernement de Barack Obama ; Directive pour un gouvernement ouvert

  • Enjeux économiques : 

    • viabilité économique : utilisation non exclusive, externalités positives (un acteur est favorisé par l'action de tiers sans avoir à agir), conditions de concurrence pure et parfaite (information gratuite et immédiate de tous les agents économiques sur tous les autres agents et les biens échangés), valeur d'usage...

    • croissance économique : favoriser la création d'emploi ; des starts-ups récupèrent les données publiques pour offrir de nouveaux services aux citoyens. Ex : transports. 

► À quel point mes données sont-elles utilisables ? Un petit module d'e-learning rien que pour vous !
Tim O'Reilly suggère la création d'une plateforme d'innovation ouverte qui permet à chaque citoyen de contribuer à résoudre des problèmes collectifs en faisant remonter l'information et l'expertise disséminée au sein de la société.


Research data : l'hydre à deux têtes

Research data = données de la recherche. Deux définitions :
 

Définition de l'OCDE (Organisation de coopération et de développement économique) :
  • Textes, sons, images, chiffres collectés et produits par le.la chercheur.se en vue de l’écriture d’un article ou d’un livre

  • Sources principales de la recherche nécessaires à la validation des résultats

Ex : Photographies, images satellitaires, schémas, dessins, relevés météorologiques, enregistrements sonores, code informatique, données cachées dans le code (ou dans une couche distincte)... Mais les cahiers de laboratoires, les analyses préliminaires ou les échantillons n’entrent pas dans cette catégorie.
 

Définition de l'AAF (Association des archivistes français)
  • Ensemble des matériaux reçus et produits par les équipes de recherche

  • Liés ou non à des publications

  • Données brutes, organisées, transformées pour être interprétables par quelqu’un qui ne connaît pas le projet

  • Incluent un ensemble plus vaste : les archives de la recherche (archives administratives du laboratoire par exemple)

  • Il est donc central de travailler main dans la main avec les archivistes !

Conclusion

Les deux approches se complètent.

► Petit addendum : les données quantitatives définissent des tendances. Elles peuvent être quantifiées, vérifiées et rendues intelligibles par des outils statistiques. Les données qualitatives caractérisent sans mesurer les propriétés d'un fait ou d'un phénomène.

Vous êtes plutôt pyramide ou entonnoir ?

Pyramide

De la base à la cime, on peut observer différents niveaux de traitement des données : données brutes, collections de données de référence (statistiques), données traitées, sélectionnées, documentées, données d’appui des publications.


 


Pourtant, on peut aussi dire qu'une donnée n'est jamais vraiment brute : elle a toujours un format, un auteur, un contexte et une force signifiante induite par sa propre publication.


 

 

Entonnoir

La métaphore de l'entonnoir sert à montrer l'écart de quantité entre les données produites, traitées et retenues : les données retenues et citées dans l’article ne sont qu'une fraction des données traitées qui ne sont elles-mêmes qu'une fraction des données produites.

Oui mais que FAIR pour bien gérer ses données ?


Avoir le réflexe FAIR bien sûr ! L'approche FAIR data a été notamment portée par « FORCE11 », une communauté de chercheurs, bibliothécaires, archivistes, éditeurs et bailleurs de fonds de la recherche.


Quand FAIR ?

 

 

Rendre ses données FAIR tout au long du cycle de vie des données :

  • Collecte des données
  • Stockage puis archivage des données pour faciliter leur analyse par soi et par les autres
  • Publication des données pour favoriser leur partage et leur réutilisation
  • Nouvelle collecte des données.




Université de Sydney (voir aussi A. Ciolek-Figiel et F. Cosserat, « Gestion et diffusion des données de la recherche », 2016
(en ligne).

 


Tout reste à FAIR

La plateforme de services DoRANum propose une visualisation interactive des 4 principes FAIR : Findable, Accessible, Interoperable, Reusable.
L'objectif est d'anticiper et d'acquérir, dès la production des données, des pratiques de gestion optimales pour vous faire gagner du temps et vous faciliter la vie. Il est indispensable que ce processus intègre les humains et les machines comme les deux mains d'un même corps. Ces principes président à la rédaction des DMP telle qu'elle est attendue par vos financeurs.


Plus d'infos sur :

- le
guide de la bibliothèque de l'université Vrije à Amsterdam : schéma, alternatif, vidéo...
- Wilkinson, M. D., M. Dumontier, I. J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship; Scientific Data 3 (1): 160018. http://dx.doi.org/10.1038/sdata.2016.18


Outils

Tout est donnée, rien n'est donné ? 









 

 






Cliquer sur le tableau pour le voir en plus gros !


On distingue différents types de données, des données :

  • D'observation  : enregistrements sur le terrain. Conseil : mettre ces données à disposition de la communauté à des fins d’information et de connaissance fine des sujets puisqu’elles sont uniques et irremplaçables. Des outils utiles pour réaliser vos questionnaires : Qualtrics, Survalyzer, ModaLisa, LimeSurvey...
  • De simulation : modèles économiques, schéma à partir d’une réalité économique par exemple. On pense tirer de la rentabilité de telle configuration d'action et on applique le modèle sur un marché particulier ; on teste un modèle qui marche sur un marché sur un autre marché. Les données ont moins de valeur que le modèle. Enjeu : voir comment un modèle qui s’applique à une réalité peut marcher sur une autre.
  • D'expérimentation : en laboratoire, ces données sont obtenues à partir de matériel spécifique ; elles sont reproductibles mais à des coûts dissuasifs et le processus est chronophage. Conseil : mettre ces données à disposition de tous pour éviter aux collègues de repayer pour obtenir le même résultat, faire gagner du temps aux autres.
  • Dérivées ou compilées : 
    Compilation de données brutes, résultats de fouille de texte (text mining) et de fouille de données (data mining). Le but : extraire la substantifique moelle d’un sujet. Il peut s'agir de la création de nouveaux ensembles de données par combinaison de données provenant de sources multiples ou immenses comme l'analyse d’un million de comptes twitter. L'humain seul y passerait sa vie et n’aurait pas fini. Les tendances dégagées par un algorithme de fouille restent un préalable à l’indispensable analyse humaine. Le processus est cher et chronophage.
  • De référence ou canoniques : jeux de données annotés, revus par les pairs, mis à disposition comme données de référence : collections statistiques, données Insee, données en génomique.

D’après les travaux de A. Ciolek-Figiel & F. Cosserat citant F.André (source), et V. Rebouillat citant C. Borgman (source).

►​ Pour aller plus loin, une tentative de définition des données de la recherche dans un article de Joachim Schöpfel, Eric Kergosien et Hélène Prost (disponible sur HAL) : “ Pour commencer, pourriez-vous définir ’données de la recherche’ ? ” Une tentative de réponse.

Mais quel intérêt ? Pourquoi prendre du temps pour bien gérer ses données ?


Vous aider à prévoir des problèmes insoupçonnés

[Vidéo] Data Sharing and ManagementNYU Health Sciences Library Licence Creative Commons


Enjeux scientifiques

  • "Science cumulative" : éviter la duplication des efforts (refaire ce qui a été déjà fait),  faire gagner du temps, accroître l'impact durable de vos recherches, faciliter la coopération et le partage d’information entre les partenaires d’un projet collaboratif par des dispositifs de stockage robustes et adaptés ;

  • Reproductibilité : permettre à une équipe différente de reproduire des résultats de recherche grâce à des données bien structurées ;
     
  • "Preuve scientifique" : lutter contre la fraude, poser l’antériorité de votre recherche ;
     
  • "Découverte" : la mise à disposition des données permet l’exploration de thèmes qui n’avaient pas été envisagés par des chercheurs d’origine. « D’autres que nous sauront en tirer des créations merveilleuses », précise Tim Berners Lee à propos du partage des données publiques pour la formation du citoyen (open data).


Enjeux financiers

  • "Obligation des financeurs de la recherche" : améliorer le retour sur investissement de la recherche financée. La diffusion la plus large possible est demandée. À terme, les activités de gestion des données seront prises en compte dans la nomination et la promotion des chercheur.ses.


L'adage " as open as possible, as closed as necessary"

Conseil : diffuser a minima les données qui étayent les articles de recherche publiés dans le cadre du projet afin de permettre à vos lecteurs d'approfondir la lecture de vos analyses.

Cas de non-diffusion globale ou partielle de ses données  : 

  • Le projet ne collecte ou ne génère aucune donnée : si, si, ça existe !

  • Incompatibilité avec l’exploitation industrielle et commerciale : le nouveau parfum révolutionnaire. Secret des procédés, secret des informations économiques et financières, secret des stratégies commerciales ou industrielles : tous les éléments sensibles ayant notamment un impact sur l’environnement concurrentiel de l’établissement et de ses partenaires. Leur communication est interdite en dehors des intéressés, sauf après occultation des informations couvertes par ce secret.

  • Incompatibilité avec des questions de sécurité nationale : interviewer Al-Qaïda ou le Bureau des Légendes à la DGSE

  • La diffusion des données risque de compromettre l’objectif du projet

  • Protéger des données personnelles :

    • Le contenu des interviews en sociologie ou anthropologie par exemple est soumis à l’autorisation des personnes interviewées pour toute diffusion. Deux documents importants :

      • Formulaire de consentement libre et éclairé signé par les participant.e.s : les enjeux de l'étude et les conditions de gestion, de partage et d'archivage des données du projet ont été compris et acceptés ; ils.elles ont la possibilité de se retirer de l'étude dès qu'ils le souhaitent sans justification ; un moment pour poser des questions a été ménagé au panel ; l'interviewer a laissé ses coordonnées pour donner la possibilité aux interviewé.e.s de revenir sur leurs propos ; seules les données nécessaires au projet ont été collectées et traitées (principe de minimisation des données).

      • Déclaration de traitement des données : registre de Marion Lehmans et Nawale Lamrini. En savoir plus.

    • Anonymisation, pseudonymisation cf. ci-dessous.

Attention : ces cas expliquent que l'accès aux données dans les entrepôts peut être soumis à des restrictions ou des embargos selon la nature des données produites. Ces exceptions ne dispensent pas de l’élaboration d’un plan de gestion des données.


Anonymiser : comprendre, pratiquer

L'anonymisation doit être suffisante pour protéger la confidentialité des données personnelles tout en garantissant la diffusion de l’information à des fins de recherche. 

Anonymiser : enlever des identifiants personnels directs (nom, adresse, N° de sécurité sociale...) ou indirects (profession, ethnie...).
Exemples de logiciels permettant de modifier ou supprimer les données personnelles et sensibles : Gimp (images), Metadata anonymisation toolkit, ExifTool (tout format)
.

[Vidéo] Anonymisation: theory and practice (part 1 of 3), Mark Elliot (NCRMLicence Creative Commons


Pseudonymiser : comprendre, pratiquer

La pseudonymisation est moins fiable : on peut retrouver de qui on parle par recoupement. Les données pseudonymisées sont toujours des données personnelles. Conseil : crypter les données confidentielles, chiffrer les contenus, stocker la clé de cryptage à un endroit différent des données.

C'est quoi la différence entre crypter et chiffrer ? Par ici, la lumière.

[Vidéo] Encryption and Decryption with 7-zip Licence Creative Commons

Focus sur vos photographies de terrain

Vous êtes sociologue, historien, vous réalisez des photographies de terrain ?​ Voici quelques préconisations pour la prise d'image sur le terrain par appareil photo ou téléphone. Objectif : mieux gérer vos images. 


Avant la prise de vue

Réglages à effectuer une fois dans les paramètres de votre appareil photo ou de votre téléphone :

  • Format : Privilégier format JPEG sans compression ou avec la compression la plus faible. 
  • Résolution : Choisir la résolution la plus forte. Par exemple : 10M(illions de pixel) ou 4096 x 2304
  • Date et heure : Vérifier que ces informations sont à jour, surtout s'il y a un changement de fuseau horaire et que votre appareil ne met pas à jour ces informations automatiquement.
  • Auteur : Indiquer vos initiales ou de préférence, votre nom dans le champ auteur, si cela est possible.


► Après la prise de vue

Organiser
Copier les fichiers sur votre ordinateur ou Google drive institutionnel. Organiser les fichiers dans une arborescence (ex. : lieu, sujet, date, etc.).

Renommer les fichiers
Voir la page "Données Faciles à trouver" [mettre lien box Règles de nommage]

Documenter
Vous souhaitez attribuer des mots-clefs, légendes et autres attributs à vos fichiers ?
Modifiez les
métadonnées [mettre lien "Données Interopérables/box métadonnées"] :

  • Le mieux est d'utiliser un logiciel de gestion de vos images pour éditer les métadonnées. Vous pourrez ainsi effectuer des modifications en lot, comme associer un mot-clef à une série d'images.
  • Sans logiciel, vous pouvez aussi modifier vos métadonnées directement à partir des paramètres.

Vous pouvez aussi utiliser un fichier de suivi de type tableau pour noter lieu de prise de vue, le contexte (rendez-vous dans la rue, archives régionales, etc.) ou encore les noms de personnes ou de contacts. 


Outils

Comment gérer vos photographies de terrain ou toutes les images qui peuvent constituer votre corpus ?​

Dernière mise à jour: Jul 28, 2022 10:30 AM