" "
Vous êtes plutôt passionné.e?
Vous avez obtenu un financement de l'ANR ou de la Commission européenne ? On vous demande de rédiger un plan de gestion de données et de réfléchir aux multiples aspects de la gestion des données ?
Vous publiez dans une revue prestigieuse ? On vous demande de partager vos données avec le comité de lecture ?
Aujourd'hui, la question des données de la recherche est devenue un enjeu majeur, à l'intersection de valeurs (administration de la preuve scientifique, réplication, réutilisation, valorisation et sauvegarde du patrimoine scientifique) et de mouvements français et internationaux : Open Access (libre accès à l’information scientifique et technique) ou Open science (libre accès aux publications, aux données, aux processus de recherche et d'évaluation, à l'enseignement...). Les politiques (Plan national pour la science ouverte, 4 juillet 2018), les collectifs et les réseaux de tous les professionnels impliqués (Go FAIR ; Research Data Alliance) s'en sont emparé.
***********************************************
Cette page vous présente quelques éléments introductifs essentiels sur les données de la recherche :
Ensembles de données très volumineux, difficiles à appréhender avec des outils classiques de gestion de base de données. Pour ce faire, de nouveaux outils de gestion, traitement, analyse, outils de visualisation et conservation des données sont utilisés :
Données environnementales biotiques ou abiotiques
Données économiques : e-commerce (système de recommandation d’Amazon, par exemple) ; systèmes décisionnels (bases de données comme support et aide à la décision)
Données sociales : réseaux sociaux, bibliothèques numériques...
Séquençage haut débit du génome
Observatoire virtuel en astronomie
Simulation en physique et énergie
Imagerie médicale.
Mouvement, philosophie en faveur du libre accès à l'information, aux publications, aux données. Son but : favoriser la réexploitation des données publiques, collectées ou produites par un service public dans le cadre de sa mission sur des fonds publics (loi 1978, circulaire 1994). L'information publique est un bien commun, financée par le contribuable donc collective, dont la diffusion est d'intérêt public et général. Les enjeux de sa diffusion sont donc multiples :
Enjeux démocratiques : donner plus de transparence aux politiques publiques, diffuser les données publiques essentielles (grands textes de droit, information administrative du public), proposer de nouveaux services améliorant le quotidien des citoyens. Ex. dans le contexte des transports : informer sur les moments d’affluence en temps réel.
Enjeux politiques : valoriser la qualité du travail des administrations, promouvoir un État plus efficace, faire preuve d'"accountability" (être redevable, obligation des pouvoirs publics de rendre des comptes à leurs administrés). Cf. Memorandum transparence et ouverture du gouvernement de Barack Obama ; Directive pour un gouvernement ouvert
Enjeux économiques :
viabilité économique : utilisation non exclusive, externalités positives (un acteur est favorisé par l'action de tiers sans avoir à agir), conditions de concurrence pure et parfaite (information gratuite et immédiate de tous les agents économiques sur tous les autres agents et les biens échangés), valeur d'usage...
croissance économique : favoriser la création d'emploi ; des starts-ups récupèrent les données publiques pour offrir de nouveaux services aux citoyens. Ex : transports.
► À quel point mes données sont-elles utilisables ? Un petit module d'e-learning rien que pour vous !
► Tim O'Reilly suggère la création d'une plateforme d'innovation ouverte qui permet à chaque citoyen de contribuer à résoudre des problèmes collectifs en faisant remonter l'information et l'expertise disséminée au sein de la société.
Research data = données de la recherche. Deux définitions :
Textes, sons, images, chiffres collectés et produits par le.la chercheur.se en vue de l’écriture d’un article ou d’un livre
Sources principales de la recherche nécessaires à la validation des résultats
Ex : Photographies, images satellitaires, schémas, dessins, relevés météorologiques, enregistrements sonores, code informatique, données cachées dans le code (ou dans une couche distincte)... Mais les cahiers de laboratoires, les analyses préliminaires ou les échantillons n’entrent pas dans cette catégorie.
Ensemble des matériaux reçus et produits par les équipes de recherche
Liés ou non à des publications
Données brutes, organisées, transformées pour être interprétables par quelqu’un qui ne connaît pas le projet
Incluent un ensemble plus vaste : les archives de la recherche (archives administratives du laboratoire par exemple)
Il est donc central de travailler main dans la main avec les archivistes !
Les deux approches se complètent.
► Petit addendum : les données quantitatives définissent des tendances. Elles peuvent être quantifiées, vérifiées et rendues intelligibles par des outils statistiques. Les données qualitatives caractérisent sans les mesurer les propriétés d'un fait ou d'un phénomène.
De la base à la cime, on peut observer différents niveaux de traitement des données : données brutes, collections de données de référence (statistiques), données traitées, sélectionnées, documentées, données d’appui des publications.
Pourtant, on peut aussi dire qu'une donnée n'est jamais vraiment brute : elle a toujours un format, un auteur, un contexte et une force signifiante induite par sa propre publication.
La métaphore de l'entonnoir sert à montrer l'écart de quantité entre les données produites, traitées et retenues : les données retenues et citées dans l’article ne sont qu'une fraction des données traitées qui ne sont elles-mêmes qu'une fraction des données produites.
Avoir le réflexe FAIR bien sûr ! L'approche FAIR data a été notamment portée par « FORCE11 », une communauté de chercheurs, bibliothécaires, archivistes, éditeurs et bailleurs de fonds de la recherche.
Rendre ses données FAIR tout au long du cycle de vie des données :
Université de Sydney (voir aussi A. Ciolek-Figiel et F. Cosserat, « Gestion et diffusion des données de la recherche », 2016 (en ligne).
La plateforme de services DoRANum propose une visualisation interactive des 4 principes FAIR : Findable, Accessible, Interoperable, Reusable.
L'objectif est d'anticiper et d'acquérir, dès la production des données, des pratiques de gestion optimales pour vous faire gagner du temps et vous faciliter la vie. Il est indispensable que ce processus intègre les humains et les machines comme les deux mains d'un même corps. Ces principes président à la rédaction des DMP telle qu'elle est attendue par vos financeurs.
Plus d'infos sur :
- le guide de la bibliothèque de l'université Vrije à Amsterdam : schéma, alternatif, vidéo...
- Wilkinson, M. D., M. Dumontier, I. J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship; Scientific Data 3 (1): 160018. http://dx.doi.org/10.1038/sdata.2016.18
Cliquer sur le tableau pour le voir en plus gros !
On distingue différents types de données, des données :
D’après les travaux de A. Ciolek-Figiel & F. Cosserat citant F.André (source), et V. Rebouillat citant C. Borgman (source).
► Pour aller plus loin, une tentative de définition des données de la recherche dans un article de Joachim Schöpfel, Eric Kergosien et Hélène Prost (disponible sur HAL) : “ Pour commencer, pourriez-vous définir ’données de la recherche’ ? ” Une tentative de réponse.
[Vidéo] Data Sharing and Management, NYU Health Sciences Library
Conseil : diffuser a minima les données qui étayent les articles de recherche publiés dans le cadre du projet afin de permettre à vos lecteurs d'approfondir la lecture de vos analyses.
Cas de non-diffusion globale ou partielle de ses données :
Le projet ne collecte ou ne génère aucune donnée : si, si, ça existe !
Incompatibilité avec l’exploitation industrielle et commerciale : le nouveau parfum révolutionnaire. Secret des procédés, secret des informations économiques et financières, secret des stratégies commerciales ou industrielles : tous les éléments sensibles ayant notamment un impact sur l’environnement concurrentiel de l’établissement et de ses partenaires. Leur communication est interdite en dehors des intéressés, sauf après occultation des informations couvertes par ce secret.
Incompatibilité avec des questions de sécurité nationale : interviewer Al-Qaïda ou le Bureau des Légendes à la DGSE
La diffusion des données risque de compromettre l’objectif du projet
Protéger des données personnelles :
Le contenu des interviews en sociologie ou anthropologie par exemple est soumis à l’autorisation des personnes interviewées pour toute diffusion. Deux documents importants :
Formulaire de consentement libre et éclairé signé par les participant.e.s : les enjeux de l'étude et les conditions de gestion, de partage et d'archivage des données du projet ont été compris et acceptés ; ils.elles ont la possibilité de se retirer de l'étude dès qu'ils le souhaitent sans justification ; un moment pour poser des questions a été ménagé au panel ; l'interviewer a laissé ses coordonnées pour donner la possibilité aux interviewé.e.s de revenir sur leurs propos ; seules les données nécessaires au projet ont été collectées et traitées (principe de minimisation des données).
Déclaration de traitement des données : registre de Marion Lehmans et Nawale Lamrini. En savoir plus.
Attention : ces cas expliquent que l'accès aux données dans les entrepôts peut être soumis à des restrictions ou des embargos selon la nature des données produites. Ces exceptions ne dispensent pas de l’élaboration d’un plan de gestion des données.
L'anonymisation doit être suffisante pour protéger la confidentialité des données personnelles tout en garantissant la diffusion de l’information à des fins de recherche.
Anonymiser : enlever des identifiants personnels directs (nom, adresse, N° de sécurité sociale...) ou indirects (profession, ethnie...).
Exemples de logiciels permettant de modifier ou supprimer les données personnelles et sensibles : Gimp (images), Metadata anonymisation toolkit, ExifTool (tout format).
[Vidéo] Anonymisation: theory and practice (part 1 of 3), Mark Elliot (NCRM)
La pseudonymisation est moins fiable : on peut retrouver de qui on parle par recoupement. Les données pseudonymisées sont toujours des données personnelles. Conseil : crypter les données confidentielles, chiffrer les contenus, stocker la clé de cryptage à un endroit différent des données.
C'est quoi la différence entre crypter et chiffrer ? Par ici, la lumière.
Vous êtes sociologue, historien, vous réalisez des photographies de terrain ? Voici quelques préconisations pour la prise d'image sur le terrain par appareil photo ou téléphone. Objectif : mieux gérer vos images.
Réglages à effectuer une fois dans les paramètres de votre appareil photo ou de votre téléphone :
Organiser
Copier les fichiers sur votre ordinateur ou Google drive institutionnel. Organiser les fichiers dans une arborescence (ex. : lieu, sujet, date, etc.).
Renommer les fichiers
Voir la page "Données Faciles à trouver"
Documenter
Vous souhaitez attribuer des mots-clefs, légendes et autres attributs à vos fichiers ?
Modifiez les métadonnées :
Vous pouvez aussi utiliser un fichier de suivi de type tableau pour noter lieu de prise de vue, le contexte (rendez-vous dans la rue, archives régionales, etc.) ou encore les noms de personnes ou de contacts.
Comment gérer vos photographies de terrain ou toutes les images qui peuvent constituer votre corpus ?