" "
Vous êtes plutôt passionné.e?
Pour être trouvables facilement, les données doivent être documentées et référencées sur les moteurs de recherche :
Identifiants uniques et pérennes assortis de métadonnées descriptives enrichies ; espace interrogeable ;
Fichiers et dossiers clairement nommés, organisés et documentés.
► C'est quoi les données de la recherche ? C'est quoi les principes FAIR ?
Sachez-le, vos données sont uniques !
L’idéal est d'accoler à ses données un identifiant unique et pérenne (c'est le remède anti-erreur 404), comme les DOI ou Digital Object Identifier, sorte d’ISBN ou d'ISSN de la ressource en ligne. Il fournit un lien stable à la ressource ; il rend possible l'ubiquïté de la ressource ; il permet de récupérer une citation juste et complète de la ressource sans avoir à tout ressaisir. Citer les données que l'on utilise est aussi important que citer les publications.
Parmi les métadonnées associées au DOI, il y a des :
- Métadonnées obligatoires : créateur, titre, éditeur/entrepôt, date de publication. Ces éléments sont demandés par les revues lorsque vous citez des données.
- Métadonnées recommandées : type de ressource, sujet, langue, format, version, description de la ressource, licence de diffusion/réutilisation, date de création, de dernière consultation…
Les DOI sont fournis sur abonnement par des agences spécialisées : CrossRef, DataCite (consortium de services spécialisé en sciences de l'information et de bibliothèques fondé en 2009 à Londres, géré en France par l'Inist-CNRS).
Un DOI se constitue selon la norme ISO 26324 : préfixe de l’agence de DOI (en l’occurrence l’Inist-CNRS) + suffixe de l’institution (Sciences Po, dans notre cas). Un organisme déclarant a autant de préfixes DOI que de contrats d'adhésion à des agences pourvoyeuses de DOI.
Exemple : https://doi.org/10.21410/7E4/YLG6YR
Magique ! Un DOI est attribué automatiquement pour chaque dataset déposé dans data.sciencespo.
Citer ses données : pourquoi ?
Une courte vidéo pour comprendre l'intérêt de documenter ses données.
Gagner du temps, faire gagner du temps aux autres, retrouver facilement l'information et la partager avec vos collaborateurs : tout cela est possible si vous utilisez une convention de nommage pour vos fichiers et si vous organisez hiérarchiquement vos données .
Il est donc important de structurer, hiérarchiser, nommer ses données, ses fichiers, ses dossiers :
Le jeu de données doit pouvoir être compréhensible par quelqu’un qui ne l’a pas constitué (chercheur, citoyen)
Le jeu de données doit aussi être utilisable si le producteur de données est parti : par exemple un post-doc étranger retourné dans son pays.
Une courte vidéo pour vous aider à organiser vos données :
[Vidéo] Research Data Management : Organise, Massey University
Modèle de structure simple qui permet d'organiser l'ensemble des données, publications et documents administratifs d'un projet.
Pour être trouvables, les données doivent être documentées et référencées sur les moteurs de recherche. Consigner tous les traitements apportés aux données (récolte, nettoyage, fusion, codage, etc.) permet de retracer les différentes étapes de vos travaux afin de faciliter la compréhension de vos données par les moteurs de recherche.
En un clic tout est plus clair !
Certains moteurs de recherche sont spécialisés dans les données de recherche comme BASE, moteur de recherche académique géré par la bibliothèque de l’Université de Bielefeld (Allemagne) qui indexe plus de 400 millions de documents issus de près de 12 000 sources, dont la liste est connue. La sélection des sources à interroger (pas toujours en libre accès cf. notices bibliographiques sans texte intégral dans les archives ouvertes) se fait manuellement. La recherche peut être multilingue. Une partie des sites indexés est alimentée par les chercheurs eux-mêmes. Les dépôts peuvent être référencés de manière incomplète ou imparfaite.
Documenter ses données : pourquoi ?
Une courte vidéo pour comprendre l'intérêt de documenter ses données.
[Vidéo] Tips on Documentation, John MacInne, Professor of Sociology, University of Edinburgh (MANTRA)
► La documentation très fournie du CESSDA pour bien documenter vos données.
► Les analyses computationnelles gagnent à être documentées à l'aide de computational notebooks (Jupyter notebook). Vous pouvez décrire les étapes d'analyse en même temps que le code dans des langages comme Python, R, Spark. Il est crucial de documenter les étapes et modifications de votre code pour que d'autres puissent comprendre votre travail plus tard.
► Un codebook est une description technique des données collectées dans un but précis pour nourrir un ou plusieurs jeux de données. Il décrit l'organisation des données (dossiers/fichiers) et la signification des variables. Ils comportent souvent la description de l'étude (qui, pourquoi, comment), la méthode d'échantillonnage (univers, critères, taux de réponse), des informations sur les fichiers (nombre d'observations, longueur de l'enregistrement, nombre d'enregistrements par observation), la structure des données au sein du fichier (hiérarchique, cartes multiples...), le sens des variables, le format, des instructions pour l'usage et l'interprétation des données ; en annexe, le texte des questions et des réponses.
Plus d'infos sur la création d'un codebook en SPSS dans le guide de la Kent State University Library.
Exemples :
Open Refine permet de nettoyer, préparer, enrichir vos données csv ou autre et d'automatiser les processus pour pouvoir les exploiter. Ce logiciel de traitement des données brutes, semblable à un navigateur, analyse les colonnes de données, corrige les erreurs d'un ensemble en une seule fois : formats de dates, représentation multiple des mêmes données, enregistrement en double, données redondantes, échelles numériques mixtes cassées, espaces indûs...
Échelles numériques mixtes : combinaison/enrichissement/consolidation d'ensembles de données, génération de nouvelles informations.
Pour commencer : vidéo de présentation.
Pour continuer : introduction to OpenRefine ; Data Carpentry Open Refine website ; tutoriel par DigitalNomad.
Pour approfondir : cas d'usage par des historiens.
Introduction aux humanités numériques avec OpenRefine.
► Si vous utilisez votre propre logiciel de nettoyage de données, n'oubliez pas de le documenter. Joignez les scripts au dépôt de données pour faciliter la réplication et la vérification de vos données.
Transcrire > annoter > remixer > éditer
Dicto est une application d'annotation, d’analyse et de publication de médias vidéo et audio. Elle permet de travailler avec des entretiens, des analyses médiatiques, des restitutions de communications orales (conférences, séminaires, discours), pour des besoins d'analyse privée ou de publication en ligne.
► ElasticSearch est un moteur de recherche qui intègre, harmonise et interconnecte les jeux de données et les publications provenant de différentes sources.
Important !
« Mal nommer les choses, c’est ajouter aux malheurs du monde » écrivait Albert Camus.
Utilisez des règles de nommage partagées et comprises de tous au sein de votre équipe.
Gardez la maîtrise de vos données, ne laissez pas un logiciel nommer automatiquement vos fichiers !
Nommer comment ?
Être bref (25 caractères max), refléter le contenu, pas de termes trop génériques ("brouillon", "test"...)
Structuration du nom de fichier : sujet, date, version
Pas de mots vides, abréviations communément compréhensibles, dans l'idéal, ne pas répéter de termes entre noms du fichier et noms du dossier (même si dans les faits, ce n'est pas si simple...) ; pas d’espaces ; pas de caractères spéciaux (accentués, symboles... : le nom du fichier doit être lisible par des machines)
Majuscules, underscores, caractères alphanumériques ; format de la date selon la norme ISO AAAAMMJJ
Nombres toujours sur au moins 2 unités (en fonction du nombre de fichiers concernés: 01, 002, 0003 etc.)
Élément le plus important en premier pour faciliter la recherche du document
Terminer par mention de version du type VP/Vdef, V0, 1, 2.
Le nom du fichier doit contenir assez d'informations pour être compréhensible en dehors de l'espace de stockage. Éviter toutefois les informations redondantes et non nécessaires.
DMP.pdf |data management plan.pdf
RapportActivitePolitis2018.pdf |rapport d’activité du projet politis 2018.pdf
Distinguer les différents éléments d'un nom de fichier en utilisant des majuscules et/ou des underscores (tiret bas) "_".
PolitisDMP.pdf |DMP du projet Politis.pdf
Politis_budget_2019.xls |Politis budget 19.xls
Ne pas utiliser de caractères accentués ou spéciaux : à é `ù % , { } ! @ $ € & * ().
Politis_Budget_Prev.pdf |Politis(Budget_Prévisionnel).pdf
Pour des fichiers de même nature, utiliser toujours le même ordre pour les éléments.
Politis_Budget_2019.pdf et Politis_Rapport_2019.pdf |Politis_Budget_2019.pdf et Rapport_2019_Politis.pdf
EntretienSyndicat.wav et EntretienONG.wav |EntretienSyndicat.wav et ONGEntretien.wav
Utiliser toujours le même nombre de caractères. Modèle : 1-9, 01-99, 001-999, etc.
Politis_entretien01.wav [...] Politis_entretien26.wav |Politis_entretien1.wav [...] Politis_entretien26.wav
Budget2015.wav [...] Budget2019.wav |Budget2015.wav [...] Budget19.wav
Utiliser uniquement des chiffres. Modèles : AAAA, AAAAMM, AAAAMMJJ.
Politis_CR_20180910 |CR 10 septembre 18
Politis_budget20182019 |budget 2018-19
Utiliser la mention "V" suivi du numéro de version. S'il s'agit d'un brouillon, indiquer après «Vbrouillon».
rapportV01 |rapport version 1