" "
Sciences Po | Library - New window

Guides thématiques

Données de la recherche

       DES DÉTAILS !

Rendre ses données Faciles à trouver

Pour être trouvables facilement, les données doivent être documentées et référencées sur les moteurs de recherche :

 Identifiants uniques et pérennes assortis de métadonnées descriptives enrichies ; espace interrogeable ;

 Fichiers et dossiers clairement nommés, organisés et documentés.

►​ C'est quoi les données de la recherche ? C'est quoi les principes FAIR ?

Des données Faciles à trouver = identifiants uniques et pérennes

Sachez-le, vos données sont uniques ! 

L’idéal est d'accoler à ses données un identifiant unique et pérenne (c'est le remède anti-erreur 404), comme les DOI ou Digital Object Identifier, sorte d’ISBN ou d'ISSN de la ressource en ligne. Il fournit un lien stable à la ressource ; il rend possible l'ubiquïté de la ressource ; il permet de récupérer une citation juste et complète de la ressource sans avoir à tout ressaisir. Citer les données que l'on utilise est aussi important que citer les publications.
Parmi les métadonnées associées au DOI, il y a des :

- Métadonnées obligatoires : créateur, titre, éditeur/entrepôt, date de publication. Ces éléments sont demandés par les revues lorsque vous citez des données.
- Métadonnées recommandées : type de ressource, sujet, langue, format, version, description de la ressource, licence de diffusion/réutilisation, date de création, de dernière consultation… 

 

Les DOI sont fournis sur abonnement par des agences spécialisées : CrossRef, DataCite (consortium de services spécialisé en sciences de l'information et de bibliothèques fondé en 2009 à Londres, géré en France par l'Inist-CNRS).

Un DOI se constitue selon la norme ISO 26324 : préfixe de l’agence de DOI (en l’occurrence l’Inist-CNRS) + suffixe de l’institution (Sciences Po, dans notre cas). Un organisme déclarant a autant de préfixes DOI que de contrats d'adhésion à des agences pourvoyeuses de DOI.

Exemple : https://doi.org/10.21410/7E4/YLG6YR

Magique ! Un DOI est attribué automatiquement pour chaque dataset déposé dans data.sciencespo.

Citer ses données : pourquoi ?

Une courte vidéo pour comprendre l'intérêt de documenter ses données.

[Vidéo] Data Management: Data Citation, University of Wisconsin Data Services
[Vidéo] Persistent identifiers and data citation explained, Research Data Netherlands
 Licence Creative Commons

Données Faciles à trouver = dossiers clairement organisés

Gagner du temps, faire gagner du temps aux autres, retrouver facilement l'information et la partager avec vos collaborateurs : tout cela est possible si vous utilisez une convention de nommage pour vos fichiers et si vous organisez hiérarchiquement vos données .

Il est donc important de structurer, hiérarchiser, nommer ses données, ses fichiers, ses dossiers : 

  • Le jeu de données doit pouvoir être compréhensible par quelqu’un qui ne l’a pas constitué (chercheur, citoyen)

  • Le jeu de données doit aussi être utilisable si le producteur de données est parti : par exemple un post-doc étranger retourné dans son pays.


►​ Principes généraux d'arborescence

Une courte vidéo pour vous aider à organiser vos données :

[Vidéo] Research Data Management : Organise, Massey University
 

►​ Arborescence données (cas 1)

Modèle

 

► Arborescence projet (cas 2)

Modèle de structure simple qui permet d'organiser l'ensemble des données, publications et documents administratifs d'un projet.

►​ Outil d'arborescence de fichiers et de serveurs

Des données Faciles à trouver = données documentées

 


Pour être trouvables, les données doivent être documentées et référencées sur les moteurs de recherche. Consigner tous les traitements apportés aux données (récolte, nettoyage, fusion, codage, etc.) permet de retracer les différentes étapes de vos travaux afin de faciliter la compréhension de vos données par les moteurs de recherche.




Moteur ! Action !
Comprendre les moteurs de recherche pour bien s'en servir


En un clic tout est plus clair !

Certains moteurs de recherche sont spécialisés dans les données de recherche comme BASE, moteur de recherche académique géré par la bibliothèque de l’Université de Bielefeld (Allemagne) qui indexe plus de 8,5 millions de jeux de données issues de plus de 8800 sources, dont la liste est connue. La sélection des sources à interroger (pas toujours en libre accès cf. notices bibliographiques sans texte intégral dans les archives ouvertes) se fait manuellement. La recherche peut être multilingue. Une partie des sites indexés est alimentée par les chercheurs eux-mêmes. Les dépôts peuvent être référencés de manière incomplète ou imparfaite.

Documenter ses données : pourquoi ?

Une courte vidéo pour comprendre l'intérêt de documenter ses données.

[Vidéo] Tips on Documentation, John MacInne, Professor of Sociology, University of Edinburgh (MANTRA) Licence Creative Commons
 

Documenter ses données : comment ?

Des questions à se poser
  • Comment ont été constituées les données ? S'agit-il d'archives que vous avez dépouillées, d'entretiens d'une enquête que vous avez menée, d'une base de données financières que vous avez achetée ou encore de données issues du web ?
  • Quels sont les traitements que vous avez apportés à vos données ? Comment êtes-vous passé de données brutes aux données raffinées ?
  • Quelles sont les variables utilisées ? Comment sont-elles structurées dans vos fichiers ? S'agit-il de dates, de chiffres, de texte ?
  • Qui a participé aux différentes étapes du travail sur ces données, pour la saisie, les traitements, la coordination, etc. ? 
  • Quel protocole de collecte de données ? Quelles mesures ont-été prises pour réduire les risques, détecter les erreurs et assurer la validité scientifique des données ? Une procédure d'assurance qualité (avant le début du projet) et un contrôle qualité pendant et après le projet ont-ils été prévus ?

 La documentation très fournie du CESSDA pour bien documenter vos données.

 Les analyses computationnelles gagnent à être documentées à l'aide de computational notebooks (Jupyter notebook). Vous pouvez décrire les étapes d'analyse en même temps que le code dans des langages comme Python, R, Spark. Il est crucial de documenter les étapes et modifications de votre code pour que d'autres puissent comprendre votre travail plus tard.

 Un codebook est une description technique des données collectées dans un but précis pour nourrir un ou plusieurs jeux de données. Il décrit l'organisation des données (dossiers/fichiers) et la signification des variables. Ils comportent souvent la description de l'étude (qui, pourquoi, comment), la méthode d'échantillonnage (univers, critères, taux de réponse), des informations sur les fichiers (nombre d'observations, longueur de l'enregistrement, nombre d'enregistrements par observation), la structure des données au sein du fichier (hiérarchique, cartes multiples...), le sens des variables, le format, des instructions pour l'usage et l'interprétation des données ; en annexe, le texte des questions et des réponses.
Plus d'infos sur la création d'un codebook en SPSS dans le guide de la
 Kent State University Library.
Exemples :


Des données nettoyées

Open Refine permet de nettoyer, préparer, enrichir vos données csv ou autre et d'automatiser les processus pour pouvoir les exploiter. Ce logiciel de traitement des données brutes, semblable à un navigateur, analyse les colonnes de données, corrige les erreurs d'un ensemble en une seule fois : formats de dates, représentation multiple des mêmes données, enregistrement en double, données redondantes, échelles numériques mixtes cassées, espaces indûs...
Échelles numériques mixtes : combinaison/enrichissement/consolidation d'ensembles de données, génération de nouvelles informations.

Pour commencer : vidéo de
 présentation.
Pour continuer : introduction to OpenRefine ; Data Carpentry Open Refine website ; tutoriel par DigitalNomad.
Pour approfondir : cas d'usage par des historiens.
Introduction aux humanités numériques avec OpenRefine.

 Si vous utilisez votre propre logiciel de nettoyage de données, n'oubliez pas de le documenter. Joignez les scripts au dépôt de données pour faciliter la réplication et la vérification de vos données.


Des données annotées

Transcrire > annoter > remixer > éditer
Dicto est une application d'annotation, d’analyse et de publication de médias vidéo et audio. Elle permet de travailler avec des entretiens, des analyses médiatiques, des restitutions de communications orales (conférences, séminaires, discours), pour des besoins d'analyse privée ou de publication en ligne.

 

 ElasticSearch est un moteur de recherche qui intègre, harmonise et interconnecte les jeux de données et les publications provenant de différentes sources.

Des données Faciles à trouver = fichiers clairement nommés

►​ Règles générales de nommage des fichiers > "human and machine readable"

 

Important !

Utilisez des règles de nommage partagées et comprises de tous au sein de votre équipe.
Gardez la maîtrise de vos données, ne laissez pas un logiciel nommer automatiquement vos fichiers !

Nommer comment ?

  • Être bref (25 caractères max), refléter le contenu, pas de termes trop génériques ("brouillon", "test"...)

  • Structuration du nom de fichier : sujet, date, version

  • Pas de mots vides, abréviations communément compréhensibles, dans l'idéal, ne pas répéter de termes entre noms du fichier et noms du dossier (même si dans les faits, ce n'est pas si simple...)  ; pas d’espaces ; pas de caractères spéciaux (accentués, symboles... : le nom du fichier doit être lisible par des machines) 

  • Majuscules, underscores, caractères alphanumériques ; format de la date selon la norme ISO AAAAMMJJ

  • Nombres toujours sur au moins 2 unités (en fonction du nombre de fichiers concernés: 01, 002, 0003 etc.)

  • Élément le plus important en premier pour faciliter la recherche du document

  • Terminer par mention de version du type VP/Vdef, V0, 1, 2

 

► 6 recommandations de Sciences Po
1. Court mais signifiant

Le nom du fichier doit contenir assez d'informations pour être compréhensible en dehors de l'espace de stockage. Éviter toutefois les informations redondantes et non nécessaires.

DMP.pdf  |data management plan.pdf

RapportActivitePolitis2018.pdf  |rapport d’activité du projet politis 2018.pdf
 

2. Jamais d'espace

Distinguer les différents éléments d'un nom de fichier en utilisant des majuscules et/ou des underscores (tiret bas) "_".

PolitisDMP.pdf  |DMP du projet Politis.pdf

Politis_budget_2019.xls  |Politis budget 19.xls
 

3. Pas de caractères spéciaux

​Ne pas utiliser de caractères accentués ou spéciaux : à é `ù % , { } ! @ $ € & * ().

Politis_Budget_Prev.pdf  |Politis(Budget_Prévisionnel).pdf

Politis_DMP_ethique.pdf  |Politis DMP & éthique.pdf

4. Ordonner les informations

Pour des fichiers de même nature, utiliser toujours le même ordre pour les éléments.

Politis_Budget_2019.pdf et Politis_Rapport_2019.pdf  |Politis_Budget_2019.pdf et Rapport_2019_Politis.pdf

​EntretienSyndicat.wav et EntretienONG.wav  |EntretienSyndicat.wav et ONGEntretien.wav
 

5. Chiffres : structure égale

Utiliser toujours le même nombre de caractères​. Modèle : 1-9, 01-99, 001-999, etc.​

Politis_entretien01.wav [...] Politis_entretien26.wav  |Politis_entretien1.wav [...] Politis_entretien26.wav

Budget2015.wav [...] Budget2019.wav  |Budget2015.wav [...] Budget19.wav
 

6. Dates formatées

​​Utiliser uniquement des chiffres. Modèles : AAAA, AAAAMM, AAAAMMJJ.

Politis_CR_20180910  |CR 10 septembre 18

Politis_budget20182019  |budget 2018-19
 

6. Version

​Utiliser la mention "V" suivi du numéro de version. S'il s'agit d'un brouillon, indiquer après «Vbrouillon».

rapportV01  |rapport version 1

 

►​ Outils de renommage de fichiers par lot
Dernière mise à jour: Apr 23, 2024 11:01 AM