" "
Sciences Po | Library - New window

Guides thématiques

Données de la recherche

       DES DETAILS !

Rendre ses données Intéropérables

 Schémas de métadonnées partagé et adapté à la discipline

 Formats connus, ouverts, documentés, partagés, vocabulaire FAIR

Quel intérêt ? Regrouper les données structurées sur le web non sous la forme de silos de données isolés les uns des autres mais en les reliant entre elles ; récupérer les métadonnées saisies ailleurs ; éviter d’avoir à dupliquer les données.

►​ C'est quoi les données de la recherche ? C'est quoi les principes FAIR ?

 

Des données intéropérables = formats connus, ouverts et documentés
 

Avez-vous été confrontés à des fenêtres à des messages plutôt du type « oops impossible d’ouvrir le fichier. Le format n’est pas pris en charge » ? 
Derrière ce message se niche la question de l'ouverture des formats à laquelle il faut répondre idéalement dès le début de vos recherches.


Un format doit-il être ouvert ou fermé ?

  • Problème des formats fermés : ils obligent à utiliser un logiciel de lecture payant. Leur « recette de fabrication » est donc cachée. La lecture ou la modification des fichiers est conditionnée à la possession du logiciel adéquat, payant (ex: .psd > Photoshop ; .xsl, .doc, .ppt) :

    • Mais tous les formats propriétaires ne sont pas fermés : standard pdf, ajout de « x » aux extensions des formats de la suite Office.

    • Des programmes comme SPSS and Excel ne marchent pas bien sur un dispositif HPC - High Performance Computing.

    • En tout cas : les formats fermés ne sont pas compatibles avec les principes d’interopérabilité et de réutilisation des FAIR Data.  

  • Formats ouverts : les fichiers sont encodés de façon transparente, leur « recette de fabrication » fait partie du domaine public. Ils sont interopérables, c'est-à dire qu'ils peuvent être créés, lus et modifiés par tous les logiciels destinés à traiter le même type de fichier : image, texte, audio… 
    Exemples : .xml, .csv, .ops (données tabulaires) ; .pdf, .txt, .docx, .odt, .rtf, (données textuelles) ; .gif, .png , .jpg (image) ; .ora, .xcf (retouche d'images) ; .mp3 , .wav, .zip. (sons) ; .mp4 (vidéos)

    L’outil Facile mis en place par le Cines permet de vérifier la validité de formats de vos fichiers de données, c'est-à-dire voir s’ils sont toujours lisibles.


    Le répertoire de formats PRONOM vous permet d'obtenir des informations sur un très grand nombre de formats et guide vos choix.

  • La conversion de format est à anticiper et à documenter en prévision des opérations de diffusion et d’archivage. Data.sciencespo transforme les formats fermés en formats ouverts. Magique !

Privilégier les formats ouverts, c'est utiliser des logiciels open-source. Des conseils pour débuter :

  • Pour Python: installer Anaconda et lancer le Jupyter Notebook depuis votre navigateur.
  • Pour R: you should install Anaconda et lancer R Studio depuis votre navigateur.
  • Utiliser les Software Carpentries pour apprendre les bases de la programmation en Python et R et le contrôle de version avec Git.
  • Lire les recommandations de FAIR Software et le cours de GitHub sur l'analyse textuelle avec Python.


Quel format privilégier dans la jungle des possibilités ?

Recommandations du UK Data Services.
Une liste des outils de RDM sur GitHub.

 

Comment donner à ses données un label 5 étoiles ?

Connaissez-vous le programme 5 étoiles du Linked Open Data de Tim Berners-Lee ?

Publier vos données sur le web sous licence ouverte

Structurer vos données pour les rendre lisible par des humains et des machines

Publier vos données dans un format ouvert et non propriétaire, ne pas les limiter à un pack logiciel particulier, faire en sorte que les fonctionnalités soient toutes disponibles quelque soit le programme utilisé pour l'ouvrir

Utiliser des URI pour faciliter le liage pérenne et le référencement sur le web de vos données

Lier vos données à d'autres données pour y rajouter du contexte

On ne peut attribuer à ses données une étoile supérieure si les exigences de la précédente ne sont pas satisfaites.

Des données intéropérables = schémas de métadonnées partagés et adaptés à la discipline
 

Un jeux de données, c'est aussi des métadonnées

Un dataset (jeu de données) est constitué d'un ensemble de fichiers de données formant une unité intellectuelle, de la documentation de ces données et de métadonnées (descriptives, administratives et structurelles).

DATASET = DATA + DOCUMENTATION + METADATA


Mais c'est quoi les métadonnées ?

Titre, auteur, date, éditeur, etc. sont les métadonnées de vos publications. Vos données peuvent également être décrites avec des métadonnées (type de données, date de constitution du jeux, nom du manager, version, format, etc.). La description normée de vos données  réduit l'ambiguïté du langage naturel et permet leur moissonnage par d'autres serveurs et en facilite la découverte par les moteurs de recherche. Un exemple de protocole est l'OAI-PMH : Open Archive Initiative Protocol for Metadata harvesting.

Types de métadonnées :

  • Métadonnées descriptives : elles permettent de découvrir, d’évaluer les données décrites : titre, auteur, sujets, mots-clés, date…

  • Métadonnées de provenance (origine, traitement) : elles permettent la bonne compréhension du contexte, elles favorisent la réutilisation.

  • Métadonnées techniques et administratives : conditions de lecture par l’homme et la machine, logiciels de lecture des données, configuration, versions du logiciel, formats ; droits et accès (licences de diffusion = ce que le producteur du jeu de données autorise ou non concernant la réutilisation de son jeu de données). 

  • Chaque métadonnée a son gabarit : 

    • Nom du projet : texte libre

    • Date : norme ISO AAAA-MM-JJ…

2 modes de création de métadonnées cohabitent souvent : 

  • Les métadonnées externes

  • Les métadonnées embarquées sont récupérées automatiquement quand on renseigne le DOI ou quand on glisse dépose le document (comme dans HAL) : contrôle qualité nécessaire, le résultat n’est pas toujours optimal !

Des exemples d'outils pour vous aider. Le guide sur les bases du sujet de l'université du Texas. La documentation fine du CESSDA pour approfondir.


Et les standards de métadonnées ?


Les standards de métadonnées servent à décrire la ressource de manière qu’elle soit retrouvée par les moteurs de recherche (selon des critères précis et uniformes pour des objets équivalents)
, par exemple Dublin Core (généraliste), EML... Là où les humains  recherchent un contenu engageant et interactif, les machines demandent de la structure, de la logique, de la clarté. Pour ce faire, des standards disciplinaires existent, par exemple DDI (Data Documentation Initiative), plus fins, adaptés aux données et types de ressources en sciences sociales, en particulier les données d’enquêtes. Les champs doivent être remplis de manière à ce que les informations soient compréhensibles par tous.

Des schémas de métadonnées existent aussi selon le : 

  • Type de ressources : on ne décrit pas de la même façon une image (dimension, modèle du périphérique, espace colorimétrique, profil de couleurs, longueur focale) une vidéo (nombre d'images par seconde, profil colorimétrique, durée), un fichier audio (débit, codec, fréquence d'échantillonage), un texte, un livre, des entretiens etc. 

  • Type d’entrepôts : généralistes (Zenodo, Dryad, HAL, Data.sciencespo) ou spécialisé (Pangaea, GenBank), privé ou public

  • Public visé : on ne décrit pas de la même façon des ressources pour les pairs, les collègues chercheurs de toutes disciplines pour favoriser l’interdisciplinarité, le grand public, le public français ou étranger…

Ces standards peuvent se cumuler.

[Vidéo] Les schémas de métadonnées (DoRANum) Licence Creative Commons

►​ Sciences Po choisit le schéma DDI

Le DDI (Data Documentation Initiative) est le schéma nativement implémenté dans data.sciencespo, l'entrepôt de données de Sciences Po.
Il est adapté aux données produites en sciences sociales, les données d'enquête entre autres.​

Vous pouvez consulter d'autres schémas de métadonnées par le Metadata Standards Directory Working Group de la RDA ou sur FAIRSharing.org.

►​ Besoin d'aide ? Contactez-nous !
Dernière mise à jour: Jul 28, 2022 10:30 AM