" "
Sciences Po | Library - New window

Guides thématiques

Données de la recherche

       DES DÉTAILS !

Rendre ses données Accessibles

 Dans un entrepôt de diffusion certifié

 Stockées sur 2 supports fiables dont 1 à distance pendant le projet

 Archivées en partie à l’issue du projet

 Le cas particulier de la fouille et de la visualisation de données.

►​ C'est quoi les données de la recherche ? C'est quoi les principes FAIR ?
 

Dissiper le brouillard = stocker, archiver, déposer















 

 





En un clic, tout est plus clair !

Des données accessibles = dans un entrepôt de diffusion certifié


Data.sciencespo : qu'est-ce qu'il y a sous ton grand chapeau ?


► Pourquoi déposer vos données ?

En déposant vos données dans un entrepôt, vous assurez leur conservation, leur réutilisation et leur partage grâce à la documentation et aux métadonnées associées.

[Vidéo] Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?, Doranum Licence Creative Commons

► Trouver des données, pour mieux les réutiliser ?

Re3Data est un annuaire d'entrepôts de données créé en 2012 par la German Research Foundation (DFG). L’annuaire spécialisé FAIRsharing, permet de cibler très finement votre thématique de recherche. La liste OAD classe les entrepôts par disciplines. Des moteurs de recherche vous permettent de trouver facilement des jeux de données déposés dans des entrepôts ou des données partagées en annexe dans les articles : DataCiteGoogle DataSet SearchElsevier Dataset Search...  Des organisations (gouvernementales) partagent parfois les données (statistiques) qu'elles collectent dans leur propre portail : Eurostat par exemple, qui permet de filtrer par pays et par thème.

Vous avez développé des bases de données et souhaitez les partager avec l'ensemble des chercheurs de Sciences Po (et/ou au-delà) ? Nous pouvons les signaler ici.

► Déposer, est-ce partager ?

Vous avez le choix entre un accès ouvert à tous ou restreint. 
Dans le cas d'un accès restreint, vous choisissez les personnes avec qui vous partagez vos données (collaborateurs, doctorants, etc.). 

► Quelles données déposer ?

Vous êtes chercheur, doctorant, ingénieur d'un centre de recherche de Sciences Po, vous pouvez déposer toutes les données que vous avez produites. 

► Comment déposer ?

Vous êtes chercheur, doctorant, ingénieur d'un centre de recherche de Sciences Po, ce guide vous accompagne pas à pas pour l'auto-dépôt de vos données.

► Comment télécharger des données ?

Ce guide vous accompagne pas à pas dans le téléchargement des données disponibles.

 

Types d'entrepôts numériques

  • Entrepôts de données généralistes : ils concentrent 8% des données en 2014 selon le CNRS

    • Dataverse : ça c’est nous !
      Data.sciencespo est un entrepôt institutionnel qui repose sur la solution dataverse de Harvard.

      • Il est adossé à la politique de l’institution définissant les conditions dans lesquelles doivent être conservées et rendues accessibles les données. Le volet « gestion des données » de la charte science ouverte en cours d’élaboration par la dris et la DS devrait en préciser les contours.

      • Il se compose de deux collections :

        • Autodépôt institutionnel des chercheurs de Sciences Po accompagnés par la dris et les laboratoires – tous types de données

        • Catalogue national données d’enquêtes documentées du CDSP pour chercheurs Sciences Po conventionnés et chercheurs hors Sciences Po

        • Plus d'infos.

    • Zenodo : cet entrepôt multidisciplinaire est financé par la Commission européenne

      • Le financement de projet  est conditionné par le respect de certaines règles de gestion et de partage des données ; mettre à dispo un entrepôt revient à joindre les actes aux paroles

      • Il est possible de choisir une communauté disciplinaire existante ou d’en créer une.

    • Dryad : cet entrepôt généraliste est très orienté génétique, biologie, écologie d’où son nom de Dryad tiré des Dryades, divinités grecques de la forêt

  • Entrepôts spécialisés, disciplinaires : le partage des données est inscrit dans les pratiques de recherche dans certaines disciplines (ex. : astronomie, génétique, environnement, Pangea en géologie). Ils renferment 2% des données en 2014 selon le CNRS

  • Entrepôts privés des sections Recherche et Développement de entreprises : ces entrepôts correspondent à des initiatives personnelles de mise à disposition de la communauté scientifique de ses données, par exemple en cas de pandémie.
     

Quelque soit l'entrepôt, un bon entrepôt :

  • Dispose d’un modèle économique clair, visible par tous, partagé largement : la solution "dataverse" élaborée par Harvard est utilisée pour data.sciencespo adoptée aussi en Lorraine, à Paris 8…

  • Offre des garanties en matière d’indexation et de signalement (qui permettent de trouver le jeu de données que l’on souhaite) et de conservation des contenus

Certaines revues exigent que soient déposées dans un entrepôt :

  • les données ayant permis la rédaction de l’article

  • les données sur lesquelles reposent les conclusions d’un article. 

Des données accessibles = archivées en partie à l'issue du projet


C'est quoi l'archivage ?

Les solutions de stockage pérenne sur 30 ans et plus permettent de lutter contre l'obsolescence technologique tous les 5 ans en moyenne : recopie de supports, migration de formats à travers des générations multiples de médias et de technologies, conservation de copies multiples en privilégiant les technologies les plus utilisées, libres, ouvertes, diversification des supports, supports conservés dans des salles des machines différentes. Ces opérations nécessitent une sélection des données et donc de réfléchir aux jeux de données qui seront archivés car uniques et ceux qui seront détruits à la fin du projet car facilement reproductibles. Les données doivent présenter une valeur scientifique reconnue pour la communauté scientifique de laquelle elles proviennent.

Pourquoi conserver des contenus électroniques sur un support garantissant l’intégrité des données ? Pour les rendre accessibles et exploitables dans le temps à titre informatif (ressources pour la recherche) ou probant (valeur de preuve des conclusions d’un article ou d’un chapitre d’ouvrage). 

La durée de conservation est réglementée. Plus d'infos sur le Guide pratique de la CNIL.

 

Le Cines

En tant qu'institution d'enseignement supérieur, Sciences Po travaille avec le Cines : le Centre Informatique National de l’Enseignement Supérieur. Mandaté par le Ministère depuis 2004, il est l'opérateur pour l’archivage des données et documents numériques produits par la communauté Enseignement supérieur et Recherche française. Il propose des solutions d’archivage numérique sur le moyen et long terme, mutualisées, économiques et personnalisables :

  • PAC :  le projet historique, le premier lancé, pour l’archivage à long terme

  • ISAAC : pour l’archivage intermédiaire de données scientifiques nationales

  • EUDAT : grille européenne d’archivage

Le saint des saints : le modèle OAIS (Open Archival Information System).
Description 
du modèle :
 en bref/en français ; en détails/en français ; en détails/in english.

Coût de la facture d'électricité : 800 000 euros par an !

►​ Le DSA (Data Seal of Approval), devenu le CoreTrustSeal, récompense les entrepôts engagés dans l'archivage numérique de long terme répondant aux critères de la norme OAIS. Ce certificat est attribué par les Data Archiving and Networked Services (DANS).


Calendrier-type d'un projet d'archivage au Cines

Phase préliminaire : étude de faisabilité globale du projet d’archivage ; prise de contact et échange d’informations :

  • Règles du service, documentation utile, présentation des infos à préserver : nature, format, volumétrie, accessibilité ou non, confidentialité des données, authenticité

  • Première estimation des changements à apporter aux jeux de données, étude des coûts et des risques associés à ces changements

  • Convention-type à partir d’une première discussion sur les aspects légaux et contractuels

Phase de définition : négociation de la procédure d’archivage

  • Quels objets archiver, description du projet, type de données, formats, volumétrie ; test de validité des formats

  • Mettre au point les aspects légaux et contractuels

  • Comment le service versant et les archives vont communiquer

  • Quel protocole de versement, traitement, rejets

Phase de transfert :

  • Ouvrir un compte Cines

  • Valider le workflow de versement : les étapes

  • Mettre à jour le calendrier

Phase de validation, déploiement dans l’environnement de production

  • Déploiement dans l’environnement de production

  • Premier versement dans PAC

  • Signer la convention d’archivage

  • Lancer la production

Plus d'infos :

















En un clic, tout est plus clair !


Pour les partisans de l'Alter'Archivisme, le système
 SPAR (système de préservation et d’archivage réparti de la BnF) propose des tarifs sur 3, 5 ou 8 ans depuis mai 2010.

Pour vous aider à sélectionner vos données, des conseils du Digital Curation Center : supprimer (ou archiver à part avec un niveau de sécurité plus élevé) les données sensibles, supprimer les données redondantes ou qui concernent des sujets très contemporains, sans valeur à long terme.

Plus d'infos : 
Tjalsma, H. & Rombouts, J. (2011). 
Selection of research data: Guidelines for appraising and selecting research data. Data Archiving and Networked Services (DANS).
Digital Curation Centre (DCC): Whyte, A. & Wilson, A. (2010). 
How to appraise and select research data for curation. DCC How-to Guides. Edinburgh: Digital Curation Centre.

Des données accessibles = stockées sur deux supports dont un à distance pendant le projet 

Un chiffre : 90% des données de la recherche sont stockées sur les disques durs locaux et potentiellement non réutilisables par d'autres... CNRS – 2014. Source : libguide Formadoct Université de Bretagne Loire.

Un graphique


Le stockage consiste à entreposer des contenus électroniques le temps du projet de recherche, donc à court ou moyen terme. Il sert de base au traitement ultérieur des contenus.
Durée de conservation : non réglementée.


Qu'est-ce que je risque si je ne fais pas attention ?

  • Pertes de clés USB, suite à un déménagement, un incendie, un cambriolage, un vol de données, etc.

  • Attention à choisir un bon anti-virus, aux pannes de PC, qui facilitent le téléchargement de programmes infectés. Une solution : stocker dans des PC non connectés au réseau comme au CASD – centre d’accès sécurisé aux données : identifications sur empreintes digitales et biométriques.

  • Le cas Dropbox :

    • Attention à la procédure de sauvegarde des données : c'est un outil commercial. Quid si la société productrice fait faillite ?

    • Ne pas y mettre de données personnelles ou sensibles : il y a un risque de récupération des données par les propriétaires de la solution de stockage.

Conseils :

  • Éviter la copie unique : règle des 3 2 1 = 3 copies identiques sur 2 supports différents (usb, disque dur externe, serveurs institutionnels – adaptés pour données sensibles, clouds) dont 1 dans une localisation différente (hors de son bureau).
  • Garder en tête la question du lieu d'hébergement des données, le "cloud computing" induisant une internationalisation des supports de l'information qui peut conduire à des conflits entre systèmes juridiques (protection des données personnelles, droit d'auteur, responsabilité). Penser à consulter les CGU des outils utilisés. Si vous travaillez avec des chercheurs américains, gardez bien en tête que leur législation en matière de données personnelles diffère fortement du RGPD. Des données collectées pour un laboratoire français ne doivent pas être stockées sur des serveurs américains.
  • Choisir des mots de passe solides, à niveau de protection élevé (longue chaîne de caractères, majuscules, chiffre, caractères spéciaux). Ne jamais les utiliser deux fois ; ne pas utiliser son anniversaire, ses initiales, le nom de sa rue, ses passe-temps ou ses passions. Choisir un système d'exploitation et des logiciels mis à jour, des espaces et données cryptés.
  • Attention à entretenir son matériel (mises à jour...).
  • En savoir plus : 
    Outils en ligne / Bonnes pratiques [accès réservé]
    - La DSI répond aux questions des laboratoires de Sciences Po/Groupe Data Team [accès réservé, se connecter en amont avec ses identifiants Sciences Po].


Vous êtes paumés ? Cap sur le tableau de sauvetage !

 

Solution de stockage Avantages Risques / Précautions Recommandation

Hébergement local (ordinateur fixe, ordinateur portable)

Facile à gérer et empêche tout accès non autorisé

Ne suffit pas si les données sont stockées sur un seul appareil (=> sauvegarde nécessaire)

Les ordinateurs portables peuvent être volés. Le cryptage du disque dur est obligatoire

Sauvegarder l'ordinateur

Hard-drive externe

Utile pour échanger des données sans les transmettre sur Internet Facilement perdu, volé et endommagé Utiliser de préférence pour un stockage temporaire

Disque partagé en réseau sur le serveur du centre de recherche / Stockage en réseau attaché

Sauvegarde automatique

Hébergement centralisé

Haute capacité de stockage

Peut ne pas être accessible par des personnes externes à la communauté d'utilisateurs. Hébergement de long terme

Google Drive - stockage sur le Cloud fourni par Sciences Po

Accessible par des personnes externes (si elles ont une adresse e-mail Google)

Sauvegarde automatique

Hébergement dans l'Union européenne non garanti -> conflit avec le RGPD

Ne convient pas à tous les projets de recherche

Contrôler les accès lors du partage

Crypter les données personnelles avant de les télécharger dans le cloud (conformité à RGPD)
Autre stockage sur le cloud géré par une université ou le CNRS Sécurisé en cas de stockage dans l'Union européenne La taille peut être limitée Peut être sûr et approprié
Stockage dans le cloud sans aucun accord (ex. : Dropbox)

Usage répandu

Ne dépend pas d'un fournisseur d'email

Les services gratuits fournis par des fournisseurs commerciaux peuvent revendiquer le droit d'utiliser le contenu que vous gérez et de le partager pour leurs propres besoins.

Risqué

Non recommandé pour les données sensibles

► Un tableau élaboré par Doranum vous propose une hiérarchisation des possibilités de stockage sous la forme d'une notation à base d'étoiles.
 

Quels outils ?

De plus en plus d'établissements mettent à disposition des services de partage et stockage collaboratifs type SaaS (Software as a service), de cloud computing ou de virtualisation du poste de travail.  Exemples : Renater, open science framework, cumulus.


► Renater


 

 

Pour envoyer des fichiers, la solution FileSender proposé par Renater  vous permet :

  • Authentification via la fédération d'identité Education-Recherche
  • Dépôt rapide de fichiers à destination d'un ou plusieurs correspondants
  • Consultation des fichiers déposés
  • Invitation de correspondants à déposer des fichiers dans son espace personnel de dépôt de fichiers.

► Google Drive Sciences Po

Google Drive, de quoi parle-t-on ? Votre compte Google Sciences Po n'est pas votre compte Google privé
Dans le cadre du contrat d'entreprise Google (Google Apps for Education) vous bénéficiez de conditions d'utilisations particulières.

Pour un stockage sécurisé de vos données dans le Cloud, privilégiez Google DRIVE Sciences Po à toute autre solution privée (Google compte personnel, Drop Box, Orange Box, Facebook).

En savoir plus [accès réservé].

► Huma-Num

Vous participez à un programme de recherche ? Huma-Num propose une offre de service qui inclue le stockage de vos données.
En savoir plus.


 



My CoRe - CNRS

Membre d'une unité de recherche ? Utilisez les services My CoRe, un espace de "stockage et sauvegarde individuels, nomadisme et partage sécurisé". Stockez jusqu'à 100Mo, synchronisez vos ordinateurs, partagez vos fichiers. Plusieurs types de comptes sont proposés : individuels, services (pour les équipes, les projets), invités.
En
 savoir plus.


► 
D'autres outils de sauvegarde automatique : SyncBack, Cobian, Macrium Reflect, Open Science Framework.

Des données accessibles = TDM et visualisation


TDM : Text and Data Mining

Le TDM : c'est quoi ? C'est une analyse automatisée d'information numérique qui implique l'extraction de connaissances à travers un algorithme d'apprentissage ou de statistiques sur des critères de nouveauté, d'occurrences et de similarité.

Le TDM : pourquoi ? L'augmentation du volume d'écrits scientifiques et de données de la recherche occasionne une massification de l'information. Certains outils numériques en favorisent la consultation, l'exploitation, le croisement, impossibles manuellement, et par là même l'acquisition de nouvelles connaissances, la découverte de nouvelles tendances et la recherche transdisciplinaire.

Le TDM : quel cadre légal ? L'article 38 de la loi pour une République Numérique entend suppléer l'absence de cadre légal clair. Elle introduit une exception au droit d'auteur et du producteur de bases de données, limitée aux textes et données scientifiques (contrairement au Fair Use américain). Ce droit au TDM est présent dès 2014 dans les lignes directrices du programme H2020 de financement de la recherche. Il se traduit par l'existence d'infrastructures françaises (Istex, 21 millions de ressources structurées, enrichies et réparties en grandes disciplines) et européennes (OpenMinTed) de TDM. Certains projets de recherche utilisent des corpus et outils de fouille Istex comme source d'étude, par exemple le projet Terre-Istex, mélangeant système d'information géographique (SIG) et géologie ou Unitex-Castys, en linguistique.

Parmi les logiciels utilisés, le bien-nommé Grobid (Generation of Bibliographic Data) extrait et analyse des contenus comme l'information bibliographique et propose une analyse statistique de termes récurrents.

Quelques éléments de vocabulaire.
Le Data Lake stocke les données sans prétraitement et sans a priori quant à leur nature et à leur usage ultérieur. Il correspond à un ensemble provenant de sources multiples (d'où l'image du lac)  et non structurées, si massif qu'il est impossible à traiter ou à analyser par l'esprit humain ou les outils d'information classiques. Pour information, les donnés structurées sont inclues dans une base de données relationnelles, avec tables et colonnes ; les données semi-structurées utilisent des formats comme .csv, .xml ou .json ; les documents, les .pdf, les e-mails sont des données non structurées. Le lac de données peut être le point de départ d’approches collaboratives dématérialisées entre les chercheurs et promouvoir la science ouverte.

Le Data Swamp (en anglais, marécage) correspond à un état des données moins organisé et moins propre que le data lake, souvent pour des données inaccessibles ou de peu de valeur.


Visualisation de données

La visualisation de données : c'est quoi ? Cette représentation graphique d'informations et de données, cartes, infographie se veut mise en récit percutante avec un but précis, par exemple :

  • Aider à la décision ;
  • Faire ressortir la possible relation entre différentes données et en tirer une information statistique
  • Faire apparaître ce qui rend les données homogènes. Dans l'idéal, il permet de se concentrer sur les seules données pertinentes.

Graphiques les plus courants : diagrammes (circulaire, en bétons), tables, tableaux de bord, tableaux de flux, infographies, cartes heuristiques : ces formes peuvent servir d'appui à l'analyse de caractéristiques de population de taille différente sur un même indicateur.

Graphiques plus spécifiques : graphiques à aires, polaires, à barre, à puces, à moustache, nuage de bulles, cartogrammes, vues circulaires, carte de distribution de points, diagramme de Gant, table sur lignes, histogramme, matrice, réseau, arborescence radiale, nuage de points, nuage de mots.
Tous combinables !
Des graphes sont utilisés par exemple pour cerner les résultats d'enquêtes d'opinion.


Exemples :

  • GarganText : outil de visualisation terminologique d'un corpus textuel, il produit des cartes interactives qui évoluent au fur et mesure que vous travaillez dessus. Il permet de construire une carte thématique de mots permettant de nourrir un article de type "état de l'art" en ne passant pas à côté d'une thématique incontournable sur une problématique donnée. Plus le point est gros, plus le terme est central dans le réseau de relations entre termes. L'outil a permis récemment d'établir une cartographie interactive de la recherche sur le coronavirus et de ses liens avec les autres maladies, d'analyser des milliers d'articles, de faire ressortir les thématiques abordées et leur organisation et de dégager les termes les plus représentatifs du corpus, ici "vaccins efficaces".
    • Selon ses concepteurs, l'outil pourrait servir habilement une éventuelle cartographie des programmes politiques des candidats à une élection.
    • Pour en savoir plus, par ici la conf de MateSHS.
  • Gephi : ce logiciel libre d'analyse et de visualisation de réseaux a été développé par les étudiants de l'Université de Technologie de Compiègne. Il permet de visualiser les éléments d'un réseau les plus centraux, les plus éloignés, les mieux connectés : réseau social d'un utilisateur de Facebook, réseau de contribution à un projet Wikipédia, réseau de neurones, correspondances à l'intérieur d'une organisation internationale. Sciences Po fait partie du Gephi Consortium (association loi 1901).
  • Plus d'outils ici.


Conseil : se méfier de la visualisation "tape à l'oeil" qui manque son objectif et qui ne répond pas au besoin. La visualisation peut influer sur l'efficacité et la crédibilité du message.

Et le médialab ?

Dixième centre de recherche de Sciences Po, le Médialab a été créé en 2009 pour aider les chercheurs en sciences sociales et humaines à tirer le meilleur profit de la masse de données rendues disponibles par le numérique. Il a trois missions principales fortement intégrées : méthodologie, analyse, théorie.
L'équipe du médialab développe notamment un grand nombre de logiciels qui permettent d’organiser, d’automatiser et de visualiser les recherches sur les données nativement numériques ou numérisées. 

Dernière mise à jour: Jul 28, 2022 10:30 AM