Guides thématiques: Données de la recherche: Fouiller, stocker, diffuser, archiver : rendre accessible

DES DÉTAILS !

Rendre ses données Accessibles

Stockées sur 2 supports fiables dont 1 à distance pendant le projet

Dans un entrepôt de diffusion certifié

Archivées en partie à l’issue du projet

Le cas particulier de la fouille et de la visualisation de données.

► C'est quoi les données de la recherche ? C'est quoi les principes FAIR ?

Dissiper le brouillard = stocker, archiver, déposer

En un clic, tout est plus clair !

Quels outils ?

De plus en plus d'établissements mettent à disposition des services de partage et stockage collaboratifs type SaaS (Software as a service), de cloud computing ou de virtualisation du poste de travail. Exemples : Renater, open science framework, cumulus.

► Renater

Pour envoyer des fichiers, la solution FileSender proposé par Renater vous permet :

Authentification via la fédération d'identité Education-Recherche
Dépôt rapide de fichiers à destination d'un ou plusieurs correspondants
Consultation des fichiers déposés
Invitation de correspondants à déposer des fichiers dans son espace personnel de dépôt de fichiers.

En savoir plus [accès réservé].

► Google Drive Sciences Po

Google Drive, de quoi parle-t-on ? Votre compte Google Sciences Po n'est pas votre compte Google privé.
Dans le cadre du contrat d'entreprise Google (Google Apps for Education) vous bénéficiez de conditions d'utilisations particulières.

Pour un stockage sécurisé de vos données dans le Cloud, privilégiez Google DRIVE Sciences Po à toute autre solution privée (Google compte personnel, Drop Box, Orange Box, Facebook).

► Huma-Num

Vous participez à un programme de recherche ? Huma-Num propose une offre de service qui inclue le stockage de vos données.
En savoir plus.

► My CoRe - CNRS

Membre d'une unité de recherche ? Utilisez les services My CoRe, un espace de "stockage et sauvegarde individuels, nomadisme et partage sécurisé". Stockez jusqu'à 100Mo, synchronisez vos ordinateurs, partagez vos fichiers. Plusieurs types de comptes sont proposés : individuels, services (pour les équipes, les projets), invités. Un invité (non référencé dans Janus) ne peut déposer que des fichiers < 10Mo sur le Cloud du CNRS. Cette taille de fichier est très faible pour des fichiers audios. Si MyCore ne suffit pas, le CNRS autorise l'utilisation du logiciel Cryptomator qui permet la création d'un coffre sur le cloud (donc sur Google Drive). Le logiciel est gratuit et peut être installé sur Windows et Mac.

Astuce concernant les fichiers audio : créer un dossier partagé sous Google Drive, accessible à l'ensemble des personnes du projet. Ce dossier pourra être crypté à la création et accessible juste par mot de passe en utilisant Cryptomator.

► ODS - CNRS

Tout savoir sur ODS.

Tableau comparatif MyCore et ODS.

► D'autres outils de sauvegarde automatique : SyncBack, Cobian, Macrium Reflect, Open Science Framework.

1password
Le logiciel “1password” génère automatiquement des mots de passe à haut niveau de protection (longue chaîne de caractères, capitales, chiffres, caractères spéciaux) et garantit leur robustesse, même pour le mot de passe utilisé pour s’identifier sur l’outil. Pour s'identifier sur 1password, l’équipe de recherche utilisera un mot de passe avec 5 chiffres et 6 lettres déterminés au hasard, mis à jour tous les 6 mois.

Des données accessibles = stockées sur deux supports dont un à distance pendant le projet

Un chiffre : 90% des données de la recherche sont stockées sur les disques durs locaux et potentiellement non réutilisables par d'autres...

Un graphique :

Le stockage consiste à entreposer des contenus électroniques le temps du projet de recherche, donc à court ou moyen terme. Il sert de base au traitement ultérieur des contenus.
Durée de conservation : non réglementée.

Qu'est-ce que je risque si je ne fais pas attention ?

Pertes de clés USB, suite à un déménagement, un incendie, un cambriolage, un vol de données, etc.
Attention à choisir un bon anti-virus, aux pannes de PC, qui facilitent le téléchargement de programmes infectés.
Le cas Dropbox :
- Attention à la procédure de sauvegarde des données : c'est un outil commercial. Quid si la société productrice fait faillite ?
- Ne pas y mettre de données personnelles ou sensibles : il y a un risque de récupération des données par les propriétaires de la solution de stockage.

Conseils :

Éviter la copie unique : règle des 3 2 1 = 3 copies identiques sur 2 supports différents (usb, disque dur externe, serveurs institutionnels – adaptés pour données sensibles, clouds) dont 1 dans une localisation différente (hors de son bureau).
Garder en tête la question du lieu d'hébergement des données, le "cloud computing" induisant une internationalisation des supports de l'information qui peut conduire à des conflits entre systèmes juridiques (protection des données personnelles, droit d'auteur, responsabilité). Penser à consulter les CGU des outils utilisés. Si vous travaillez avec des chercheurs américains, gardez bien en tête que leur législation en matière de données personnelles diffère fortement du RGPD. Des données collectées pour un laboratoire français ne doivent pas être stockées sur des serveurs américains.
Choisir des mots de passe solides, à niveau de protection élevé (longue chaîne de caractères, majuscules, chiffre, caractères spéciaux). Ne jamais les utiliser deux fois ; ne pas utiliser son anniversaire, ses initiales, le nom de sa rue, ses passe-temps ou ses passions. Choisir un système d'exploitation et des logiciels mis à jour, des espaces et données cryptés.
Attention à entretenir son matériel (mises à jour...).
En savoir plus :
- Outils en ligne / Bonnes pratiques [accès réservé]
- La DSI répond aux questions des laboratoires de Sciences Po/Groupe Data Team [accès réservé, se connecter en amont avec ses identifiants Sciences Po].

Vous êtes paumés ? Cap sur le tableau de sauvetage !

Solution de stockage	Avantages	Risques / Précautions	Recommandation
Hébergement local (ordinateur fixe, ordinateur portable)	Facile à gérer et empêche tout accès non autorisé	Ne suffit pas si les données sont stockées sur un seul appareil (=> sauvegarde nécessaire) Les ordinateurs portables peuvent être volés. Le cryptage du disque dur est obligatoire	Sauvegarder l'ordinateur
Hard-drive externe	Utile pour échanger des données sans les transmettre sur Internet	Facilement perdu, volé et endommagé	Utiliser de préférence pour un stockage temporaire
Disque partagé en réseau sur le serveur du centre de recherche / Stockage en réseau attaché	Sauvegarde automatique Hébergement centralisé Haute capacité de stockage	Peut ne pas être accessible par des personnes externes à la communauté d'utilisateurs.	Hébergement de long terme
Google Drive - stockage sur le Cloud fourni par Sciences Po	Accessible par des personnes externes (si elles ont une adresse e-mail Google) Sauvegarde automatique	Hébergement dans l'Union européenne non garanti -> conflit avec le RGPD Ne convient pas à tous les projets de recherche Contrôler les accès lors du partage	Crypter les données personnelles avant de les télécharger dans le cloud (conformité à RGPD)
Autre stockage sur le cloud géré par une université ou le CNRS	Sécurisé en cas de stockage dans l'Union européenne	La taille peut être limitée	Peut être sûr et approprié
Stockage dans le cloud sans aucun accord (ex. : Dropbox)	Usage répandu Ne dépend pas d'un fournisseur d'email	Les services gratuits fournis par des fournisseurs commerciaux peuvent revendiquer le droit d'utiliser le contenu que vous gérez et de le partager pour leurs propres besoins.	Risqué Non recommandé pour les données sensibles

► Un tableau élaboré par Doranum vous propose une hiérarchisation des possibilités de stockage sous la forme d'une notation à base d'étoiles.

Des données accessibles = dans un entrepôt de diffusion certifié

Data.sciencespo : qu'est-ce qu'il y a sous ton grand chapeau ?

► Pourquoi déposer vos données ?

En déposant vos données dans un entrepôt, vous assurez leur conservation, leur réutilisation et leur partage grâce à la documentation et aux métadonnées associées.

[Vidéo] Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?, Doranum

► Trouver des données, pour mieux les réutiliser ?

Re3Data est un annuaire d'entrepôts de données créé en 2012 par la German Research Foundation (DFG). L’annuaire spécialisé FAIRsharing, permet de cibler très finement votre thématique de recherche. La liste OAD classe les entrepôts par disciplines. Des moteurs de recherche vous permettent de trouver facilement des jeux de données déposés dans des entrepôts ou des données partagées en annexe dans les articles : DataCite, Google DataSet Search... Des organisations (gouvernementales) partagent parfois les données (statistiques) qu'elles collectent dans leur propre portail : Eurostat par exemple, qui permet de filtrer par pays et par thème.

Vous avez développé des bases de données et souhaitez les partager avec l'ensemble des chercheurs de Sciences Po (et/ou au-delà) ? Nous pouvons les signaler ici.

► Déposer, est-ce partager ?

Vous avez le choix entre un accès ouvert à tous, sur demande ou restreint.
Dans le cas d'un accès restreint ou d'un accès sur demande, vous choisissez les personnes avec qui vous partagez vos données (collaborateurs, doctorants, etc.).

► Quelles données déposer ?

Vous êtes chercheur, doctorant, ingénieur d'un centre de recherche de Sciences Po, vous pouvez déposer toutes les données que vous avez produites.

► Comment déposer ?

Vous êtes chercheur, doctorant, ingénieur d'un centre de recherche de Sciences Po, ce guide vous accompagne pas à pas pour l'auto-dépôt de vos données.

► Comment télécharger des données ?

Ce guide vous accompagne pas à pas dans le téléchargement des données disponibles.

Types d'entrepôts numériques

Entrepôts de données généralistes :
- Dataverse : ça c’est nous !
  Data.sciencespo est un entrepôt institutionnel qui repose sur la solution dataverse de Harvard.
  - Il est adossé à la politique de l’institution définissant les conditions dans lesquelles doivent être conservées et rendues accessibles les données. Un volet « gestion des données » est inclu dans la charte science ouverte élaborée par la DRIS, la direction scientifique et le centre de données de Sciences Po.
  - Il se compose de deux collections :
    - Autodépôt institutionnel des chercheurs de Sciences Po accompagnés par la DRIS et les laboratoires – tous types de données.
    - Catalogue national données d’enquêtes documentées du CDSP pour chercheurs Sciences Po conventionnés et chercheurs hors Sciences Po.
    - Plus d'infos.
- Zenodo : cet entrepôt multidisciplinaire est financé par la Commission européenne
  - Le financement de projet est conditionné par le respect de certaines règles de gestion et de partage des données dont la mise à disposition de ses données
  - Il est possible de choisir une communauté disciplinaire existante ou d’en créer une.
- Dryad : cet entrepôt généraliste est très orienté génétique, biologie, écologie d’où son nom de Dryad tiré des Dryades, divinités grecques de la forêt. A garder en tête à l'heure de la montée des projets interdisciplinaires SHS et STM.

Entrepôts spécialisés, disciplinaires : le partage des données est inscrit dans les pratiques de recherche dans certaines disciplines (ex. : astronomie, génétique, environnement, Pangea en géologie).
Entrepôts privés des sections Recherche et Développement de entreprises : ces entrepôts correspondent à des initiatives personnelles de mise à disposition de la communauté scientifique de ses données, par exemple en cas de pandémie.

Quelque soit l'entrepôt, un bon entrepôt :

Dispose d’un modèle économique clair, visible par tous, partagé largement : la solution "dataverse" élaborée par Harvard est utilisée pour datasciencespo
Offre des garanties en matière d’indexation et de signalement (qui permettent de trouver le jeu de données que l’on souhaite) et de conservation des contenus.

Certaines revues exigent que soient déposées dans un entrepôt :

les données ayant permis la rédaction de l’article ;
les données sur lesquelles reposent les conclusions d’un article.

Un retour d'expériences

Et les codes ?

DCAS - Data and Code Availability Standard
Un outil pour vous permettre de respecter les standards requis par les revues partenaires sur le partage de codes. Il peut servir de modèle aux revues souhaitant aligner leur politique d'ouverture.

Des données accessibles = archivées en partie à l'issue du projet

C'est quoi l'archivage ?

Les solutions de stockage pérenne sur 30 ans et plus permettent de lutter contre l'obsolescence technologique tous les 5 ans en moyenne : recopie de supports, migration de formats à travers des générations multiples de médias et de technologies, conservation de copies multiples en privilégiant les technologies les plus utilisées, libres, ouvertes, diversification des supports, supports conservés dans des salles des machines différentes. Ces opérations nécessitent une sélection des données et donc de réfléchir aux jeux de données qui seront archivés car uniques et ceux qui seront détruits à la fin du projet car facilement reproductibles. Les données doivent présenter une valeur scientifique reconnue pour la communauté scientifique de laquelle elles proviennent.

Pourquoi conserver des contenus électroniques sur un support garantissant l’intégrité des données ? Pour les rendre accessibles et exploitables dans le temps à titre informatif (ressources pour la recherche) ou probant (valeur de preuve des conclusions d’un article ou d’un chapitre d’ouvrage).

La durée de conservation est réglementée. Plus d'infos sur le Guide pratique de la CNIL.

Le Cines

En tant qu'institution d'enseignement supérieur, Sciences Po travaille avec le Cines : le Centre Informatique National de l’Enseignement Supérieur. Mandaté par le Ministère depuis 2004, il est l'opérateur pour l’archivage des données et documents numériques produits par la communauté Enseignement supérieur et Recherche française. Il propose des solutions d’archivage numérique sur le moyen et long terme, mutualisées, économiques et personnalisables :

PAC : le projet historique, le premier lancé, pour l’archivage à long terme
ISAAC : pour l’archivage intermédiaire de données scientifiques nationales
EUDAT : grille européenne d’archivage

Le saint des saints : le modèle OAIS (Open Archival Information System).
Description du modèle : en bref/en français ; en détails/en français ; en détails/in english.

Coût de la facture d'électricité : 800 000 euros par an !

► Le DSA (Data Seal of Approval), devenu le CoreTrustSeal, récompense les entrepôts engagés dans l'archivage numérique de long terme répondant aux critères de la norme OAIS. Ce certificat est attribué par les Data Archiving and Networked Services (DANS).

Calendrier-type d'un projet d'archivage au Cines

Phase préliminaire : étude de faisabilité globale du projet d’archivage ; prise de contact et échange d’informations :

Règles du service, documentation utile, présentation des infos à préserver : nature, format, volumétrie, accessibilité ou non, confidentialité des données, authenticité
Première estimation des changements à apporter aux jeux de données, étude des coûts et des risques associés à ces changements
Convention-type à partir d’une première discussion sur les aspects légaux et contractuels

Phase de définition : négociation de la procédure d’archivage

Quels objets archiver, description du projet, type de données, formats, volumétrie ; test de validité des formats
Mettre au point les aspects légaux et contractuels
Comment le service versant et les archives vont communiquer
Quel protocole de versement, traitement, rejets

Phase de transfert :

Ouvrir un compte Cines
Valider le workflow de versement : les étapes
Mettre à jour le calendrier

Phase de validation, déploiement dans l’environnement de production

Déploiement dans l’environnement de production
Premier versement dans la PAC
Signer la convention d’archivage
Lancer la production

Plus d'infos :

En un clic, tout est plus clair !

Pour les partisans de l'Alter'Archivisme, le système SPAR (système de préservation et d’archivage réparti de la BnF) propose des tarifs sur 3, 5 ou 8 ans depuis mai 2010.

Pour vous aider à sélectionner vos données, des conseils du Digital Curation Center : supprimer (ou archiver à part avec un niveau de sécurité plus élevé) les données sensibles, supprimer les données redondantes ou qui concernent des sujets très contemporains, sans valeur à long terme.

Plus d'infos :
Digital Curation Centre (DCC): Whyte, A. & Wilson, A. (2010). How to appraise and select research data for curation. DCC How-to Guides. Edinburgh: Digital Curation Centre.

Tarifs CINES

Des données accessibles = TDM : Text and Data Mining

Le TDM : c'est quoi ? C'est une analyse automatisée d'information numérique qui implique l'extraction de connaissances à travers un algorithme d'apprentissage ou de statistiques sur des critères de nouveauté, d'occurrences et de similarité.

Le TDM : pourquoi ? L'augmentation du volume d'écrits scientifiques et de données de la recherche occasionne une massification de l'information. Certains outils numériques en favorisent la consultation, l'exploitation, le croisement, impossibles manuellement, et par là même l'acquisition de nouvelles connaissances, la découverte de nouvelles tendances et la recherche transdisciplinaire.

Le TDM : quel cadre légal ? L'article 38 de la loi pour une République Numérique entend suppléer l'absence de cadre légal clair. Elle introduit une exception au droit d'auteur et du producteur de bases de données, limitée aux textes et données scientifiques (contrairement au Fair Use américain). Ce droit au TDM est présent dès 2014 dans les lignes directrices du programme H2020 de financement de la recherche. Il se traduit par l'existence d'infrastructures françaises (Istex, 21 millions de ressources structurées, enrichies et réparties en grandes disciplines) et européennes (OpenMinTed) de TDM. Certains projets de recherche utilisent des corpus et outils de fouille Istex comme source d'étude, par exemple le projet Terre-Istex, mélangeant système d'information géographique (SIG) et géologie ou Unitex-Castys, en linguistique.

Parmi les logiciels utilisés, le bien-nommé Grobid (Generation of Bibliographic Data) extrait et analyse des contenus comme l'information bibliographique et propose une analyse statistique de termes récurrents.

Quelques éléments de vocabulaire.
Le Data Lake stocke les données sans prétraitement et sans a priori quant à leur nature et à leur usage ultérieur. Il correspond à un ensemble provenant de sources multiples (d'où l'image du lac) et non structurées, si massif qu'il est impossible à traiter ou à analyser par l'esprit humain ou les outils d'information classiques. Pour information, les donnés structurées sont inclues dans une base de données relationnelles, avec tables et colonnes ; les données semi-structurées utilisent des formats comme .csv, .xml ou .json ; les documents, les .pdf, les e-mails sont des données non structurées. Le lac de données peut être le point de départ d’approches collaboratives dématérialisées entre les chercheurs et promouvoir la science ouverte.

Le Data Swamp (en anglais, marécage) correspond à un état des données moins organisé et moins propre que le data lake, souvent pour des données inaccessibles ou de peu de valeur.

Des données accessibles = visualisation

La visualisation de données : c'est quoi ? Cette représentation graphique d'informations et de données, cartes, infographie se veut mise en récit percutante avec un but précis, par exemple :

Aider à la décision ;
Faire ressortir la possible relation entre différentes données et en tirer une information statistique
Faire apparaître ce qui rend les données homogènes. Dans l'idéal, il permet de se concentrer sur les seules données pertinentes.

Graphiques les plus courants : diagrammes (circulaire, en bétons), tables, tableaux de bord, tableaux de flux, infographies, cartes heuristiques : ces formes peuvent servir d'appui à l'analyse de caractéristiques de population de taille différente sur un même indicateur.

Graphiques plus spécifiques : graphiques à aires, polaires, à barre, à puces, à moustache, nuage de bulles, cartogrammes, vues circulaires, carte de distribution de points, diagramme de Gant, table sur lignes, histogramme, matrice, réseau, arborescence radiale, nuage de points, nuage de mots.
Tous combinables !
Des graphes sont utilisés par exemple pour cerner les résultats d'enquêtes d'opinion.

Exemples :

GarganText : outil de visualisation terminologique d'un corpus textuel, il produit des cartes interactives qui évoluent au fur et mesure que vous travaillez dessus. Il permet de construire une carte thématique de mots permettant de nourrir un article de type "état de l'art" en ne passant pas à côté d'une thématique incontournable sur une problématique donnée. Plus le point est gros, plus le terme est central dans le réseau de relations entre termes. L'outil a permis récemment d'établir une cartographie interactive de la recherche sur le coronavirus et de ses liens avec les autres maladies, d'analyser des milliers d'articles, de faire ressortir les thématiques abordées et leur organisation et de dégager les termes les plus représentatifs du corpus, ici "vaccins efficaces".
- Selon ses concepteurs, l'outil pourrait servir habilement une éventuelle cartographie des programmes politiques des candidats à une élection.
- Pour en savoir plus, par ici la conf de MateSHS.
Gephi : ce logiciel libre d'analyse et de visualisation de réseaux a été développé par les étudiants de l'Université de Technologie de Compiègne. Il permet de visualiser les éléments d'un réseau les plus centraux, les plus éloignés, les mieux connectés : réseau social d'un utilisateur de Facebook, réseau de contribution à un projet Wikipédia, réseau de neurones, correspondances à l'intérieur d'une organisation internationale. Sciences Po fait partie du Gephi Consortium (association loi 1901).
Plus d'outils ici.

Conseil : se méfier de la visualisation "tape à l'oeil" qui manque son objectif et qui ne répond pas au besoin. La visualisation peut influer sur l'efficacité et la crédibilité du message.

Aller plus loin : Julien Baudry. Les « non-consumptive research uses » des ressources numériques. 2023.

Et la DSI ?

La page Outils numériques pour la recherche de la DSI vous présente les logiciels recommandés par Sciences Po pour vous accompagner dans vos activités de recherche.

Cliquez sur l’application qui vous intéresse pour découvrir comment l’installer.

Retrouver les outils de la DSI

Et le médialab ?

Dixième centre de recherche de Sciences Po, le médialab a été créé en 2009 pour aider les chercheurs en sciences sociales et humaines à tirer le meilleur profit de la masse de données rendues disponibles par le numérique. Il a trois missions principales fortement intégrées : méthodologie, analyse, théorie.
L'équipe du médialab développe notamment un grand nombre de logiciels qui permettent d’organiser, d’automatiser et de visualiser les recherches sur les données nativement numériques ou numérisées.

Retrouver les outils du médialab