" "
Vous êtes plutôt passionné.e?
Dans un entrepôt de diffusion certifié
Stockées sur 2 supports fiables dont 1 à distance pendant le projet
Archivées en partie à l’issue du projet
Le cas particulier de la fouille et de la visualisation de données.
► C'est quoi les données de la recherche ? C'est quoi les principes FAIR ?
En déposant vos données dans un entrepôt, vous assurez leur conservation, leur réutilisation et leur partage grâce à la documentation et aux métadonnées associées.
[Vidéo] Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?, Doranum
Re3Data est un annuaire d'entrepôts de données créé en 2012 par la German Research Foundation (DFG). L’annuaire spécialisé FAIRsharing, permet de cibler très finement votre thématique de recherche. La liste OAD classe les entrepôts par disciplines. Des moteurs de recherche vous permettent de trouver facilement des jeux de données déposés dans des entrepôts ou des données partagées en annexe dans les articles : DataCite, Google DataSet Search... Des organisations (gouvernementales) partagent parfois les données (statistiques) qu'elles collectent dans leur propre portail : Eurostat par exemple, qui permet de filtrer par pays et par thème.
Vous avez développé des bases de données et souhaitez les partager avec l'ensemble des chercheurs de Sciences Po (et/ou au-delà) ? Nous pouvons les signaler ici.
Vous avez le choix entre un accès ouvert à tous, sur demande ou restreint.
Dans le cas d'un accès restreint ou d'un accès sur demande, vous choisissez les personnes avec qui vous partagez vos données (collaborateurs, doctorants, etc.).
Vous êtes chercheur, doctorant, ingénieur d'un centre de recherche de Sciences Po, vous pouvez déposer toutes les données que vous avez produites.
Vous êtes chercheur, doctorant, ingénieur d'un centre de recherche de Sciences Po, ce guide vous accompagne pas à pas pour l'auto-dépôt de vos données.
Ce guide vous accompagne pas à pas dans le téléchargement des données disponibles.
Entrepôts de données généralistes :
Dataverse : ça c’est nous !
Data.sciencespo est un entrepôt institutionnel qui repose sur la solution dataverse de Harvard.
Il est adossé à la politique de l’institution définissant les conditions dans lesquelles doivent être conservées et rendues accessibles les données. Un volet « gestion des données » est inclu dans la charte science ouverte élaborée par la DRIS, la direction scientifique et le centre de données de Sciences Po.
Il se compose de deux collections :
Autodépôt institutionnel des chercheurs de Sciences Po accompagnés par la DRIS et les laboratoires – tous types de données.
Catalogue national données d’enquêtes documentées du CDSP pour chercheurs Sciences Po conventionnés et chercheurs hors Sciences Po.
Zenodo : cet entrepôt multidisciplinaire est financé par la Commission européenne
Le financement de projet est conditionné par le respect de certaines règles de gestion et de partage des données dont la mise à disposition de ses données
Il est possible de choisir une communauté disciplinaire existante ou d’en créer une.
Dryad : cet entrepôt généraliste est très orienté génétique, biologie, écologie d’où son nom de Dryad tiré des Dryades, divinités grecques de la forêt. A garder en tête à l'heure de la montée des projets interdisciplinaires SHS et STM.
Entrepôts spécialisés, disciplinaires : le partage des données est inscrit dans les pratiques de recherche dans certaines disciplines (ex. : astronomie, génétique, environnement, Pangea en géologie).
Entrepôts privés des sections Recherche et Développement de entreprises : ces entrepôts correspondent à des initiatives personnelles de mise à disposition de la communauté scientifique de ses données, par exemple en cas de pandémie.
Dispose d’un modèle économique clair, visible par tous, partagé largement : la solution "dataverse" élaborée par Harvard est utilisée pour datasciencespo
Offre des garanties en matière d’indexation et de signalement (qui permettent de trouver le jeu de données que l’on souhaite) et de conservation des contenus.
Certaines revues exigent que soient déposées dans un entrepôt :
les données ayant permis la rédaction de l’article ;
les données sur lesquelles reposent les conclusions d’un article.
Les solutions de stockage pérenne sur 30 ans et plus permettent de lutter contre l'obsolescence technologique tous les 5 ans en moyenne : recopie de supports, migration de formats à travers des générations multiples de médias et de technologies, conservation de copies multiples en privilégiant les technologies les plus utilisées, libres, ouvertes, diversification des supports, supports conservés dans des salles des machines différentes. Ces opérations nécessitent une sélection des données et donc de réfléchir aux jeux de données qui seront archivés car uniques et ceux qui seront détruits à la fin du projet car facilement reproductibles. Les données doivent présenter une valeur scientifique reconnue pour la communauté scientifique de laquelle elles proviennent.
Pourquoi conserver des contenus électroniques sur un support garantissant l’intégrité des données ? Pour les rendre accessibles et exploitables dans le temps à titre informatif (ressources pour la recherche) ou probant (valeur de preuve des conclusions d’un article ou d’un chapitre d’ouvrage).
La durée de conservation est réglementée. Plus d'infos sur le Guide pratique de la CNIL.
En tant qu'institution d'enseignement supérieur, Sciences Po travaille avec le Cines : le Centre Informatique National de l’Enseignement Supérieur. Mandaté par le Ministère depuis 2004, il est l'opérateur pour l’archivage des données et documents numériques produits par la communauté Enseignement supérieur et Recherche française. Il propose des solutions d’archivage numérique sur le moyen et long terme, mutualisées, économiques et personnalisables :
PAC : le projet historique, le premier lancé, pour l’archivage à long terme
ISAAC : pour l’archivage intermédiaire de données scientifiques nationales
EUDAT : grille européenne d’archivage
Le saint des saints : le modèle OAIS (Open Archival Information System).
Description du modèle : en bref/en français ; en détails/en français ; en détails/in english.
Coût de la facture d'électricité : 800 000 euros par an !
► Le DSA (Data Seal of Approval), devenu le CoreTrustSeal, récompense les entrepôts engagés dans l'archivage numérique de long terme répondant aux critères de la norme OAIS. Ce certificat est attribué par les Data Archiving and Networked Services (DANS).
Phase préliminaire : étude de faisabilité globale du projet d’archivage ; prise de contact et échange d’informations :
Règles du service, documentation utile, présentation des infos à préserver : nature, format, volumétrie, accessibilité ou non, confidentialité des données, authenticité
Première estimation des changements à apporter aux jeux de données, étude des coûts et des risques associés à ces changements
Convention-type à partir d’une première discussion sur les aspects légaux et contractuels
Phase de définition : négociation de la procédure d’archivage
Quels objets archiver, description du projet, type de données, formats, volumétrie ; test de validité des formats
Mettre au point les aspects légaux et contractuels
Comment le service versant et les archives vont communiquer
Quel protocole de versement, traitement, rejets
Phase de transfert :
Ouvrir un compte Cines
Valider le workflow de versement : les étapes
Mettre à jour le calendrier
Phase de validation, déploiement dans l’environnement de production
Déploiement dans l’environnement de production
Premier versement dans la PAC
Signer la convention d’archivage
Lancer la production
Plus d'infos :
En un clic, tout est plus clair !
Pour les partisans de l'Alter'Archivisme, le système SPAR (système de préservation et d’archivage réparti de la BnF) propose des tarifs sur 3, 5 ou 8 ans depuis mai 2010.
Pour vous aider à sélectionner vos données, des conseils du Digital Curation Center : supprimer (ou archiver à part avec un niveau de sécurité plus élevé) les données sensibles, supprimer les données redondantes ou qui concernent des sujets très contemporains, sans valeur à long terme.
Plus d'infos :
Digital Curation Centre (DCC): Whyte, A. & Wilson, A. (2010). How to appraise and select research data for curation. DCC How-to Guides. Edinburgh: Digital Curation Centre.
Un chiffre : 90% des données de la recherche sont stockées sur les disques durs locaux et potentiellement non réutilisables par d'autres...
Un graphique :
Le stockage consiste à entreposer des contenus électroniques le temps du projet de recherche, donc à court ou moyen terme. Il sert de base au traitement ultérieur des contenus.
Durée de conservation : non réglementée.
Pertes de clés USB, suite à un déménagement, un incendie, un cambriolage, un vol de données, etc.
Attention à choisir un bon anti-virus, aux pannes de PC, qui facilitent le téléchargement de programmes infectés. Une solution : stocker dans des PC non connectés au réseau comme au CASD – centre d’accès sécurisé aux données : identifications sur empreintes digitales et biométriques.
Le cas Dropbox :
Attention à la procédure de sauvegarde des données : c'est un outil commercial. Quid si la société productrice fait faillite ?
Ne pas y mettre de données personnelles ou sensibles : il y a un risque de récupération des données par les propriétaires de la solution de stockage.
Conseils :
Solution de stockage | Avantages | Risques / Précautions | Recommandation |
---|---|---|---|
Hébergement local (ordinateur fixe, ordinateur portable)
|
Facile à gérer et empêche tout accès non autorisé |
Ne suffit pas si les données sont stockées sur un seul appareil (=> sauvegarde nécessaire) Les ordinateurs portables peuvent être volés. Le cryptage du disque dur est obligatoire |
Sauvegarder l'ordinateur |
Hard-drive externe
|
Utile pour échanger des données sans les transmettre sur Internet | Facilement perdu, volé et endommagé | Utiliser de préférence pour un stockage temporaire |
Disque partagé en réseau sur le serveur du centre de recherche / Stockage en réseau attaché
|
Sauvegarde automatique Hébergement centralisé Haute capacité de stockage |
Peut ne pas être accessible par des personnes externes à la communauté d'utilisateurs. | Hébergement de long terme |
Google Drive - stockage sur le Cloud fourni par Sciences Po
|
Accessible par des personnes externes (si elles ont une adresse e-mail Google) Sauvegarde automatique |
Hébergement dans l'Union européenne non garanti -> conflit avec le RGPD Ne convient pas à tous les projets de recherche Contrôler les accès lors du partage |
Crypter les données personnelles avant de les télécharger dans le cloud (conformité à RGPD) |
Autre stockage sur le cloud géré par une université ou le CNRS | Sécurisé en cas de stockage dans l'Union européenne | La taille peut être limitée | Peut être sûr et approprié |
Stockage dans le cloud sans aucun accord (ex. : Dropbox) |
Usage répandu Ne dépend pas d'un fournisseur d'email |
Les services gratuits fournis par des fournisseurs commerciaux peuvent revendiquer le droit d'utiliser le contenu que vous gérez et de le partager pour leurs propres besoins. |
Risqué Non recommandé pour les données sensibles |
► Un tableau élaboré par Doranum vous propose une hiérarchisation des possibilités de stockage sous la forme d'une notation à base d'étoiles.
De plus en plus d'établissements mettent à disposition des services de partage et stockage collaboratifs type SaaS (Software as a service), de cloud computing ou de virtualisation du poste de travail. Exemples : Renater, open science framework, cumulus.
Pour envoyer des fichiers, la solution FileSender proposé par Renater vous permet :
Google Drive, de quoi parle-t-on ? Votre compte Google Sciences Po n'est pas votre compte Google privé.
Dans le cadre du contrat d'entreprise Google (Google Apps for Education) vous bénéficiez de conditions d'utilisations particulières.
Pour un stockage sécurisé de vos données dans le Cloud, privilégiez Google DRIVE Sciences Po à toute autre solution privée (Google compte personnel, Drop Box, Orange Box, Facebook).
En savoir plus [accès réservé].
Vous participez à un programme de recherche ? Huma-Num propose une offre de service qui inclue le stockage de vos données.
En savoir plus.
Membre d'une unité de recherche ? Utilisez les services My CoRe, un espace de "stockage et sauvegarde individuels, nomadisme et partage sécurisé". Stockez jusqu'à 100Mo, synchronisez vos ordinateurs, partagez vos fichiers. Plusieurs types de comptes sont proposés : individuels, services (pour les équipes, les projets), invités. Un invité (non référencé dans Janus) ne peut déposer que des fichiers < 10Mo sur le Cloud du CNRS. Cette taille de fichier est très faible pour des fichiers audios. Si MyCore ne suffit pas, le CNRS autorise l'utilisation du logiciel Cryptomator qui permet la création d'un coffre sur le cloud (donc sur Google Drive). Le logiciel est gratuit et peut être installé sur Windows et Mac.
Astuce concernant les fichiers audio : créer un dossier partagé sous Google Drive, accessible à l'ensemble des personnes du projet. Ce dossier pourra être crypté à la création et accessible juste par mot de passe en utilisant Cryptomator.
Tout savoir sur ODS.
► D'autres outils de sauvegarde automatique : SyncBack, Cobian, Macrium Reflect, Open Science Framework.
Le TDM : c'est quoi ? C'est une analyse automatisée d'information numérique qui implique l'extraction de connaissances à travers un algorithme d'apprentissage ou de statistiques sur des critères de nouveauté, d'occurrences et de similarité.
Le TDM : pourquoi ? L'augmentation du volume d'écrits scientifiques et de données de la recherche occasionne une massification de l'information. Certains outils numériques en favorisent la consultation, l'exploitation, le croisement, impossibles manuellement, et par là même l'acquisition de nouvelles connaissances, la découverte de nouvelles tendances et la recherche transdisciplinaire.
Le TDM : quel cadre légal ? L'article 38 de la loi pour une République Numérique entend suppléer l'absence de cadre légal clair. Elle introduit une exception au droit d'auteur et du producteur de bases de données, limitée aux textes et données scientifiques (contrairement au Fair Use américain). Ce droit au TDM est présent dès 2014 dans les lignes directrices du programme H2020 de financement de la recherche. Il se traduit par l'existence d'infrastructures françaises (Istex, 21 millions de ressources structurées, enrichies et réparties en grandes disciplines) et européennes (OpenMinTed) de TDM. Certains projets de recherche utilisent des corpus et outils de fouille Istex comme source d'étude, par exemple le projet Terre-Istex, mélangeant système d'information géographique (SIG) et géologie ou Unitex-Castys, en linguistique.
Parmi les logiciels utilisés, le bien-nommé Grobid (Generation of Bibliographic Data) extrait et analyse des contenus comme l'information bibliographique et propose une analyse statistique de termes récurrents.
Quelques éléments de vocabulaire.
Le Data Lake stocke les données sans prétraitement et sans a priori quant à leur nature et à leur usage ultérieur. Il correspond à un ensemble provenant de sources multiples (d'où l'image du lac) et non structurées, si massif qu'il est impossible à traiter ou à analyser par l'esprit humain ou les outils d'information classiques. Pour information, les donnés structurées sont inclues dans une base de données relationnelles, avec tables et colonnes ; les données semi-structurées utilisent des formats comme .csv, .xml ou .json ; les documents, les .pdf, les e-mails sont des données non structurées. Le lac de données peut être le point de départ d’approches collaboratives dématérialisées entre les chercheurs et promouvoir la science ouverte.
Le Data Swamp (en anglais, marécage) correspond à un état des données moins organisé et moins propre que le data lake, souvent pour des données inaccessibles ou de peu de valeur.
La visualisation de données : c'est quoi ? Cette représentation graphique d'informations et de données, cartes, infographie se veut mise en récit percutante avec un but précis, par exemple :
Graphiques les plus courants : diagrammes (circulaire, en bétons), tables, tableaux de bord, tableaux de flux, infographies, cartes heuristiques : ces formes peuvent servir d'appui à l'analyse de caractéristiques de population de taille différente sur un même indicateur.
Graphiques plus spécifiques : graphiques à aires, polaires, à barre, à puces, à moustache, nuage de bulles, cartogrammes, vues circulaires, carte de distribution de points, diagramme de Gant, table sur lignes, histogramme, matrice, réseau, arborescence radiale, nuage de points, nuage de mots.
Tous combinables !
Des graphes sont utilisés par exemple pour cerner les résultats d'enquêtes d'opinion.
Exemples :
Conseil : se méfier de la visualisation "tape à l'oeil" qui manque son objectif et qui ne répond pas au besoin. La visualisation peut influer sur l'efficacité et la crédibilité du message.
Aller plus loin : Julien Baudry. Les « non-consumptive research uses » des ressources numériques. 2023.
Dixième centre de recherche de Sciences Po, le médialab a été créé en 2009 pour aider les chercheurs en sciences sociales et humaines à tirer le meilleur profit de la masse de données rendues disponibles par le numérique. Il a trois missions principales fortement intégrées : méthodologie, analyse, théorie.
L'équipe du médialab développe notamment un grand nombre de logiciels qui permettent d’organiser, d’automatiser et de visualiser les recherches sur les données nativement numériques ou numérisées.