Outil d'exploration des thèses
Il s'agit de produire un outil permettant l'extraction, l'analyse et la visualisation d'un corpus de données bibliographique de thèses sur la mobilité et la transformation écologique de l'espace urbain. Les données des thèses sont diffusées sur le moteur de recherche spécialisé theses.fr et il est possible de les récupérer automatiquement à partir de programmes d'extraction automatisée (utilisation de l'API ou scraping). 5 phases sont proposées
- Développement d'une méthodologie de recherche. L'extraction reposera sur une série de requêtes sur l'API de theses.fr et potentiellement d'autres moteurs spécialisés complémentaires (https://isidore.science/) pour identifier les thèses en lien avec les thématiques visées. Outre les requêtes textuelles libres, il existe des catégorisations préexistantes par discipline ou par mots clés qui seront potentiellement réexploitables. La FabMob a déjà créé un thésaurus qui servira de base à l'identification des mots-clés pour effectuer l'extraction. Une stratégie initiale de recherche large englobant potentiellement des faux positifs sera privilégiée.
- Extraction des données : L'extraction sera effectuée en deux étapes, en accord avec la structure des sites visées. Une première extraction permettra de récupérer des résultats de recherche élémentaire (titre, discipline, docteur, directeur de thèse) sur un grand nombre de thèses2. Une deuxième extraction complémentaire donnera accès aux informations détaillées incluant notamment le résumé et les mots clés. Les deux extractions seront automatisées avec des scripts en Python.
- Identification des métadonnées : les métadonnées diffusées par theses.fr sont exprimées en langage XML. Elles seront transformées en données tabulaires utilisables dans XML avec un script en R ou Python.
- Analyse du corpus. Plusieurs méthodes de text mining seront mobilisées pour identifier automatiquement des thématiques mentionnées dans le thésaurus : requêtes textuelles brutes et analyse des associations sémantiques par tf-idf et vecteurs de mots. Une analyse préalable sera d'abord effectuée sur les résultats de la première extraction, à partir des titres seuls afin de repérer des thèses candidates. L'analyse détaillée portera sur l'ensemble des données disponibles (en particulier les résumés).
- Visualisation du corpus. Le corpus de thèses sera rendu accessible via une petite application de visualisation et de navigation des données. L'application comportera un moteur de recherche ainsi qu'une série de graphes explorables montrant la répartition des thèses par thématiques réidentifiées.
Plusieurs livrables :
- Les métadonnées des thèses au formats csv ou excel.
- Des visualisations des thèses permettant une navigation par sujets et catégories.
- Les scripts de récupération des corpus, afin d'actualiser le corpus
Organisations utilisatrices ou intéressées pour utiliser la ressource : ADEME, FabMob
Contributeur(s) :
Tags : thèse, thesaurus, sémantique
Catégories : Logiciel, Données, Connaissance
Thème : Données ouvertes, Logiciel Libre
Référent :
Défi auquel répond la ressource : Faire progresser la FabMob
Personnes clés à solliciter :
Autre commun proche : Wiki de la Fabrique des Mobilités, Thesaurus de la Mobilité
Richesse recherchée :
Compétences recherchées :
Communauté d'intérêt : Communauté des Ecoles et Etudiants
Type de licence : GNU Affero General Public License
Conditions Générales d’Utilisation (CGU) :
Niveau de développement : POC et 1er client
Lien vers l’outil de gestion des actions :
Lien vers l’outil de partage de fichiers :
Besoins :
Prochaines étapes :
Documentation des expérimentations :
Autres informations
Liste des acteurs qui utilisent ou souhaitent utiliser ce commun :
Liste des CR d’atelier en lien avec ce commun :