Un corpus de travail de 11 344 romans, dérivé de la collection BnF, filtré, corrigé et enrichi pour l'analyse computationnelle de la littérature de genre.
Le point de départ est la collection Fictions Littéraires de Gallica publiée par Pierre-Carl Langlais (Zenodo, 2021), qui rassemble 19 240 romans numérisés par la BnF. Ce corpus brut a été retravaillé en quatre étapes pour produire la base utilisée dans la thèse.
Au-delà du simple filtrage, chaque entrée a été enrichie : correction des artefacts d'OCR sur les noms et titres, récupération des dates auteur via croisement BnF / Wikidata, normalisation des identités auctoriales (résolution des pseudonymes et variantes orthographiques), et identification automatique de deux sous-genres majeurs — le roman d'aventures et le roman policier.
La distribution culmine dans la décennie 1880 (2 060 titres), reflet de l'âge d'or du roman-feuilleton et de la massification éditoriale du dernier tiers du xixe siècle. Le déclin après 1900 tient pour partie aux limites de la numérisation Gallica.
Sur 3 885 auteurs identifiés, une longue traîne caractéristique : Dumas, Montépin, Féval, Paul de Kock dominent en volume, mais l'essentiel de la production se distribue parmi des centaines de signatures peu canoniques.
Au sein du corpus général, deux ensembles génériques ont été extraits par classification supervisée et correction par graphe de similarité, à partir d'amorces d'entraînement issues de la critique (liste Letourneux pour l'aventure, liste Boltanski–Esquenazi pour le policier).
L'ensemble des fichiers est distribué sous licence CC-BY 4.0 ; les textes intégraux restent accessibles via les identifiants Gallica (ARK).
En cours de publication