Corpus numérique · Thèse

Les Fictions Littéraires
de Gallica

Un corpus de travail de 11 344 romans, dérivé de la collection BnF, filtré, corrigé et enrichi pour l'analyse computationnelle de la littérature de genre.

11 344
Romans
3 885
Auteurs
1707–1950
Période

Du dépôt Zenodo au corpus de travail

Le point de départ est la collection Fictions Littéraires de Gallica publiée par Pierre-Carl Langlais (Zenodo, 2021), qui rassemble 19 240 romans numérisés par la BnF. Ce corpus brut a été retravaillé en quatre étapes pour produire la base utilisée dans la thèse.

SOURCE
19 240
Fictions de Gallica
Langlais 2021, Zenodo
ÉTAPE 1
14 800
Filtrage qualité
OCR > 95 %, hors œuvres complètes
ÉTAPE 2
12 200
Dédoublonnage
Rééditions et tomes multiples
FINAL
11 344
Corpus enrichi
Métadonnées BnF + Wikidata

Au-delà du simple filtrage, chaque entrée a été enrichie : correction des artefacts d'OCR sur les noms et titres, récupération des dates auteur via croisement BnF / Wikidata, normalisation des identités auctoriales (résolution des pseudonymes et variantes orthographiques), et identification automatique de deux sous-genres majeurs — le roman d'aventures et le roman policier.

Distribution temporelle

Romans par décennie (n = 11 344)

La distribution culmine dans la décennie 1880 (2 060 titres), reflet de l'âge d'or du roman-feuilleton et de la massification éditoriale du dernier tiers du xixe siècle. Le déclin après 1900 tient pour partie aux limites de la numérisation Gallica.

Signatures du corpus

Sur 3 885 auteurs identifiés, une longue traîne caractéristique : Dumas, Montépin, Féval, Paul de Kock dominent en volume, mais l'essentiel de la production se distribue parmi des centaines de signatures peu canoniques.

Deux genres identifiés

Au sein du corpus général, deux ensembles génériques ont été extraits par classification supervisée et correction par graphe de similarité, à partir d'amorces d'entraînement issues de la critique (liste Letourneux pour l'aventure, liste Boltanski–Esquenazi pour le policier).

Téléchargement et citation

L'ensemble des fichiers est distribué sous licence CC-BY 4.0 ; les textes intégraux restent accessibles via les identifiants Gallica (ARK).

Pour citer ce corpus : En cours de publication