Fictions Littéraires de Gallica

Constitution du corpus

Du dépôt Zenodo au corpus de travail

Le point de départ est la collection Fictions Littéraires de Gallica publiée par Pierre-Carl Langlais (Zenodo, 2021), qui rassemble 19 240 romans numérisés par la BnF. Ce corpus brut a été retravaillé en quatre étapes pour produire la base utilisée dans la thèse.

SOURCE

19 240

Fictions de Gallica

Langlais 2021, Zenodo

→

ÉTAPE 1

14 800

Filtrage qualité

OCR > 95 %, hors œuvres complètes

→

ÉTAPE 2

12 200

Dédoublonnage

Rééditions et tomes multiples

→

FINAL

11 344

Corpus enrichi

Métadonnées BnF + Wikidata

Au-delà du simple filtrage, chaque entrée a été enrichie : correction des artefacts d'OCR sur les noms et titres, récupération des dates auteur via croisement BnF / Wikidata, normalisation des identités auctoriales (résolution des pseudonymes et variantes orthographiques), et identification automatique de deux sous-genres majeurs — le roman d'aventures et le roman policier.

Répartition

Distribution temporelle

Romans par décennie (n = 11 344)

La distribution culmine dans la décennie 1880 (2 060 titres), reflet de l'âge d'or du roman-feuilleton et de la massification éditoriale du dernier tiers du xix^e siècle. Le déclin après 1900 tient pour partie aux limites de la numérisation Gallica.

Auteurs

Signatures du corpus

Sur 3 885 auteurs identifiés, une longue traîne caractéristique : Dumas, Montépin, Féval, Paul de Kock dominent en volume, mais l'essentiel de la production se distribue parmi des centaines de signatures peu canoniques.

Sous-corpus génériques

Deux genres identifiés

Au sein du corpus général, deux ensembles génériques ont été extraits par classification supervisée et correction par graphe de similarité, à partir d'amorces d'entraînement issues de la critique (liste Letourneux pour l'aventure, liste Boltanski–Esquenazi pour le policier).

Sous-corpus 1