1 428 romans identifiés dans le corpus Gallica par classification supervisée et correction par graphe de similarité.
1 428
Romans
1860–1910
Période d'essor
0.79
Homophilie
Méthode
Identification du genre
Amorce d'entraînement. 101 romans cités par Matthieu Letourneux dans Le Roman d'aventures, 1870–1930 (PULIM, 2010), augmentés de 101 négatifs aléatoires.
Classifieurs. Deux SVM linéaires sur représentations textuelles complémentaires :
le Letourneux, entraîné sur l'ensemble des textes des 101 amorces (BoW, 5 000 MFW), et le Chapitres, entraîné sur des séquences de chapitres pour capturer la dimension structurelle du récit. Balanced accuracy : 89 %.
Correction par graphe. Construction d'un graphe k-NN sur des embeddings de paragraphes ; retrait de 113 faux positifs isolés et ajout de 129 faux négatifs centraux. Homophilie finale : 0.79.
Liste complète
Parcourir le corpus
Le score affiché est la moyenne des deux probabilités SVM (Letourneux + Chapitres). Survolez un score pour voir le détail.