Méthodes

La quantité considérable de listes (environ 15 millions d’images de 1836 à 1936, correspondant à 700 millions d’enregistrements individuels) et leur dispersion dans l’espace (elles sont conservées dans près d’une centaine d’archives départementales) ont limité leur utilisation jusqu’à présent. C’est ce verrou que le projet Socface entend lever en prenant appui sur les avancées les plus récentes des technologies de machine learning.

Tirant avantage de la régularité de la source au cours du temps, nous allons élaborer des modèles de traitement automatique des images qui vont permettre successivement la détection des lignes et colonnes dans l’image source, la reconnaissance du texte et l’identification d’entités au sein du texte (le nom, l’âge, le hameau, etc.). Durant l’ensemble de la chaîne de traitement des tests de cohérence et de validation des résultats obtenus seront mis en œuvre en s’appuyant sur les connaissances de la source des archivistes, historiens et démographes impliqués dans le projet. Symétriquement, les informaticiens ne sont pas de simples producteurs de données pour les chercheurs en sciences sociales : ils leur expliquent le fonctionnement de la reconnaissance de texte et du traitement des documents, afin que les chercheurs en sciences sociales puissent coder les informations extraites des documents et les utiliser pour effectuer des recherches en parfaite connaissance de leurs caractéristiques et de leurs limites.

Ainsi, Socface est véritablement une coproduction d’une base de données à une échelle unique, contribuant à produire une recherche de pointe à la fois en informatique et en sciences sociales.