Traitement des images
La première étape du projet est la collecte et le traitement des millions d’images des listes nominatives du recensement, conservées aux archives départementales. Un portail permettra aux archives départementales et à leurs éditeurs de déposer les images et les métadonnées associées. Une fois les images obtenues, des modèles automatisées serviront à extraire les informations qu’elles contiennent : détection des lignes, reconnaissance du texte, tests de cohérence, etc. L’ensemble de ce processus contribuera à terme à produire une base de données « brute » (RTD) reproduisant au plus près les éléments stockés sur les listes : chaque image sera associée au texte qu’elle contient, avec une mesure de qualité.