Le Blog
Gallica
La Bibliothèque numérique
de la BnF et de ses partenaires

GallicaPix, un nouvel outil d’exploration iconographique

0
21 juin 2021

L'équipe Gallica vous invite à découvrir GallicaPix, un outil de recherche iconographique enrichi de nouveaux corpus thématiques et fonctionnalités grâce aux techniques de l'intelligence artificielle.

Un exemple de sélection de couvertures du magazine Vogue

L’offre documentaire de Gallica est massive et c’est tant mieux. Y compris en matière de contenus iconographiques. Cependant, certaines illustrations n’en demeurent pas moins difficilement accessibles, car elles ne sont pas identifiées en tant que telles. GallicaPix est un prototype de recherche iconographique qui se propose justement de pallier ces difficultés en mettant en scène des modalités d’exploration inédites de nos collections numérisées. Dans ce billet, nous vous présentons les corpus disponibles sur GallicaPix et ses fonctionnalités d’exploration qui nous permettent de redécouvrir des collections sous un autre jour.

GallicaPix, comment ça marche ?

Développé par Jean-Philippe Moreux, expert scientifique de Gallica, et Guillaume Chiron, chercheur au laboratoire Informatique, Image et Interaction (L3i) à l'Université de La Rochelle, GallicaPix tire sa force de l’utilisation de techniques de l'intelligence artificielle. L’apprentissage profond permet par exemple, pour pallier au manque de métadonnées, l’identification des types d’illustrations pour pouvoir distinguer leur nature ou leur fonction (affiche, carte, schéma, illustration de presse, etc.). L’autre point fort de l’outil réside dans deux types de reconnaissance, la reconnaissance optique de caractères et la reconnaissance optique de la structuration des documents. Autrement dit, les documents sont annotés et sont donc enrichis d’informations supplémentaires sur leurs compositions visuelles et textuelles en plus de leurs métadonnées classiques. GallicaPix peut donc mobiliser dans vos recherches les éléments textuels ou visuels des illustrations. Ainsi, les éléments textuels d’une illustration, comme une affiche, peuvent être retrouvés directement dans vos requêtes.

Un exemple de recherche qui a pour terme "théâtre" et pour fonction la modalité “affiche” pour retrouver les affiches de théâtre du corpus 14-18

Quant à la recherche d’éléments visuels, plusieurs possibilités s’offrent à vous. La première est la recherche à partir de concepts contenus dans l’image. Les concepts sont les éléments (personnes ou objets) présents dans les illustrations. Selon les modalités techniques de reconnaissance, les concepts sont parfois indiqués par des cadres.

Un exemple de recherche qui a pour critère le concept “poisson” dans le corpus de zoologie.

Un exemple de recherche qui a pour critère le concept “soldat” dans le corpus 14-18.

Une autre modalité de recherche concerne le mode colorimétrique (noir et blanc, monochrome ou couleur) ou les couleurs dominantes de l’illustration. Les couleurs dominantes d’une illustration sont visibles en-dessous de chaque illustration en couleurs.

Un exemple de recherche dans le corpus Vogue avec comme critère la classe « pourpre_tyrien ».

Cinq corpus thématiques

Les collections présentes sur GallicaPix sont diverses et en évolution permanente. Il est pour l'instant possible de naviguer dans cinq corpus rassemblant des documents issus des fonds de la BnF et d'institutions partenaires.

Le premier corpus a pour thématique principale la Première Guerre mondiale. Il est constitué d’environ 220 000 illustrations issues de différentes sources (Gallica et la Wellcome Collection), techniques (dessins, estampes, photographies, etc.) et fonctions (affiches, cartes et plans, cartes postales, etc.). On y retrouve de nombreux titres de presse (Le Gaulois, Le Journal des débats politiques et littéraires, Le Petit Parisien, L'Humanité, Excelsior, etc.) mais également des monographies (portfolios, journaux de régiments).

Étant donné la grande diversité des illustrations dans le corpus, celui-ci bénéficie de la possibilité de trier les résultats en fonction de 17 thématiques prédéfinies (santé, politique, vie quotidienne et loisirs, etc.)

Un exemple de recherche dans le corpus 14-18 avec comme critère la technique "photographie" et comme thème “vie quotidienne et loisirs”

Le deuxième corpus couvre la même période que le précédent (1910-1920) mais se concentre sur les publicités. Il ne compte pas moins de 65 688 images.

Un exemple de recherche dans le corpus Publicités 14-18 avec comme critère le thème “Conflits guerre et paix”. Les illustrations sont les vignettes issues du journal L’Image de la guerre attribuées aux écoles qui souscrivaient à l’emprunt national de 1917.

Le troisième corpus est lui aussi le fruit d’une collaboration de Gallica, cette fois avec les Archives nationales du Royaume-Uni (The National Archives). Dans le cas présent, il s’agit de ne pas perdre le fil dans cette sélection de 3 753 illustrations d’échantillons de papiers-peints et textiles du dépôt légal de ces deux pays.

Un exemple de recherche dans le corpus Papiers peints et textiles avec comme critère le concept visuel "symétrie".

Le quatrième corpus présente les illustrations du célèbre magazine de mode Vogue (édition française) de 1920 à 1940.

Un exemple de recherche dans le corpus Vogue avec comme critères la fonction “couverture” et la présence de couleurs.

Enfin, le cinquième corpus traite de zoologie : vous aurez le plaisir d’y observer des illustrations de poissons, mammifères, insectes, plantes, coquillages ou encore reptiles. Les illustrations, certaines très anciennes, sont plus ou moins fidèles aux spécimens représentés, mais soyez sûrs d’y trouver une certaine patte artistique.

Un exemple de recherche dans le corpus Zoologie avec comme critère la classe "mammifère"

Maintenant que vous avez découvert le potentiel de GallicaPix, nous vous invitons à relever nos défis Twitter pour le prendre en main et à consulter ici un tutoriel détaillé pour profiter de ses fonctionnalités avancées. Et pour accéder directement à GallicaPix, c'est par ici.

Ajouter un commentaire

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.