Le Blog
Gallica
La Bibliothèque numérique
de la BnF et de ses partenaires

Apprenez à lire les URL de Gallica

1
24 mars 2016

Les adresses web utilisées pour les documents disponibles dans Gallica ne sont pas, contrairement aux URL de certains sites web, immédiatement lisibles et compréhensibles par un internaute non averti. Voici quelques pistes pour déchiffrer (et jouer avec) les URL de Gallica...

Préambule : si vous n'avez pas la moindre idée de ce que signifie l'acronyme "URL", commencez par lire cet article sur Framablog (et si vous savez ce qu'est une URL, n'hésitez pas aller le lire quand même : la BD qui l'illustre, signée Gee et initialement publiée sur le blog Grise Bouille, vaut le détour).

Le système ARK

L'adresse web (ou URL) de ce billet de blog, qui contient sa date de publication et les mots de son titre, est une URL signifiante : elle est facile à lire et à comprendre, et donne des informations transparentes sur le contenu de ce billet (date de publication, titre du billet, etc.).
Les documents consultables dans Gallica, en revanche, ne disposent pas d'une URL signifiante, mais sont identifiés selon un système normalisé, ARK (pour Archival Resource Key) qui permet de garantir la pérennité des URL. On parle alors d'URL pérennes, ou de permaliens. Nous ne détaillerons pas ici le système ARK (pour en savoir plus, rendez-vous sur le site de la BnF) mais évoquerons plus précisément les suffixes de ces permaliens.

Les suffixes des permaliens, ou qualificatifs ark

Pour un document donné, différents qualificatifs - ou suffixes - ark permettent de déterminer :

la pagination
Dans l'URL http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13, la partie /f13 indique que vous consultez la vue 13 du document.
Attention, les numéros des vues ne correspondent pas nécessairement aux numéros des pages des documents imprimés (en l'occurrence, dans ce document, la vue 13 correspond à la page 5 du document - la vue 1 correspondant au plat du livre, la vue 2 au contreplat, etc.)

le mode d'affichage du document
Dans l'URL http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.image, la partie .image indique que vous consultez le mode image (soit la photographie - ou scan - de la page).
Pour cette même page, d'autres modes de consultation sont possibles :
http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.texte => affichage du mode texte brut (quand celui-ci est disponible)
http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.texteImage => affichage simultané du mode texte et du mode image (quand le mode texte est disponible)
http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.vertical => affichage en mode défilement vertical
http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.double => affichage en mode double page (dans ce cas, la vue n° 13 se trouve située à gauche dans l'affichage double page)
http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.planchecontact => affichage en mode "mosaïque" (vue d'ensemble)
http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.zoom => affichage en mode zoom

le format de téléchargement du document
http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13.jpeg => affichage ou téléchargement de la page consultée au format JPEG (NB : le .jpeg est équivalent au .highres ; le .thumbnail permet d'afficher ou de télécharger la vignette de la même image)
http://gallica.bnf.fr/ark:/12148/bpt6k96249962.pdf => affichage ou téléchargement du document au format PDF (NB : en fonction du nombre de pages du document, l'affichage des URL en .pdf peut prendre plus ou moins de temps).
Il est également possible d'obtenir via l'URL une sélection de pages consécutives au format PDF en utilisant la combinaison /fnumérodevuennombredepagesdemandées.pdf. Par exemple, pour télécharger 5 pages au format PDF à partir de la vue 13 : http://gallica.bnf.fr/ark:/12148/bpt6k96249962/f13n5.pdf
http://gallica.bnf.fr/ark:/12148/bpt6k134019r.texteBrut => affichage ou téléchargement du mode texte du document consulté au format TXT
http://gallica.bnf.fr/ark:/12148/bpt6k134019r.epub => affichage ou téléchargement du document au format EPUB (quand ce format est disponible)

Le cas particulier de la presse et des revues

Les titres de périodiques (titres de presse et titres de revues) sont tous dotés d'une URL se terminant par /date.

Prenons l'exemple du quotidien L'Écho de Paris :
http://gallica.bnf.fr/ark:/12148/cb34429768r/date donne accès à l'ensemble des numéros du titre, sous la forme d'un calendrier par années
http://gallica.bnf.fr/ark:/12148/cb34429768r/date1884 donne accès à l'ensemble des numéros du titre publiés en 1884, sous la forme d'un calendrier par mois
http://gallica.bnf.fr/ark:/12148/cb34429768r/date1884.liste donne accès à l'ensemble des numéros du titre publiés en 1884, sous la forme d'une liste

Chaque numéro appartenant au titre est doté d'une URL propre, distincte de celle du titre (par exemple, le numéro du 1er janvier 1916 se trouve ici : http://gallica.bnf.fr/ark:/12148/bpt6k8084002)

Et cette URL bizarre, là, ça correspond à quoi ?

Lorsqu'une URL ressemble à ceci : 
http://gallica.bnf.fr/ark:/12148/bpt6k5675144f.r=%22longtemps%20je%20me%20suis%20couch%C3%A9%22
La séquence qui suit "r=" correspond à la requête qui a été initialement formulée dans le champ de recherche de Gallica (ou dans le module de recherche du visualiseur de document, si ce document est doté d'un mode texte).
Dans cet exemple, la requête initiale est "longtemps je me suis couché" (%22 correspond au guillemet et %20 correspond aux espaces laissés entre les mots). La phrase "Longtemps je me suis couché", présente à la page 9 du document, est alors surlignée en jaune :

arklongtemps.jpg

Si, dans cette même URL, vous supprimez tout ce apparaît à partir de .r=, puis rafraîchissez la page, le surlignement jaune disparaît (http://gallica.bnf.fr/ark:/12148/bpt6k5675144f/f12.image)

Lorsqu'une URL ressemble à ceci :
http://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&version=1.2&query=%28gallica%20adj%20%22longtemps%20je%20me%20suis%20couch%C3%A9%22%29
Ici, il s'agit non plus d'un document unique, mais d'une liste de résultats répondant à une requête (en l'occurrence, à la recherche simple "longtemps je me suis couché" dans l'ensemble des fonds disponibles dans Gallica).
Les URL de recherche de Gallica sont dotées d'une syntaxe spécifique, le protocole SRU (pour Search/Retrieve via URL), sur lequel nous reviendrons dans un prochain billet de blog. Pour en savoir plus sur ce protocole, rendez-vous sur le site de la BnF.

Lorsqu'une URL ressemble à ceci :
http://gallica.bnf.fr/iiif/ark:/12148/btv1b6000786m/f188/702.2403891334966,3018.729722915345,688.3704277161144,828.1956708459497/689,829/0/native.jpg
Ici, il s'agit de tout ou partie d'une image disponible dans Gallica, obtenue grâce au protocole IIIF (pour International Image Interoperability Framework), sur lequel nous reviendrons dans un prochain billet de blog. Pour en savoir plus sur ce protocole, rendez-vous sur le site de IIIF (en anglais) ou sur le site de Biblissima (en français)

 

 

Commentaires

Soumis par Collin le 09/03/2017

Bonjour,

Excellente explication, claire, précise et très intéressante. Merci !

Pourriez-vous faire (ou refaire ?) un travail identique sur les opérateurs logiques ? Votre moteur est en effet, quelquefois, peu pertinent...

Belle journée et encore merci

JFC

Ajouter un commentaire

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.