Consulter les documents
Aide à la consultation
Pictogrammes utilisés
Navigation
Page précédente
Page suivante
Première page
Dernière page
Décaler d'une page (en mode double page)
Modes d'affichage et vocal
Simple page
Double page
Défilement vertical
Mosaïque
Visualiser en 3D
Enregistrement sonore
Accéder à l'enregistrement complet
Zoom
Accès au zoom
Réduire
Agrandir
Taille initiale
Plein écran
Rotation horaire 90°
Rotation antihoraire 90°
Sélection
Sortie du mode zoom
Autres fonctionnalités
Recherche dans le document
Téléchargement et impression
Marque-page
Partage et envoi par courriel
Acheter une reproduction
Signalement d'anomalie
Aide
Raccourcis clavier
Page précédente
Page suivante
Première page
Dernière page
Page précédente, dans un document zoomé
Page suivante, dans un document zoomé
Première page, dans un document zoomé
Dernière page, dans un document zoomé
Navigation dans un document zoomé
Navigation dans le mode de défilement vertical
Mode texte et OCR
La technique d’OCR (optical character recognition) permet de situer et de reconnaître les chaînes de caractères dans une image et donc d’opérer la conversion des mots qui peuvent ensuite être utilisés pour différents usages, dont la recherche plein texte qu’offre la bibliothèque numérique Gallica.
Cette conversion est assurée automatiquement par un logiciel OCR et fait l'économie de la retranscription manuelle des contenus. Même si les techniques d'OCR sont en progrès constant, la qualité de reconnaissance dépend malgré tout d'un grand nombre de facteurs liés tant au document original qu'à la numérisation elle-même. Ainsi les documents patrimoniaux de Gallica présentent un certain nombre de défis pour l’OCR : dégradation du papier ou de l’encrage, polices de caractères ou orthographes anciennes, etc. De plus, les anciens modes de numérisation (en noir et blanc, d’après microfilm) ont un impact négatif sur les performances.
OCR brut ou OCR corrigé
Au fil des programmes de numérisation de la BnF, deux types d’OCR ont été produits :
- OCR brut : la conversion se fait sans aucune intervention humaine.
- OCR avec montée en qualité du texte : le mode texte est amélioré par une correction manuelle afin d’atteindre un taux qualité cible (généralement 96 %, 98 % ou 99,9 %). Cette correction ne concerne pas certaines zones (chiffres, tableaux, zones illisibles, publicités, etc.) dont le traitement serait trop coûteux voire impossible.
Qualité de l’OCR
Les indicateurs de qualité OCR affichés dans Gallica sont des estimations calculées automatiquement par les logiciels OCR. Ils sont exprimés en pourcentage de mots corrects. Par exemple, une qualité estimée de 98 % signifie que deux mots sur cent sont potentiellement erronés.
Ces estimations donnent généralement un bon aperçu de la qualité globale d’un document, mais elles ne doivent pas être confondues avec le taux qualité réel, qui ne peut être connu (sauf à corriger le texte d’un document et comparer cette référence avec le texte OCR, ce qui est impossible dans un contexte de numérisation de masse).
Les indicateurs de qualité OCR sont fournis à l’échelle du document (moyenne des pages d’un document). Une page donnée peut donc avoir une qualité OCR perçue à la lecture différente de celle du document.De plus, ces indicateurs ne sont pas toujours calculés à partir de la totalité du document ; il se peut par exemple que des zones illisibles ou trop complexes soient exclues du calcul et que la qualité perçue par le lecteur soit ainsi très nettement inférieure à la qualité annoncée.
Pour en savoir plus, consulter la page dédiée sur le site de la Bibliothèque nationale de France.