Consulter les documents

Aide à la consultation

 

Pictogrammes utilisés

 

Navigation

 Page précédente

Page suivante

Première page

 Dernière page

 Décaler d'une page (en mode double page)

Modes d'affichage et vocal

 Simple page

 Double page

 Défilement vertical

 Mosaïque

 Visualiser en 3D

 Enregistrement sonore

 Accéder à l'enregistrement complet

Zoom

 Accès au zoom

 Réduire

 Agrandir

 Taille initiale

 Plein écran

 Rotation horaire 90°

 Rotation antihoraire 90°

 Sélection

 Sortie du mode zoom

Autres fonctionnalités

 Recherche dans le document

 Téléchargement et impression

 Marque-page

 Partage et envoi par courriel

 Acheter une reproduction

 Signalement d'anomalie

 Aide

 

Raccourcis clavier

 

 Page précédente

 Page suivante

 Première page

 Dernière page

 Page précédente, dans un document zoomé

 Page suivante, dans un document zoomé

 Première page, dans un document zoomé

 Dernière page, dans un document zoomé

 Navigation dans un document zoomé

 Navigation dans le mode de défilement vertical

 

 

Mode texte et OCR

 

La technique d’OCR (optical character recognition) permet de situer et de reconnaître les chaînes de caractères dans une image et donc d’opérer la conversion des mots qui peuvent ensuite être utilisés pour différents usages, dont la recherche plein texte qu’offre la bibliothèque numérique Gallica.

Cette conversion est assurée automatiquement par un logiciel OCR et fait l'économie de la retranscription manuelle des contenus.  Même si les techniques d'OCR sont en progrès constant, la qualité de reconnaissance dépend malgré tout d'un grand nombre de facteurs liés tant au document original qu'à la numérisation elle-même. Ainsi les documents patrimoniaux de Gallica présentent un certain nombre de défis pour l’OCR : dégradation du papier ou de l’encrage, polices de caractères ou orthographes anciennes, etc. De plus, les anciens modes de numérisation (en noir et blanc, d’après microfilm) ont un impact négatif sur les performances.

 

OCR brut ou OCR corrigé   

 

Au fil des programmes de numérisation de la BnF, deux types d’OCR ont été produits :
- OCR brut : la conversion se fait sans aucune intervention humaine.
- OCR avec montée en qualité du texte : le mode texte est amélioré par une correction manuelle afin d’atteindre un taux qualité cible (généralement 96 %, 98 % ou 99,9 %). Cette correction ne concerne pas certaines zones (chiffres, tableaux, zones illisibles, publicités, etc.) dont le traitement serait trop coûteux voire impossible.

 

Qualité de l’OCR

 

Les indicateurs de qualité OCR affichés dans Gallica sont des estimations calculées automatiquement par les logiciels OCR. Ils sont exprimés en pourcentage de mots corrects. Par exemple, une qualité estimée de 98 % signifie que deux mots sur cent sont potentiellement erronés.

Ces estimations donnent généralement un bon aperçu de la qualité globale d’un document, mais elles ne doivent pas être confondues avec le taux qualité réel,  qui ne peut être connu (sauf à corriger le texte d’un document et comparer cette référence avec le texte OCR, ce qui est impossible dans un contexte de numérisation de masse).

Les indicateurs de qualité OCR sont fournis à l’échelle du document (moyenne des pages d’un document). Une page donnée peut donc avoir une qualité OCR perçue à la lecture différente de celle du document.

De plus, ces indicateurs ne sont pas toujours calculés à partir de la totalité du document ; il se peut par exemple que des zones illisibles ou trop complexes soient exclues du calcul et que la qualité perçue par le lecteur soit ainsi très nettement inférieure à la qualité annoncée.

Pour en savoir plus, consulter la page dédiée sur le site de la Bibliothèque nationale de France.