Consulter les documents

Aide à la consultation Mode texte et OCR

Aide à la consultation

Pictogrammes utilisés

Navigation

Page précédente

Page suivante

Première page

Dernière page

Décaler d'une page (en mode double page)

Modes d'affichage et vocal

Simple page

Double page

Défilement vertical

Mosaïque

Visualiser en 3D

Enregistrement sonore

Accéder à l'enregistrement complet

Zoom

Accès au zoom

Réduire

Agrandir

Taille initiale

Plein écran

Rotation horaire 90°

Rotation antihoraire 90°

Sélection

Sortie du mode zoom

Autres fonctionnalités

Recherche dans le document

Téléchargement et impression

Marque-page

Partage et envoi par courriel

Acheter une reproduction

Signalement d'anomalie

Aide

Raccourcis clavier

Page précédente

Page suivante

Première page

Dernière page

Page précédente, dans un document zoomé

Page suivante, dans un document zoomé

Première page, dans un document zoomé

Dernière page, dans un document zoomé

Navigation dans un document zoomé

Navigation dans le mode de défilement vertical

Mode texte et OCR

La technique d’OCR (optical character recognition) permet de situer et de reconnaître les chaînes de caractères dans une image et donc d’opérer la conversion des mots qui peuvent ensuite être utilisés pour différents usages, dont la recherche plein texte qu’offre la bibliothèque numérique Gallica.

Cette conversion est assurée automatiquement par un logiciel OCR et fait l'économie de la retranscription manuelle des contenus. Même si les techniques d'OCR sont en progrès constant, la qualité de reconnaissance dépend malgré tout d'un grand nombre de facteurs liés tant au document original qu'à la numérisation elle-même. Ainsi les documents patrimoniaux de Gallica présentent un certain nombre de défis pour l’OCR : dégradation du papier ou de l’encrage, polices de caractères ou orthographes anciennes, etc. De plus, les anciens modes de numérisation (en noir et blanc, d’après microfilm) ont un impact négatif sur les performances.

OCR brut ou OCR corrigé

Au fil des programmes de numérisation de la BnF, deux types d’OCR ont été produits :
- OCR brut : la conversion se fait sans aucune intervention humaine.
- OCR avec montée en qualité du texte : le mode texte est amélioré par une correction manuelle afin d’atteindre un taux qualité cible (généralement 96 %, 98 % ou 99,9 %). Cette correction ne concerne pas certaines zones (chiffres, tableaux, zones illisibles, publicités, etc.) dont le traitement serait trop coûteux voire impossible.

Qualité de l’OCR

Les indicateurs de qualité OCR affichés dans Gallica sont des estimations calculées automatiquement par les logiciels OCR. Ils sont exprimés en pourcentage de mots corrects. Par exemple, une qualité estimée de 98 % signifie que deux mots sur cent sont potentiellement erronés.

Ces estimations donnent généralement un bon aperçu de la qualité globale d’un document, mais elles ne doivent pas être confondues avec le taux qualité réel, qui ne peut être connu (sauf à corriger le texte d’un document et comparer cette référence avec le texte OCR, ce qui est impossible dans un contexte de numérisation de masse).

Les indicateurs de qualité OCR sont fournis à l’échelle du document (moyenne des pages d’un document). Une page donnée peut donc avoir une qualité OCR perçue à la lecture différente de celle du document.

De plus, ces indicateurs ne sont pas toujours calculés à partir de la totalité du document ; il se peut par exemple que des zones illisibles ou trop complexes soient exclues du calcul et que la qualité perçue par le lecteur soit ainsi très nettement inférieure à la qualité annoncée.

Pour en savoir plus, consulter la page dédiée sur le site de la Bibliothèque nationale de France.