Consulter les documents

Mode texte et OCR

La technique d’OCR (optical character recognition) permet de situer et de reconnaître les chaînes de caractères dans une image et donc d’opérer la conversion des mots qui peuvent ensuite être utilisés pour différents usages, dont la recherche plein texte qu’offre la bibliothèque numérique Gallica.

Cette conversion est assurée automatiquement par un logiciel OCR et fait l'économie de la retranscription manuelle des contenus.  Même si les techniques d'OCR sont en progrès constant, la qualité de reconnaissance dépend malgré tout d'un grand nombre de facteurs liés tant au document original qu'à la numérisation elle-même. Ainsi les documents patrimoniaux de Gallica présentent un certain nombre de défis pour l’OCR : dégradation du papier ou de l’encrage, polices de caractères ou orthographes anciennes, etc. De plus, les anciens modes de numérisation (en noir et blanc, d’après microfilm) ont un impact négatif sur les performances.

OCR brut ou OCR corrigé   

Au fil des programmes de numérisation de la BnF, deux types d’OCR ont été produits :
- OCR brut : la conversion se fait sans aucune intervention humaine.
- OCR avec montée en qualité du texte : le mode texte est amélioré par une correction manuelle afin d’atteindre un taux qualité cible (généralement 96 %, 98 % ou 99,9 %). Cette correction ne concerne pas certaines zones (chiffres, tableaux, zones illisibles, publicités, etc.) dont le traitement serait trop coûteux voire impossible.

Qualité de l’OCR

Les indicateurs de qualité OCR affichés dans Gallica sont des estimations calculées automatiquement par les logiciels OCR. Ils sont exprimés en pourcentage de mots corrects. Par exemple, une qualité estimée de 98 % signifie que deux mots sur cent sont potentiellement erronés.

Ces estimations donnent généralement un bon aperçu de la qualité globale d’un document, mais elles ne doivent pas être confondues avec le taux qualité réel,  qui ne peut être connu (sauf à corriger le texte d’un document et comparer cette référence avec le texte OCR, ce qui est impossible dans un contexte de numérisation de masse).

Les indicateurs de qualité OCR sont fournis à l’échelle du document (moyenne des pages d’un document). Une page donnée peut donc avoir une qualité OCR perçue à la lecture différente de celle du document.

De plus, ces indicateurs ne sont pas toujours calculés à partir de la totalité du document ; il se peut par exemple que des zones illisibles ou trop complexes soient exclues du calcul et que la qualité perçue par le lecteur soit ainsi très nettement inférieure à la qualité annoncée.

Pour en savoir plus, consulter la page dédiée sur le site de la Bibliothèque nationale de France