Gallica offre un accès à tous types de supports : imprimés (monographies, périodiques et presse) en mode image et en mode texte, manuscrits, documents sonores, documents iconographiques, cartes et plans.
Il donne accès
Les statistiques de Gallica, indiquant à tout moment le nombre de documents de chaque type et de chaque provenance disponibles, sont accessibles à partir de la page d’accueil en suivant les liens aujourd’hui à la Bnf, sur la page de présentation du fonds de Gallica
Ce fonds sera enrichi d’ici à trois ans, par
la numérisation de près de 300 000 nouveaux documents
imprimés et par la poursuite de l’effort de numérisation
de la presse quotidienne française.
Témoignages du patrimoine écrit français
et de son rayonnement en Europe et dans le monde, les documents retenus
par la Bibliothèque nationale de France ont été
choisis de façon à constituer une bibliothèque
encyclopédique et raisonnée, représentatif des
grands auteurs français et des courants de recherche et de
réflexion par delà les siècles. Composée
de documents rares ou difficiles d’accès, cette sélection
est complétée par des documents permettant de resituer
ces œuvres dans leur contexte intellectuel, illustré par
des mémoires de contemporains ou décrit et commenté
dans des outils de référence (dictionnaires, bibliographies).
Les équipes chargées de l’enrichissement de Gallica
travaillent en outre en concertation avec les chercheurs pour accompagner
les grands courants actuels de recherche.
Gallica donne accès à de multiples types de documents : livres (monographies), périodiques, documents de grand format (cartes, presse), documents iconographiques, documents sonores, partitions, manuscrits.
Gallica offre une très grande majorité de documents en langue française. Toutefois, selon les disciplines et leur histoire, on trouvera en outre une sélection de documents en anglais, italien, allemand et, bien sûr, en latin et en grec.
On appelle « mode image » le fait de
numériser un document en faisant une image, une photographie
de chaque page. On obtient un fac-similé : exactement semblable
à l’ouvrage original, il respecte l’organisation
des informations sur la page et restitue fidèlement son contenu.
Le « mode texte » ne prend en compte la mise en page que
de façon très limitée, il s’intéresse
surtout à la retranscription du contenu de l’ouvrage
en lettres et en mots, exactement comme si on utilisait un traitement
de texte. Dès lors, on peut faire des recherches dans le contenu
du document, copier des citations, ou encore le consulter sur des
terminaux accessibles aux personnes en situation de handicap visuel
ou des terminaux mobiles.
Le mode texte est généré par
un procédé automatique nommé reconnaissance optique
de caractères (OCR). Il s’agit d’utiliser un logiciel
pour analyser les images numérisées en les comparant
à des dictionnaires de caractères et de mots, pour produire
un document en mode texte.
Ce procédé présente l’inconvénient
d’être très sensible à la qualité
de l’original numérisé : les taches, les pliures,
les caractères trop gros, trop petits, empâtés,
les polices peu courantes (et notamment les polices anciennes), les
caractères particuliers (accents, ligatures, caractères
grecs, cyrilliques etc.), les schémas… sont autant d’éléments
qui peuvent constituer un obstacle à la reconnaissance optique,
et entraîner la présence d’erreurs dans le mode
texte.
Pour éliminer complètement ces erreurs, il faudrait
avoir recours à un opérateur qui les corrige manuellement,
ce qui rendrait la numérisation 10 à 25 fois plus coûteuse
: un choix impossible lorsque l'on vise la numérisation de
masses importantes de documents. Toutefois, une sélection d’ouvrages
accessibles à terme dans Gallica bénéficiera
de cette correction.
Le niveau de qualité obtenu sans intervention d’un opérateur
(on parle d’OCR « brut » ou d'OCR non corrigé)
varie d’un ouvrage à l’autre.
Un taux de reconnaissance supérieur à 60% a été retenu
par la BnF. Ce taux permet une recherche par mots, mais celle-ci
ne peut être exhaustive. En outre il n’est pas suffisant
pour la lecture. C’est pourquoi Gallica propose les deux
modes d’accès (image et texte).
Vous trouverez sur la page d'accueil de Gallica
- une informations sur le nombre de docuemnts mis en ligne au cour de la dernière semaine et du dernier mois, et des liens vers la liste de ces documents,
- l'icône vous
permet d'accéder à une page d'information et d'abonnement à des flux
RSS génériques préparés par Gallica. Cet icône est aussi présent
sur les listes de résultats et permet de s'abonner à des recherches
spécifiques et de savoir si de nouveaux documents y répondant ont
été mis en ligne.
Les conditions de réutilisation sont décrites à l'adresse : http://gallica.bnf.fr/conditions