Le Blog
Gallica
La Bibliothèque numérique
de la BnF et de ses partenaires

Europeana Newspapers : 18 partenaires européens s’unissent pour faciliter l’accès à la presse numérisée

0
16 avril 2013

Lancé en février 2012, le projet Europeana Newspapers entend donner d’ici trois ans une meilleure visibilité à la presse ancienne numérisée.

http://blog.bnf.fr/uploads/gallica/2013/04/EN-14.jpg

 

Depuis cette phase de lancement, le projet se poursuit à mesure des réunions d’avancement qui réunissent 18 partenaires issus de 12 pays. L’objectif affiché est de faciliter l’accès aux articles de presse des quotidiens européens numérisés. En effet si de nombreuses hémérothèques existent d’ores et déjà sur Internet (AustriaN Newspapers Online, British Newspapers, Gallica…), ces fonds de journaux numérisés souffrent parfois de leur dispersion. C’est cette lacune qu’Europeana Newspapers entend combler en offrant aux internautes un accès simplifié à un large corpus issus des diverses institutions partenaires. L’interface unique d’interrogation permet de dépasser l’hétérogénéité technique de chaque projet pris isolément. Cette recherche fédérée concernera à terme près de 18 millions de pages libres de droit dont trois millions seront fournies par la BnF. 26 titres ont été choisis parmi les quelques 1 800 titres de presse présents dans Gallica.

img2_9.jpg

http://blog.bnf.fr/uploads/gallica/2013/04/EN-31-e1366118644681.jpg

 

Outre l’interface de recherche unique sur ce vaste ensemble, le projet offrira des potentialités de recherche amplifiées au regard de ce que permet Gallica. La recherche plein texte restera naturellement possible grâce au procédé de reconnaissance optique de caractères (Optical Caracter Recognition ou OCR) mais cette reconnaissance visuelle se doublera désormais d’une reconnaissance structurelle. L’accent sera ainsi porté sur des dispositifs de reconnaissance au niveau des articles (Optical Layout Recognition ou OLR). Il sera donc possible de rechercher par types d’articles ou de ne s’intéresser qu’à certaines rubriques d’un journal (pages internationales, rubrique sportive, pages de publicité…). Tout ceci permettra d’affiner les interrogations et d’obtenir de meilleurs résultats de recherche. Dès juillet 2013, ces nouveaux modes d’interrogation seront opérationnels. Ils concerneront à terme près d’un million de pages dont la moitié issue de Gallica.

Par ailleurs, des traitements issus du programme de recherche IMPACT regroupant partenaires privés, centres de recherches et bibliothèques sont prévus pour enrichir les données et les métadonnées. A titre d’exemple, grâce à la reconnaissance des entités nommées (Named-entity recognition ou NER), il sera plus aisé de rechercher des noms de personnes ou de lieux et ceci malgré le caractère multilingue du corpus.

Toutes ces avancées seront, dans un premier temps, disponibles sur le site d’Europeana newspapers à partir duquel il conviendra d’effectuer ce type de recherche. Les résultats de la recherche seront en revanche consultables dans Gallica, s’agissant des journaux numérisés par la BnF.

Benjamin Prémel - département Droit, économie, politique

Ajouter un commentaire

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.