Europeana Newspaper : accéder à la presse numérisée en ligne

0
25 novembre 2014

Lancé en février 2012 pour une durée de trois ans, le projet européen Europeana Newspapers a comme objectif primaire de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne via son portail numérique.

Europeana Newspapers

http://blog.bnf.fr/uploads/gallica/2014/11/enp2.jpg

 

Depuis son lancement, Europeana Newspapers réunissant 18 partenaires, vise au traitement et l’agrégation des journaux libres de droits issus des grands titres de la presse européenne. Ces travaux permettront un accès en ligne à  environ 18 millions de pages via deux sites culturels majeurs : Europeana et la Bibliothèque européenne (TEL). Ces points centralisés européens permettront également l’accès à la vie culturelle européenne ainsi qu’aux grands évènements historiques du continent. En plus de cette diffusion, une série de traitements innovants permettront l’amélioration des fonctionnalités de recherche dans ces contenus mais aussi l’enrichissement sémantique des données relatives à ces corpus.

Avec environ 3 millions de pages traitées dans le cadre du projet, la BnF vise à optimiser des processus liés à la numérisation, dont l’OCR (reconnaissance optique de caractères), ainsi que de bénéficier des dispositifs de reconnaissance des articles de presse (OLR). Ces deux traitements avancés proposent une consultation améliorée des contenus. De plus, grâce à la recherche plein-texte avec segmentation des articles, les journaux sont désormais plus finement décrits et bénéficient d’une classification de classes de page et de contenu (publicités, petites annonces, tableaux, illustrations, légendes).

Parmi les traitements avancés dédiés à l’amélioration de l’accès au contenu, nous citons également la Reconnaissance des Entités Nommées (REN). Etant une sous-tâche de l’activité d’extraction d’information dans les corpus documentaires, la REN consiste à rechercher et identifier un certain nombre d’objets textuels (un mot ou un groupe de mots) présents dans les textes. La catégorisation de ces objets dans des classes telles que personnes, lieux et organisations permet de développer des cas d’usage pour l’amélioration des fonctionnalités de consultation et de présentation à l’intention des usagers d’Europeana et de Gallica.

L’avancement actuel du projet permet de relever déjà les défis et les bénéfices de l’utilisation de ces technologies innovantes dans le futur : amélioration de l’accès au contenu mais aussi une possibilité de valoriser son enrichissement sémantique via des outils ou d’autres services spécialisés de la BnF (data.bnf.fr, Exalead). Enfin, l’utilisation des formats modernes (METS/ALTO) facilite le partage et l’échange des contenus de presse ainsi que leur réexploitation, ce qui donne des nouvelles possibilités pour leur valorisation.

Ioannis Anagnostopoulos - Service Numérisation, Département de la Conservation