Le Blog
Gallica
La Bibliothèque numérique
de la BnF et de ses partenaires

Patrimoine imprimé et crowdsourcing : le projet FUI12 Ozalid

0
17 mai 2013

Depuis janvier 2012, la BnF participe, avec 8 autres partenaires (Orange, Jamespot, Urbilog, I2S, ISEP, INSA Lyon, Université Lyon 1 - LIRIS, Université Paris 8), au projet de recherche et développement FUI12 OZALID. Il s'agit de concevoir une plateforme collaborative de correction et d'enrichissement des documents numériques.

Le projet FUI12 OZALID repose sur trois objectifs principaux qui consistent à favoriser une approche par crowdsourcing, répondre à une exigence d'accessibilité numérique (pour tous les types d'utilisateurs et pour tous les modes et dispositifs d'accès) et développer des outils et méthodes innovants.

Ce projet de recherche se déroule en plusieurs phases :
-2012-2013 : mise en place d'une interface permettant de corriger des textes numérisés ;
-2013-2014 : mise en place de fonctionnalités permettant, pour un texte donné, de reconstruire la mise en forme du document et de reconstituer un ordre logique de lecture ;
-2014-2015 : mise en place de fonctionnalités permettant un enrichissement éditorial des textes (indexation, vocalisation, annotation, etc.).

Dans le cadre de la première phase du projet, la BnF a fourni des documents numériques provenant de Gallica. Le mode texte de ces documents contient des erreurs, car il n'existe pas à ce jour de solution d'OCR* infaillible permettant de passer d'un document numérisé en mode image à une version en mode texte parfaitement fidèle à l'original. Le seul moyen d'y parvenir est de passer par une phase de correction manuelle pour détecter et éliminer les erreurs restantes (caractères mal reconnus, coquilles, etc.).

Ce projet de recherche envisage une nouvelle méthode de correction collaborative des documents qui s'appuie sur un réseau social pour soutenir et organiser cette collaboration. Avec le premier prototype de la plateforme, il vous sera bientôt possible de tester la correction collaborative :

Prototype de la plateforme de correction : image et texte
Prototype de la plateforme de correction : image et texte

L'amélioration du mode texte des documents de Gallica est un enjeu important, car plus la qualité du mode texte est élevée, plus la recherche au sein de ces documents est performante.

Les autres phases du projet vont permettre de proposer des documents accessibles à l'ensemble des utilisateurs et adaptés aux nouveaux usages mais également d'explorer les possibilités offertes par le crowdsourcing pour l'enrichissement des documents.
Ce projet de recherche s'inscrit dans une approche expérimentale qui vise à tester diverses fonctionnalités collaboratives et sociales - lesquelles pourraient, à terme, être intégrées partiellement ou entièrement dans l'environnement de Gallica.

Les 17, 18 et 19 avril 2013 a eu lieu une première expérimentation à la bibliothèque universitaire de Paris 8 : les étudiants ont pu y tester un prototype de la plateforme, sur ordinateur et sur tablette.

Pour en savoir plus sur les projets de crowdsourcing en bibliothèques, consultez cet état de l'art effectué par les équipes de la BnF en février 2013.

Mise à jour du 30/05/2013 : le 19 juin 2013, la BnF vous invite à participer, de chez vous ou sur le site François-Mitterrand, à une expérimentation en réseau pour tester le prototype de la plateforme de correction collaborative sur un corpus de documents extraits de Gallica. En savoir plus.

Isabelle Josse - Département de la conservation

 

*****************************************

*l'OCR (Optical Character Recognition = Reconnaissance optique des caractères) permet de situer et de reconnaître les chaînes de caractères dans une image pour faire la conversion des mots dans un fichier texte. Cette conversion est assurée automatiquement par un logiciel.

Ajouter un commentaire

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.