Unicode et numérisation des textes anciens

Le répertoire de caractères géré par le jeu Unicode offre des possibilités de codage pour un très grand nombre de caractères et réserve de très nombreux codes pour des extensions futures. Les possibilités offertes par ce jeu de caractères dépassent donc la simple transcription des écritures actuellement en usage, des symboles mathématiques ou des caractères de commande.

Ces potentialités sont notamment exploitées pour la numérisation des documents anciens. Cette numérisation, qui repose sur un procédé de reconnaissance automatisé des caractères (OCR – Optical Character Recognition), traduit en glyphes codés les caractères utilisés dans les documents anciens. Plusieurs projets visent donc à compléter le répertoire du jeu Unicode pour y intégrer des symboles et des caractères aujourd’hui disparus, notamment dans les manuscrits médiévaux.

Exemple de caractères anciens trouvés dans des manuscrits

Exemple de caractères anciens trouvés dans des manuscrits.

Le principal projet dans ce domaine est le Medieval Unicode Font Initiative (MUFI), animé depuis 2001 par des spécialistes universitaires des documents médiévaux qui développent des codes de caractères disparus au sein de la zone des codes réservés de la version 5.0 d’Unicode. Le projet a donc à la fois un rôle de proposition de nouveaux codes et de coordination des efforts de codage dans le domaine des écritures médiévales. 152 caractères médiévaux ont été intégrés officiellement dans la version 5.1 d’Unicode de juin 2008. Le dernier répertoire élaboré par le MUFI, la version 3.0, datée de juin 2009 rassemble 1 548 caractères rassemblés à titre provisoire dans la zone des caractères à usage privé d’Unicode. MUFI se concentre sur le codage des écritures des manuscrits latins. Le projet KODEKS développe des codages, des normes de translittération et des polices pour les manuscrits slaves, Menota pour les manuscrits scandinaves.

En complément à ce projet, plusieurs polices adaptées à ce répertoire Unicode sont développées, comme Cardo ou Junicode.

Pour aller plus loin :

ANDRÉ, Jacques. « Numérisation et codage des caractères de livres anciens ». Document numérique 3/2003 (Volume 7), p. 127-142. [en ligne] Consulté le 16 juin 2010.

The Menota handbook. Guidelines for the electronic encoding of Medieval Nordic primary sources. [en ligne] Consulté le 16 juin 2010.