Carte heuristique autour d’Unicode

Cette carte a pour vocation de présenter sous forme graphique toutes les ressources que l’on peut mobiliser sur le Web à propos d’Unicode (et plus particulièrement à propos d’Unicode en bibliothèque).

Chaque branche principale privilégie une approche et des besoins d’utilisateurs différents :

Se renseigner sur Unicode recense des définitions générales de premier niveau et des ressources bibliographiques sur la question ;

Utiliser Unicode décline les outils nécessaires à la saisie ou à la lecture de textes dans un autre alphabet, tant pour les usagers des bibliothèques ou le grand public que pour les professionnels ayant à cataloguer des documents en caractères non latins ;

– Enfin, Quelles ressources pour quel alphabet vous offre un panorama des outils classés par langues ou alphabets non latin (asiatique, cyrillique, arabe et grec principalement).

Cliquez sur l’image pour ouvrir la carte et naviguer dans l’arborescence dynamique !

Carte heuristique sur Unicode en bibliothèque

Panorama des ressources recensées autour d'Unicode

Petite légende à l’intention des lecteurs qui ne sont pas familiers des cartes heuristiques :

– En cliquant sur les + et les placés aux embranchements, vous pouvez à l’envi naviguer dans l’arborescence et déployer plus ou moins chaque branche ;

– Une petite flèche  en haut à droite des bulles de la carte signifie qu’un lien actif vers un site ou une ressource en ligne prolonge la branche de la carte sur le Web ;

– Une petite « fiche » jaune placée dans la bulle ouvre une note explicative quand le curseur de la souris glisse dessus ;

– Un petit trombone dans une bulle indique qu’un document y est attaché.

Unicode dans le SUDOC

Le Sudoc (Système universitaire de la documentation) intègre aujourd’hui le standard Unicode. C’est l’aboutissement d’une évolution entamée dans les années 2000.

Avant 2003, le Sudoc était produit dans un environnement propriétaire avec des données stockées en caractères Pica : si on voulait introduire un caractère accentué dans le système, il fallait ainsi soit l’introduire directement sous sa forme Pica, soit demander au système une conversion de la forme saisie vers la forme Pica. Il en allait de même dans l’autre sens : afficher ou exporter exigeait une conversion de la valeur Pica vers la valeur souhaitée. C’est pourquoi la première opération, réalisée en 2003, a consisté à transporter le système central propriétaire (« CBS ») vers une plate-forme ouverte sous Unix.

La deuxième phase a consisté à permettre au système central de comprendre d’autres valeurs que celles des caractères Pica, les valeurs Unicode. Cette nouvelle version a été mise à disposition de l’Abes (Agence bibliographique de l’enseignement supérieur) en 2004. Le standard UTF-8 (codage sur 1 à 4 octets, chacun sur 8 bits) a été choisi, parce que perçu comme plus « standard », et surtout parce que compatible avec les logiciels codant les caractères sur un octet. Pica a choisi la forme décomposée de codage des caractères : en utilisant l’interface professionnelle et en tapant un « e accent aigu », on envoie dans le système \u0065 [= « e »] + \U00B4 [= « accent aigu »], et il en sera de même en export UTF-8 standard. Ceci ne signifie pas par ailleurs que le système central ne comprenne pas \u00E9 [= « e accent aigu »] s’il le reçoit.

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC.

Il a fallu ensuite rendre les « clients » compatibles, notamment pour les opérations de catalogage. Le premier a été le catalogue public (PSI, plus simple, parce que cette interface se contente de lire les données), opérationnel début 2005. Plus compliquée a été la mise en place de la nouvelle version de l’interface professionnelle (WinIBW, qui reçoit et envoie des données). Celle-ci a été mise à disposition au printemps 2005.

Interface professionnelle du SUDOC, WiniBW, présentant une notice dont les zones sont doublées en chinois

Une notice présentant des zones doublées en chinois, interface professionnelle du SUDOC.

Depuis cette date donc, tant qu’une notice n’est pas modifiée, elle reste stockée dans la base en caractères Pica et convertie en Unicode si on l’appelle à l’affichage ou si on l’exporte. Elle ne devient une notice stockée en Unicode qu’à partir du moment où elle est modifiée dans la base, cela pour éviter un volume total de la base trop important. Pour que la recherche ne soit pas affectée par la présence simultanée de caractères Pica et Unicode, tous les index, depuis la mise en service du nouveau système central, sont exclusivement en Unicode.

Depuis l’été 2005, il est donc théoriquement possible de cataloguer un document en n’importe quelle écriture connue de la version 4 d’Unicode. Cela suppose néanmoins la présence, sur le poste de travail ou de consultation, d’une police qui soit capable de restituer visuellement l’information (Arial MS Unicode, par exemple), et d’outils permettant de produire les caractères des écritures autres que latines.

Interface professionnelle du SUDOC, WiniBW  affichant une notice où les zones sont doublées en grec moderne

Une notice présentant des zones doublées en grec moderne, interface professionnelle du SUDOC.

Depuis 2007, le Sudoc travaille sur l’amélioration de l’affichage des écritures droite/ gauche (la double saisie « écriture originale/ écriture latine » est obligatoire dans le Sudoc) et sur la translittération automatique.

Interface professionnelle du SUDOC, WiniBW, présentant une notice  dont les zones ont été doublées en arabe

Une notice présentant des zones doublées en arabe, interface professionnelle du SUDOC.

Affichage public (OPAC) au SUDOC de cette même notice comportant  des zones en arabe

Affichage public au SUDOC de cette même notice comportant des zones en arabe.

♦ Pour aller plus loin :

CHABILLON, Christian. « Unicode dans le Sudoc ». BBF, 2007, n° 3, p. 28-28. [en ligne] Consulté le 11 juin 2010.

Un diaporama sur le catalogage multi-écritures dans le Sudoc, intervention lors des Cinquièmes journées Réseau (15-16 juin 2006), [en ligne] Consulté le 11 juin 2010.

Assistance professionnelle du Sudoc. [en ligne] Consulté le 11 juin 2010.

Guide méthodologique pour WinIBW (sur identification), [en ligne] Consulté le 11 juin 2010.

Bulletin d’information mensuel sur le Sudoc. [en ligne], Consulté le 11 juin 2010 n° 60 (janvier 2004), n°69 (novembre 2004), n°70 (décembre 2004), n° 73 (mars 2005), n°75 (mai 2005).