Unicode dans le SUDOC

Le Sudoc (Système universitaire de la documentation) intègre aujourd’hui le standard Unicode. C’est l’aboutissement d’une évolution entamée dans les années 2000.

Avant 2003, le Sudoc était produit dans un environnement propriétaire avec des données stockées en caractères Pica : si on voulait introduire un caractère accentué dans le système, il fallait ainsi soit l’introduire directement sous sa forme Pica, soit demander au système une conversion de la forme saisie vers la forme Pica. Il en allait de même dans l’autre sens : afficher ou exporter exigeait une conversion de la valeur Pica vers la valeur souhaitée. C’est pourquoi la première opération, réalisée en 2003, a consisté à transporter le système central propriétaire (« CBS ») vers une plate-forme ouverte sous Unix.

La deuxième phase a consisté à permettre au système central de comprendre d’autres valeurs que celles des caractères Pica, les valeurs Unicode. Cette nouvelle version a été mise à disposition de l’Abes (Agence bibliographique de l’enseignement supérieur) en 2004. Le standard UTF-8 (codage sur 1 à 4 octets, chacun sur 8 bits) a été choisi, parce que perçu comme plus « standard », et surtout parce que compatible avec les logiciels codant les caractères sur un octet. Pica a choisi la forme décomposée de codage des caractères : en utilisant l’interface professionnelle et en tapant un « e accent aigu », on envoie dans le système \u0065 [= « e »] + \U00B4 [= « accent aigu »], et il en sera de même en export UTF-8 standard. Ceci ne signifie pas par ailleurs que le système central ne comprenne pas \u00E9 [= « e accent aigu »] s’il le reçoit.

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC.

Il a fallu ensuite rendre les « clients » compatibles, notamment pour les opérations de catalogage. Le premier a été le catalogue public (PSI, plus simple, parce que cette interface se contente de lire les données), opérationnel début 2005. Plus compliquée a été la mise en place de la nouvelle version de l’interface professionnelle (WinIBW, qui reçoit et envoie des données). Celle-ci a été mise à disposition au printemps 2005.

Interface professionnelle du SUDOC, WiniBW, présentant une notice dont les zones sont doublées en chinois

Une notice présentant des zones doublées en chinois, interface professionnelle du SUDOC.

Depuis cette date donc, tant qu’une notice n’est pas modifiée, elle reste stockée dans la base en caractères Pica et convertie en Unicode si on l’appelle à l’affichage ou si on l’exporte. Elle ne devient une notice stockée en Unicode qu’à partir du moment où elle est modifiée dans la base, cela pour éviter un volume total de la base trop important. Pour que la recherche ne soit pas affectée par la présence simultanée de caractères Pica et Unicode, tous les index, depuis la mise en service du nouveau système central, sont exclusivement en Unicode.

Depuis l’été 2005, il est donc théoriquement possible de cataloguer un document en n’importe quelle écriture connue de la version 4 d’Unicode. Cela suppose néanmoins la présence, sur le poste de travail ou de consultation, d’une police qui soit capable de restituer visuellement l’information (Arial MS Unicode, par exemple), et d’outils permettant de produire les caractères des écritures autres que latines.

Interface professionnelle du SUDOC, WiniBW  affichant une notice où les zones sont doublées en grec moderne

Une notice présentant des zones doublées en grec moderne, interface professionnelle du SUDOC.

Depuis 2007, le Sudoc travaille sur l’amélioration de l’affichage des écritures droite/ gauche (la double saisie « écriture originale/ écriture latine » est obligatoire dans le Sudoc) et sur la translittération automatique.

Interface professionnelle du SUDOC, WiniBW, présentant une notice  dont les zones ont été doublées en arabe

Une notice présentant des zones doublées en arabe, interface professionnelle du SUDOC.

Affichage public (OPAC) au SUDOC de cette même notice comportant  des zones en arabe

Affichage public au SUDOC de cette même notice comportant des zones en arabe.

♦ Pour aller plus loin :

CHABILLON, Christian. « Unicode dans le Sudoc ». BBF, 2007, n° 3, p. 28-28. [en ligne] Consulté le 11 juin 2010.

Un diaporama sur le catalogage multi-écritures dans le Sudoc, intervention lors des Cinquièmes journées Réseau (15-16 juin 2006), [en ligne] Consulté le 11 juin 2010.

Assistance professionnelle du Sudoc. [en ligne] Consulté le 11 juin 2010.

Guide méthodologique pour WinIBW (sur identification), [en ligne] Consulté le 11 juin 2010.

Bulletin d’information mensuel sur le Sudoc. [en ligne], Consulté le 11 juin 2010 n° 60 (janvier 2004), n°69 (novembre 2004), n°70 (décembre 2004), n° 73 (mars 2005), n°75 (mai 2005).

Les fonds slaves de la bibliothèque de l’ENS de Lyon pôle LSH

La bibliothèque de l’ENS Lyon pôle LSH possède d’importants fonds slaves (plus de 100 000 documents), dans les domaines de la littérature, des sciences humaines, de la linguistique. Ces importants fonds proviennent de divers achats, dons et dépôts faits à la bibliothèque, dont le remarquable fonds slave des jésuites qui compte environ 80 000 documents.

Le catalogage est fait selon les règles du Sudoc : complétude des notices bibliographiques, double saisie des champs. Le traitement du fonds est complexe : si le catalogage dans le Sudoc permet la double saisie automatique, il faut malgré tout maîtriser la norme internationale de translittération ISO 9, mais aussi la translittération dite des « slavistes » ainsi que la translittération anglo-saxonne, car toutes les notices ne sont pas doublées, et les notices translittérées ne le sont pas toutes en ISO 9. De plus, la translittération anglo-saxonne est indispensable pour interroger les bases américaines accessibles à partir de WiniBW et qui n’utilisent pas la norme internationale.

La bibliothèque va connaître un profond changement, lié au changement prochain de SIGB. Jusqu’ici, la bibliothèque utilisait Absys, qui n’acceptait pas Unicode (il ne supportait ni les caractères cyrilliques, ni les signes diacritiques indispensables à la translittération ISO 9). Dans le catalogue de la bibliothèque, pour l’usager comme pour le bibliothécaire, seules les zones translittérées s’affichaient, de manière imparfaite puisqu’un certain nombre de signes diacritiques n’étaient pas supportés : la bibliothèque a dû préciser dans le guide d’utilisation du catalogue public qu’il pouvait y avoir ambiguïté pour certains caractères. Par ailleurs, l’usager ne pouvait pas saisir des requêtes en russe mais devait s’aider du guide en ligne pour faire des requêtes en translittéré.

Avec le passage à Aleph, qui supporte Unicode, il sera possible de cataloguer en russe et en translittéré. L’usager pourra faire des requêtes dans la langue du document sur les autorités et les mots russes qui sont dans la notice. Pour l’y aider, les agents accompagneront l’usager dans l’utilisation de claviers virtuels.

Pour la saisie, l’équipe utilise le clavier russe de Windows appris par cœur, les signes diacritiques du Sudoc et des caractères anciens récupérés par copier/ coller depuis un fichier.

Le maniement et le traitement du fonds pose la question de la connaissance de la langue. Une certaine familiarité avec l’alphabet cyrillique est demandée au personnel. Les catalogueurs doivent, sinon maîtriser la langue russe, au moins avoir de bonnes notions, pour se plier aux règles de translittération permettant le catalogage. Un glossaire a été constitué pour le vocabulaire indispensable au traitement des ouvrages en russe. L’ensemble des agents a pu bénéficier, grâce à l’aide de la section de russe de l’ENS, de cours de russe pour tous niveaux. Des efforts sont attendus des collègues de la bibliothèque susceptibles de communiquer les documents, d’autant plus que les ouvrages sont cotés selon un système alphanumérique incluant des caractères cyrilliques.

Récipissé de la censure concernant la publication de la revue Deâtel', Kazan, 1914

Récipissé de la censure concernant la publication de la revue Deâtel', Kazan, 1914

Points forts

Les fonds concernés sont remarquables par leur ampleur et leur qualité. Le catalogage est fait document en main avec une grande attention. Le personnel est formé spécifiquement aux questions propres aux documents en alphabet cyrillique. L’arrivée d’un nouveau SIGB devrait permettre une meilleure visibilité de ces fonds dans le catalogue de la bibliothèque.

Points faibles

Le catalogage était jusqu’ici rendu complexe par le fait que le SIGB ne supportait pas Unicode : cela alourdissait cette tâche et rendait difficile la recherche pour l’usager.

Pour aller plus loin :

« Chercher des ouvrages en caractères cyrilliques », guide en ligne de la Bibliothèque de l’ENS.

Historique des fonds slaves sur le portail de la bibliothèque. [en ligne] Consulté le 22 juin 2010.

La Bibliothèque Universitaire des Langues et Civilisations (BULAC)

La BULAC est un groupement d’intérêt public (GIP) regroupant, pour la partie documentation, les collections de différentes bibliothèques dont la Bibliothèque interuniversitaire des langues orientales (BIULO). La BULAC intégrera en septembre 2011 le Pôle des langues & civilisations, en cours de construction sur la ZAC Paris Rive Gauche. Le Pôle, dont le projet remonte à la fin des années 1990 avec le Plan Université 3000, réunira trois entités, l’INALCO (Institut National des Langues et Civilisations Orientales) pour la partie enseignement, la BULAC pour la documentation, et ultérieurement la tranche recherche.

Les collections de la BULAC s’organisent en grands domaines géographiques : Afrique, Moyen-Orient, Maghreb, Asie centrale, Europe balkanique, centrale et orientale, Asie. A l’intérieur de chacun de ces domaines sont regroupées différentes collections, développées au fur et à mesure de l’évolution des enseignements de l’École des langues orientales, où sont aujourd’hui enseignées une centaine de langues.

Le catalogue est multi-écritures. Le SIGB est Millenium depuis 2003 mais la BULAC étudie très sérieusement la possibilité de passer dans le logiciel libre Koha. Actuellement la BULAC catalogue en 30 écritures différentes grâce à Unicode.

L’équipe est composée d’une quinzaine de personnes, sans compter le personnel travaillant dans les 14 centres de documentation qui composent la BULAC.

Points forts :

La BULAC fait office de leader dans le traitement des documents en caractères non latins. Elle a catalogué en Unicode dans son SIGB Millenium depuis 2003, deux ans avant le Sudoc. La bibliothèque travaille avec le Sudoc sur la translittération automatique. Elle développe le clavier virtuel pour ses futurs utilisateurs. Les avancées technologiques ne pourront que permettre l’amélioration des services proposés par la BULAC en la matière.

Points faibles :

La BULAC n’est pas encore en service. Il est donc difficile de mesurer les faiblesses de son catalogue et les améliorations à apporter en termes de services au public.

"Timbre soviétique avec 6 écritures différentes sur 1 cm² !"
Pour aller plus loin :

Le catalogue multi-écritures sur le portail de la BULAC. Consulté le 15 juin 2010.

« La BULAC ! Le projet est devenu un GIP ». Arabesques, Agence bibliographique de l’enseignement supérieur, n° 35, juillet-août-septembre 2004, p. 8-16. [en ligne] Consulté le 15 juin 2010.