Unicode dans le SUDOC

Le Sudoc (Système universitaire de la documentation) intègre aujourd’hui le standard Unicode. C’est l’aboutissement d’une évolution entamée dans les années 2000.

Avant 2003, le Sudoc était produit dans un environnement propriétaire avec des données stockées en caractères Pica : si on voulait introduire un caractère accentué dans le système, il fallait ainsi soit l’introduire directement sous sa forme Pica, soit demander au système une conversion de la forme saisie vers la forme Pica. Il en allait de même dans l’autre sens : afficher ou exporter exigeait une conversion de la valeur Pica vers la valeur souhaitée. C’est pourquoi la première opération, réalisée en 2003, a consisté à transporter le système central propriétaire (« CBS ») vers une plate-forme ouverte sous Unix.

La deuxième phase a consisté à permettre au système central de comprendre d’autres valeurs que celles des caractères Pica, les valeurs Unicode. Cette nouvelle version a été mise à disposition de l’Abes (Agence bibliographique de l’enseignement supérieur) en 2004. Le standard UTF-8 (codage sur 1 à 4 octets, chacun sur 8 bits) a été choisi, parce que perçu comme plus « standard », et surtout parce que compatible avec les logiciels codant les caractères sur un octet. Pica a choisi la forme décomposée de codage des caractères : en utilisant l’interface professionnelle et en tapant un « e accent aigu », on envoie dans le système \u0065 [= « e »] + \U00B4 [= « accent aigu »], et il en sera de même en export UTF-8 standard. Ceci ne signifie pas par ailleurs que le système central ne comprenne pas \u00E9 [= « e accent aigu »] s’il le reçoit.

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC.

Il a fallu ensuite rendre les « clients » compatibles, notamment pour les opérations de catalogage. Le premier a été le catalogue public (PSI, plus simple, parce que cette interface se contente de lire les données), opérationnel début 2005. Plus compliquée a été la mise en place de la nouvelle version de l’interface professionnelle (WinIBW, qui reçoit et envoie des données). Celle-ci a été mise à disposition au printemps 2005.

Interface professionnelle du SUDOC, WiniBW, présentant une notice dont les zones sont doublées en chinois

Une notice présentant des zones doublées en chinois, interface professionnelle du SUDOC.

Depuis cette date donc, tant qu’une notice n’est pas modifiée, elle reste stockée dans la base en caractères Pica et convertie en Unicode si on l’appelle à l’affichage ou si on l’exporte. Elle ne devient une notice stockée en Unicode qu’à partir du moment où elle est modifiée dans la base, cela pour éviter un volume total de la base trop important. Pour que la recherche ne soit pas affectée par la présence simultanée de caractères Pica et Unicode, tous les index, depuis la mise en service du nouveau système central, sont exclusivement en Unicode.

Depuis l’été 2005, il est donc théoriquement possible de cataloguer un document en n’importe quelle écriture connue de la version 4 d’Unicode. Cela suppose néanmoins la présence, sur le poste de travail ou de consultation, d’une police qui soit capable de restituer visuellement l’information (Arial MS Unicode, par exemple), et d’outils permettant de produire les caractères des écritures autres que latines.

Interface professionnelle du SUDOC, WiniBW  affichant une notice où les zones sont doublées en grec moderne

Une notice présentant des zones doublées en grec moderne, interface professionnelle du SUDOC.

Depuis 2007, le Sudoc travaille sur l’amélioration de l’affichage des écritures droite/ gauche (la double saisie « écriture originale/ écriture latine » est obligatoire dans le Sudoc) et sur la translittération automatique.

Interface professionnelle du SUDOC, WiniBW, présentant une notice  dont les zones ont été doublées en arabe

Une notice présentant des zones doublées en arabe, interface professionnelle du SUDOC.

Affichage public (OPAC) au SUDOC de cette même notice comportant  des zones en arabe

Affichage public au SUDOC de cette même notice comportant des zones en arabe.

♦ Pour aller plus loin :

CHABILLON, Christian. « Unicode dans le Sudoc ». BBF, 2007, n° 3, p. 28-28. [en ligne] Consulté le 11 juin 2010.

Un diaporama sur le catalogage multi-écritures dans le Sudoc, intervention lors des Cinquièmes journées Réseau (15-16 juin 2006), [en ligne] Consulté le 11 juin 2010.

Assistance professionnelle du Sudoc. [en ligne] Consulté le 11 juin 2010.

Guide méthodologique pour WinIBW (sur identification), [en ligne] Consulté le 11 juin 2010.

Bulletin d’information mensuel sur le Sudoc. [en ligne], Consulté le 11 juin 2010 n° 60 (janvier 2004), n°69 (novembre 2004), n°70 (décembre 2004), n° 73 (mars 2005), n°75 (mai 2005).

Publicités

Unicode : les problèmes encore en suspens

Si Unicode semble bien constituer une révolution en matière de codage des caractères, un certain nombre de points demeurent non résolus:

Le débat sur la translittération

Les « contre » arguent que les usagers qui savent lire la translittération connaissent aussi la langue originale. D’ailleurs, les normes, bien qu’en voie d’harmonisation dans les différents établissements, n’existent pas pour toutes les langues. Les « pour » voient au contraire dans la translittération une manière d’améliorer l’accessibilité et la lisibilité pour l’usager.

Une translittération automatique encore difficile

Des tables établies par la BIULO (Bibliothèque Interuniversitaire des Langues Orientales) sont disponibles pour les caractères cyrilliques (dans les deux sens) et en arabe vers la langue originale. Elles permettent de faire fonctionner la translittération de manière automatique. Mais la plupart des langues n’ont pas fait l’objet d’un tel travail. Unicode pose aussi question dans la mesure où il traite de caractères et non de glyphes. Or plusieurs langues qui partagent la même écriture n’utilisent pas forcément les mêmes glyphes, de même que certaines écritures peuvent prendre diverses formes.

-Améliorer la directionalité

Le problème concerne les langues se lisant de droite à gauche. Il n’est pas besoin de définir la directionalité puisque chaque caractère a des propriétés d’affichage. On peut même mélanger les caractères au sein d’une même notice. Mais certains caractères, comme les chiffres, ont des propriétés de directionalité faibles et s’intègrent mal. Le Sudoc s’est bien amélioré sur le sujet mais des progrès sont encore à faire.

-L’insuffisance des claviers

Les claviers virtuels doivent être testés, voir nettement améliorés. L’édition des claviers reste souvent complexe. Il s’agit de faire correspondre les signes et ressources d’une langue source avec la configuration clavier spécifique d’une autre langue cible. La plupart du temps, on ne dispose que des correspondances de la langue source avec le qwerty américain ! En l’absence des ressources claviers spécifiques, qui ont peu de chances d’être développées, pour des raisons mercantiles, il est à craindre que leur expression soit fortement handicapée par la nécessité de naviguer, à la saisie, entre des blocs différents.

-Les débats de fond

Certains soulignent le fait qu’Unicode n’est pas une norme internationale, mais un standard établi par un consortium à vocation commerciale dominé par des entreprises américaines. A ce titre, l’entreprise ne serait pas dénuée d’arrière-pensées ethnocentriques (plus faible représentation des langues d’Afrique ou d’Asie, à moindre enjeu économique ; perpétuation d’archaïsmes typographiques manifestant l’hégémonie culturelle de certaines nations ; découpage contestable des langues en blocs séparés) et mercantiles (intégration de caractères propriétaires, mépris des besoins du compositeur au profit de l’utilisateur bureautique, volonté finale de faire du texte un matériau dont on gère les flux et les traitements comme ceux de n’importe quel autre produit).

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet. Disponible sur Wikimedia.org, libre de droits

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet.

♦ Pour aller plus loin :

HARALAMBOUS, Yannis. « Unicode et typographie : un amour impossible ». Document numérique, 2002/3-4, Volume 6, p. 105-137. [en ligne] Consulté le 12 juin 2010.

RANDIER, Olivier. « Unicode : tentations et limites. L’avis d’un typographe ». Document numérique, 2002/3-4, Volume 6, p. 89-103. [en ligne] Consulté le 12 juin 2010.

Le recrutement et la qualification des personnels de bibliothèque

« Difficulté majeure que de recruter quelqu’un qui connaisse bien la langue et la civilisation chinoise, tout en étant formé à la profession ! Soit c’est l’un, soit c’est l’autre, bien rarement les deux. Faute de personnel ayant cette double compétence, on est vite confronté à la difficulté, sinon l’impossibilité, de traiter, développer et valoriser convenablement des fonds en langues étrangères. »

Valentina de Monte, « Le fonds chinois de la bibliothèque municipale de Lyon ». BBF, 2007, n° 3, p. 62-66.

« Extrait d’un abécédaire des caractères cyrilliques civils et slavons d’Eglise pour l’enseignement des enfants Sarapouls dans leur langue », Kazan, 1847.

L’usage d’Unicode, s’il règle une certain nombre de questions techniques d’affichages et de catalogage, ne va pas toutefois sans poser un certain nombre de problèmes de personnels dans les bibliothèques, comme le souligne Valentina de Monte. En effet, indépendamment des questions de sélection et de médiation des documents, même pour effectuer des opérations techniques de saisie des données bibliographiques dans la langue et l’alphabet du document (et bien que les interfaces, comme le SUDOC par exemple, soient conçues pour), il est nécessaire de maîtriser un tant soit peu cet alphabet. La question des personnels dans les bibliothèques traitant de tels fonds se pose alors selon deux angles :

– Enjeux

De façon générale, il est indispensable à toute bibliothèque gérant des collections en langues étrangères de compter parmi son équipe un agent maîtrisant plus ou moins bien la langue concernée. Cette nécessité devient encore plus forte lorsque la langue est écrite dans un alphabet non latin, l’agent doit pouvoir la lire et la comprendre pour :

-faire des acquisitions ;

cataloguer les ouvrages, en translittéré ou dans l’alphabet original ;

ranger les ouvrages et les mettre en valeur dans la bibliothèque ;

-faire de la médiation, conseiller et faire vivre le fonds.

– Difficultés

Certaines bibliothèques recrutent des agents dont la mission principale est de s’occuper du fonds en langue étrangère. Elles privilégient dans ce cas les candidats ayant une solide maîtrise de la langue et de la culture du pays où elle est parlée. C’est le cas de la BML qui dispose d’un important fonds en langue chinoise et qui a recruté deux sinophones pour s’en occuper : ils se sont formés une fois en poste aux techniques documentaires. De même, au sein des équipes qui composent la BULAC, les compétences en langues (en langues orientales particulièrement) ont été privilégiées et déterminantes dans la rédaction des profils de poste et le recrutement des titulaires. Cette mesure volontaire s’est également accompagnée du recrutement de vacataires en appoint sur des contrats de courte durée, pour les langues « rares », notamment pour des tâches de catalogage.

D’autres structures, plus petites, n’ont pas les moyens d’embaucher un agent pour ce fonds dont la taille ne justifie pas un plein temps. Elles recrutent dans ce cas de façon épisodique, comme par exemple la BM d’Alençon ou la BMI de Grenoble, des vacataires pour travailler sur les collections et cataloguer les ouvrages. Cette solution n’est pas satisfaisante pour les collections qui sont délaissées jusqu’au recrutement ponctuel d’un nouveau vacataire.

♦ Pour aller plus loin :

HOURS, Françoise. « Quel avenir pour les fonds russes en France ? », Bibliothèque(s), 2005, n° 19, p. 28-30.

MONTE, Valentina De. « Le fonds chinois de la bibliothèque municipale de Lyon », BBF, 2007, n° 3, p. 62-66. [en ligne] Consulté le 16 juin 2010.

PIRSICH, Volker. « Missions interculturelles des bibliothèques en Allemagne : tendances et perspectives », BBF, 2009, n° 2, p. 68-71. [en ligne]  Consulté le 16 juin 2010.

Unicode et numérisation des textes anciens

Le répertoire de caractères géré par le jeu Unicode offre des possibilités de codage pour un très grand nombre de caractères et réserve de très nombreux codes pour des extensions futures. Les possibilités offertes par ce jeu de caractères dépassent donc la simple transcription des écritures actuellement en usage, des symboles mathématiques ou des caractères de commande.

Ces potentialités sont notamment exploitées pour la numérisation des documents anciens. Cette numérisation, qui repose sur un procédé de reconnaissance automatisé des caractères (OCR – Optical Character Recognition), traduit en glyphes codés les caractères utilisés dans les documents anciens. Plusieurs projets visent donc à compléter le répertoire du jeu Unicode pour y intégrer des symboles et des caractères aujourd’hui disparus, notamment dans les manuscrits médiévaux.

Exemple de caractères anciens trouvés dans des manuscrits

Exemple de caractères anciens trouvés dans des manuscrits.

Le principal projet dans ce domaine est le Medieval Unicode Font Initiative (MUFI), animé depuis 2001 par des spécialistes universitaires des documents médiévaux qui développent des codes de caractères disparus au sein de la zone des codes réservés de la version 5.0 d’Unicode. Le projet a donc à la fois un rôle de proposition de nouveaux codes et de coordination des efforts de codage dans le domaine des écritures médiévales. 152 caractères médiévaux ont été intégrés officiellement dans la version 5.1 d’Unicode de juin 2008. Le dernier répertoire élaboré par le MUFI, la version 3.0, datée de juin 2009 rassemble 1 548 caractères rassemblés à titre provisoire dans la zone des caractères à usage privé d’Unicode. MUFI se concentre sur le codage des écritures des manuscrits latins. Le projet KODEKS développe des codages, des normes de translittération et des polices pour les manuscrits slaves, Menota pour les manuscrits scandinaves.

En complément à ce projet, plusieurs polices adaptées à ce répertoire Unicode sont développées, comme Cardo ou Junicode.

Pour aller plus loin :

ANDRÉ, Jacques. « Numérisation et codage des caractères de livres anciens ». Document numérique 3/2003 (Volume 7), p. 127-142. [en ligne] Consulté le 16 juin 2010.

The Menota handbook. Guidelines for the electronic encoding of Medieval Nordic primary sources. [en ligne] Consulté le 16 juin 2010.

Médiation : Unicode, un outil au service du multiculturalisme ?

L’utilisation d’Unicode en bibliothèque permet une meilleure gestion des documents multiculturels en tenant compte de leur écriture d’origine : les modes de transcription multiples et le passage nécessaire par une notice en écriture latine laissent progressivement la place à un affichage dans l’écriture d’origine, souvent accompagné d’une translittération en alphabet latin. Au regard de la bibliothéconomie, ce progrès offre un plus grand confort de lecture aux locuteurs, qui n’ont plus besoin de maîtriser différents modes de transcription pour accéder aux documents en langue étrangère et permet l’harmonisation des points d’entrée et le partage de réservoirs de notices : les documents sont ainsi plus faciles à repérer et à localiser. Cette généralisation d’Unicode favorise également le développement d’une politique multiculturelle dans les bibliothèques.

"Passengers read in the streetcar, New Orlean, 1972"

« Passengers read in the streetcar, New Orleans, 1972 ».

Les bibliothèques publiques sont au service des communautés qu’elles desservent : si cet objectif politique donne lieu à des mises en œuvre et des interprétations différentes selon les pays et les traditions politiques, le principe d’une prise en compte de la diversité linguistique et culturelle des populations dans les collections des bibliothèques s’impose progressivement en Europe continentale et dans les pays anglo-saxons. Une politique documentaire multiculturelle cherche ainsi à considérer les attentes et les besoins des minorités issues de l’immigration, des travailleurs migrants et des réfugiés ou des minorités nationales. Cet effort est considéré comme un élément important pour garantir une égalité de services et d’accès à l’information pour l’ensemble de la population d’un lieu donné et comme un instrument efficace d’intégration politique et d’insertion sociale. Pour faire une place à ces groupes, il ne suffit cependant pas de leur offrir des collections qui correspondent à leur langue. Il faut également rendre ces collections disponibles et accessibles par une médiation et une offre de service tenant compte de la langue parlée par ces communautés. Les recommandations élaborées par le groupe de réflexion sur les services aux « populations multiculturelles » de l’IFLA insistent pour que :

– le matériel de bibliothèque soit fourni à chacun dans sa langue de prédilection et en fonction de sa propre culture ;

– les bibliothèques fournissent un service de référence et d’information dans les langues les plus utilisées.

Outre l’acquisition d’une documentation multilingue, cela implique donc une valorisation de ces collections à travers :

– un catalogue en caractères originaux facilement accessible, notamment via un catalogue collectif ;

– la mise à disposition du matériel de bibliothèques (guides, présentations) dans les langues parlées par ces communautés ;

– le développement d’une offre de services, des animations et une signalétique pensés pour ces groupes et répondant à leurs besoins spécifiques.

Dans cette logique, l’intérêt d’Unicode est de permettre aux populations migrantes et aux minorités nationales un accès à la bibliothèque qui ne passe pas impérativement par la médiation de la langue de la société d’accueil. Ces dispositifs facilitent l’accès aux ressources de la bibliothèque pour les migrants de fraîche date, qui maîtrisent mal la langue du pays d’accueil ; ils valorisent également la présence de ces communautés, leur donnant une visibilité culturelle et favorisent ainsi leur intégration et les échanges interculturels. Cette tradition est relativement ancienne et bien acceptée dans les pays anglo-saxons. La bibliothèque du Queens présente ainsi un exemple exceptionnel de politique multiculturelle qui touche aussi bien les collections que les services. Elle est plus récente et discutée en France, où l’acquisition du français est considérée comme un préalable à l’intégration des populations migrantes.

Illustration :

La page des Questions fréquentes de la bibliothèque publique d’Auckland en Nouvelle-Zélande ; outre l’anglais, on trouve dix langues qui visent soient les minorités nationales (les Maoris par exemple), soit les communautés issues de l’immigration. Neuf écritures différentes sont ainsi proposées sur une page codée en UTF-8. Les malvoyants peuvent également écouter chacune de ces versions linguistiques.

Pour aller plus loin :

Principes fondateurs de la bibliothèque multiculturelle

Manifeste de l’IFLA sur la bibliothèque multiculturelle (version française). [en ligne] Consulté le 16 juin 2010.

Les communautés culturelles, directives pour les bibliothèques (2e éd., 1998). [en ligne] Consulté le 16 juin 2010.

Dix raisons pour offrir des services multiculturels en bibliothèque. [en ligne] Consulté le 16 juin 2010.

La place des collections multilingues en bibliothèques : analyses comparatives de l’offre documentaire et des politiques de lecture publique en France et à l’étranger

BOUQUIN-KELLER, Hélène. « Les langues dites d’immigration dans les bibliothèques municipales françaises ». BBF, 2003, n° 5, p. 34-40. [en ligne] Consulté le 15 juin 2010.

GODONOU-DOSSOU, Nelly. L’accueil du public étranger en bibliothèque municipale : le cas de la bibliothèque municipale de Lyon. Villeurbanne : ENSSIB, mémoire d’études DCB, 2002. [en ligne] Consulté le 15 juin 2010.

LAURENCEAU, Amélia. Les Bibliothèques publiques du Québec face à la diversité culturelle. Villeurbanne, ENSSIB, mémoire d’études DCB, 2004. [en ligne] Consulté le 15 juin 2010.

PIRSICH, Volker. « Missions interculturelles des bibliothèques en Allemagne : tendances et perspectives ». BBF, 2009, n° 2, p. 68-71 [en ligne] Consulté le 15 juin 2010.

TACHEAU, Olivier. Bibliothèque publique et multiculturalisme aux États-Unis. Jalons pour repenser la situation française. Villeurbanne : ENSSIB, mémoires d’études DCB, 1997.

TADROS, Ramzi, GHIOLDI, Cécile, ROMANO, Raymond (dir.). Pluralité culturelle en actes. Un nouvel enjeu pour les bibliothèques publiques. Paris : ABF, 2004, 104 p.

e-ci a été mise à disposition au printemps 2005.

Interface professionnelle du SUDOC, WiniBW, présentant une notice  dont les zones sont doublées en chinois

Une notice présentant des zones doublées en chinois, interface professionnelle du SUDOC

Les claviers virtuels et leur utilisation en bibliothèque

Clavier virtuel russe, en cyrillique

Clavier virtuel russe, en cyrillique

Les claviers virtuels sont des « pilotes logiciels qui réassignent aux touches d’un clavier matériel des valeurs différentes de celles qui y sont représentées » (V. Hachard). Ils permettent donc d’entrer les caractères de presque toutes les écritures, à partir de n’importe quel ordinateur, en cliquant sur les représentations des caractères de l’alphabet choisi. Désormais proposés librement par de nombreux sites internet de qualité, ils sont de plus en plus simples d’utilisation. Pour la saisie des milliers de caractères des langues chinoise, japonaise et coréenne dites CJK, existent des logiciels spécifiques comme l’Input method editor (IME) développé par Microsoft et jugé « plus facilement généralisable » par Vincent Hachard. Plusieurs de ces programmes sont fournis avec MS Internet Explorer 5+ ou Windows 2000+. Un outil de modification des pilotes de clavier est également téléchargeable en ligne sur une page du site de Microsoft. L’IME lancé récemment par Google, même s’il est librement disponible pour 19 langues (dont l’arabe, le grec, et le russe) ne prend actuellement pas en charge les CJK.

L’ensemble de ces outils constitue pour les bibliothèques dont le catalogue permet, grâce à l’utilisation d’Unicode, une interrogation à l’aide de caractères non latins, une alternative privilégiée à l’acquisition de claviers dans les différentes langues représentées dans ses fonds. Ainsi, la bibliothèque municipale internationale de Grenoble, qui ne dispose dans sa salle de lecture que d’un seul clavier en arabe pour l’interrogation des notices de ses fonds dans la langue, recommande à ses usagers l’utilisation des claviers virtuels proposés par le site Lexilogos.

La BULAC, particulièrement concernée en raison de la nature de ses fonds et grâce à la hauteur de ses moyens, travaille, quant à elle, à l’amélioration des claviers virtuels, sur certains points encore insuffisants : complexité d’utilisation encore trop importante, problèmes de correspondance avec des claviers azerty…

Clavier virtuel hébreu

Clavier virtuel hébreu

Pour aller plus loin :

ANDRIES, Patrick. Unicode 5.0 en pratique : codage des caractères et internationalisation des logiciels et des documents. Paris : DUNOD, 2008, 399 p.

« Enjeux et défis d’un système de catalogage multilingue et multiécriture ». Arabesques, Agence bibliographique de l’enseignement supérieur, n° 35, juillet-août-septembre 2004, p. 12-16. [en ligne] Consulté le 21 juin 2010.

Outils:

The Microsoft Keyboard Layout Creator. [en ligne] Consulté le 22 juin 2010.

L’IME proposé par Google. [en ligne] Consulté le 22 juin 2010.

Claviers multilingues proposés par Richard Ishida (W3C). [en ligne] Consulté le 22 juin 2010.

Claviers virtuels sur le site Lexilogos. [en ligne] Consulté le 22 juin 2010.

Keyman, logiciel de gestion de claviers. [en ligne] Consulté le 22 juin 2010.