L’accessibilité multilingue des sites web (2) : construire une page web multilingue

Une page web multilingue doit intégrer des polices supportant les caractères propres à chaque écriture. La police la plus complète est la police Arial MS Unicode. Pour pouvoir jouer des différents jeux typographiques, la programmation devra donc s’assurer que les caractères propres à chaque écriture ou à chaque langue sont inclus dans les polices de caractère qu’il souhaite utiliser.

La page doit également intégrer, dans son architecture, les habitudes de lecture de l’écriture visée : lecture de droite à gauche pour l’hébreu et l’arabe, lecture verticale pour le chinois par exemple. En conséquence, la disposition des différentes cellules pourra être inversée : menu principal à droite et à gauche, transformation de bandeaux horizontaux en colonnes. La norme W3C s’efforce d’harmoniser les pratiques d’internationalisation des pages web pour faciliter la navigation et les conversions, notamment la reconnaissance automatique de l’encodage par les navigateurs.

Forme à imprimer

Forme à imprimer

Pour aller plus loin :

Le site de W3C. Consulté le 22 juin 2010. Voir notamment :

Généralités sur l’encodage

Généralités sur l’encodage en version française

Code des caractères en HTML et CSS

Spécification du codage dans les entêtes HTML

Base de données des glyphes spécifiques aux différentes langues utilisant alphabet latin ou cyrillique. [en ligne] Consulté le 22 juin 2010.

Le site personnel d’Alan Wood, recensant les différents blocs d’Unicode avec pages de tests, conseils et liens vers les polices. [en ligne] Consulté le 22 juin 2010.

Tutoriel sur les principes d’internationalisation des pages web. [en ligne] Consulté le 22 juin 2010.

Publicités

L’accessibilité multilingue des sites web (3) : vers des URL multi-écritures ?

Si l’encodage du contenu d’une page web et de son intitulé est facilité par la généralisation d’Unicode, les URL (une URL est l’adresse du serveur abritant une page web) n’acceptent que l’alphabet latin, non accentué, car seule la norme ASCII est supportée à ce jour. Mais l’ICANN (Internet Corporation for Assigned Names and Numbers), l’autorité chargée de la gestion des noms de domaine, travaille désormais pour mettre en place des URL correspondant à l’écriture de la page web hébergée (International Domain Names, ou IDN) : ce principe a été voté le 30 octobre 2009 lors du congrès de l’organisation à Séoul, et les premiers enregistrements d’URL en caractères non-latins ont été ouverts en novembre. Mais les difficultés techniques persistent, notamment celles liées à la directionnalité des écritures.

Pour aller plus loin :

Deux articles relatifs au travail de l’ICANN pour l’internationalisation des URL:

« Les adresses web s’ouvrent aux alphabets du monde ». [en ligne] Consulté le 22 juin 2010.

« Cliquez sur وزارة-الأتصالات.مصر ». [en ligne] Consulté le 22 juin 2010.

Documents officiels de l’ICANN sur le sujet :

Internationalized Domain Names. [en ligne] Consulté le 22 juin 2010.

ICANN Bringing the Languages of the World to the Global Internet. [en ligne] Consulté le 22 juin 2010.

Normes de translittération (1) : généralités

À  la différence de la transcription qui cherche à rendre prononçable les mots d’autres écritures en suivant des règles phonétiques qui changent selon chaque langue, la translittération prétend à l’universalité (être compréhensible par tous les usagers de l’alphabet latin, quelque soit leur langue de communication) et garantit la réversibilité (le retour vers l’écriture d’origine).

Panneau d'entrée en quatre langues dans la zone américaine, Berlin, Check Point Charlie.

– Une pratique inutile ?

La translittération était une pratique incontournable tant que les systèmes informatiques et les catalogues informatisés ne pouvaient pas prendre en charge les caractères des écritures non-latines : elle permettait, à l’aide d’un répertoire de caractères latin étendu utilisant des signes diacritiques, de transcrire les autres écritures. Avec la généralisation d’Unicode qui permet la saisie et le transfert de notices dans tous types d’écriture, on pourrait s’interroger sur la pertinence d’une pratique toujours en vigueur pour les mentions d’autorité, la zone de titre et l’adresse des documents. La translittération assure en fait une fonction de contrôle dans le cas où une interface ne prendrait pas en charge certaines écritures ; elle assure aussi une lisibilité minimale de la notice à un bibliothécaire qui devrait gérer des références sans parler la langue d’origine.

– Une normalisation incomplète

Le développement des catalogues informatisés interrogeables à distance et de catalogues collectifs a conduit à une mise à plat des normes utilisées pour la translittération des écritures non-latines en caractères latins.

Malgré l’effort de normalisation, les formes de translittération pratiquées en Europe continentale diffèrent des modalités adoptées aux États-Unis sous l’égide de la Bibliothèque du Congrès (translittération ALA-LC). Les normes de translittération utilisées en France sont diverses. Un travail d’harmonisation a été mené par le groupe de travail sur le catalogage des documents en caractères non-latin en 2002 mais on relève encore quelques discordances : ainsi pour le japonais (écriture en kana), l’ABES s’appuie sur la norme NF ISO 3602 :1990 qui suit le système Kunrei tandis que la BULAC recommande le système Hepburn modifié suivi également par la Bibliothèque du Congrès.

♦ Pour aller plus loin :

« Normes de translittération (2) : les difficultés en suspens », sur notre blog. [en ligne]

Le guide pratique du catalogueur édité par la BnF. [en ligne] Consulté le 14 juin 2010.

Les normes de translittération en France, sur le site de l’ABES [en ligne]. Consulté le 14 juin 2010.

Les normes de translittération utilisées par la BULAC [en ligne]. Consulté le 14 juin 2010.

CHEVRANT-BRETON, Philippe. « Rendre lisible l’illisible », BBF, 2007, n° 3, p. 29-35 [en ligne] Consulté le 14 juin 2010.

FÉDÉRATION INTERNATIONALE DES ASSOCIATIONS DE BIBLIOTHÉCAIRES ET DES BIBLIOTHÈQUES. ISBD(M) : Description bibliographique internationale normalisée des monographies. Revision de 2002. Paris : Bibliothèque nationale de France, 2003, p. 17, §0.6, l’annexe B, p. 64, précise les règles à suivre dans le cas d’écritures orientées de droite à gauche comme l’arabe ou l’hébreu [en ligne]. Consulté le 14 juin 2010.

MINISTÈRE DE L’ÉDUCATION NATIONALE. Catalogage des documents en caractères non latins : rapport du groupe de travail, rédigé par Danièle Duclos-Faure. Paris : 2002 [en ligne]. Consulté le 14 juin 2010.

SUCHET, Soline. Une langue étrange parmi les langues étrangères : paysage et intérêt de la lecture publique en chinois en France. Villeurbanne : ENSSIB, mémoire d’études DCB, 2008.

Normes de translittération (2) : les difficultés en suspens

"Panneau de signalisation bilingue (français et cri) avant d'entrer sur la Route de la Baie James au km 257"

« Panneau de signalisation bilingue (français et cri) avant d'entrer sur la Route de la Baie James au km 257 »

– Translittération et orthographes désuètes

La question du codage des caractères sortis d’usage se pose aux catalogueurs. Les normes de catalogage internationales (ISBD) imposent de retranscrire le titre et la mention de responsabilité d’un document dans la langue et l’écriture de l’original. L’usage adopté dans les différents répertoires catalographiques peut toutefois différer et être source de confusion. À titre d’exemple, pour le russe, différentes lettres de l’alphabet cyrillique ont été supprimées en 1918 par le pouvoir soviétique. Les bibliothèques, si elles suivent toutes la normes ISO-9 de translittération des caractères cyrilliques, ont parfois l’habitude de « convertir » ces mentions aux règles d’orthographe en usage depuis 1918. Ces divergences peuvent être source de doublons entre les notices d’un même document.

Par exemple, on trouve dans  le SUDOC deux règles de transcriptions différentes pour deux tomes de la même collection des œuvres de Léon Tolstoï  (titre seul, en double affichage) ; il s’agit des tome VII et VIII contenant la 3e et la 4e partie du roman Guerre et Paix. Les caractères concernés sont signalés en rouge:

Notice SUDOC n°134375696 (orthographe pré-1918)

Сочинения графа Л. Н. Толстого. Часть VIII, Война и Мир. IV [Texte imprimé]. – Изданіе восьмое

Sočineniâ grafa L. N. Tolstogo. Častʹ VIII, Vojna i Mir. IV [Texte imprimé]. – Izdanìe vosʹmoe

Notice SUDOC n°092133878 (orthographe modernisée)

Сочиненія графа Л. Н. Толстого. VII, Война и Мир. Т. III [Texte imprimé]. – Изданіе восьмое

Sočinenìâ grafa L. N. Tolstogo. VII, Vojna i Mir. T. III [Texte imprimé]. – Izdanìe vosʹmoe

La divergence de la transcription du « i » fausse donc la notice : un utilisateur qui cliquerait sur le lien actif proposé par le titre, ne retrouvera qu’une partie des tomes de l’édition des œuvres complètes de 1889. L’utilisateur averti devra donc copier et coller le titre dans la barre de recherche et remplacer les caractères litigieux par une troncature.

– L’agrégation des morphèmes des langues idéographiques asiatiques

Les langues idéographiques, comme le chinois, le coréen et le japonais sont translittérées en restituant les morphèmes (les sons) qui composent les différents caractères. Mais à la lecture de la transcription, il est difficile d’isoler la série de morphèmes qui retranscrivent un caractère de ceux du caractère suivant. Plusieurs pratiques existent : soit l’agrégation des morphèmes d’un même caractère, pour faciliter la lecture, soit la séparation totale des morphèmes. La pratique la plus courante est de retranscrire les langues asiatiques de façon non agrégée, sauf pour les noms propres, afin de faciliter le travail d’indexation. Toutefois, les pratiques catalographiques des bibliothèques ne sont pas toujours harmonisées, les pratiques ayant divergé selon les périodes de rétroconversion des catalogues papier ou de constitution des catalogues électroniques. Il y a là une source d’ambiguïté qui persiste.

♦ Pour aller plus loin :

Voir le billet « Normes de translittération (1) : généralités » sur notre blog

Unicode dans le SUDOC

Le Sudoc (Système universitaire de la documentation) intègre aujourd’hui le standard Unicode. C’est l’aboutissement d’une évolution entamée dans les années 2000.

Avant 2003, le Sudoc était produit dans un environnement propriétaire avec des données stockées en caractères Pica : si on voulait introduire un caractère accentué dans le système, il fallait ainsi soit l’introduire directement sous sa forme Pica, soit demander au système une conversion de la forme saisie vers la forme Pica. Il en allait de même dans l’autre sens : afficher ou exporter exigeait une conversion de la valeur Pica vers la valeur souhaitée. C’est pourquoi la première opération, réalisée en 2003, a consisté à transporter le système central propriétaire (« CBS ») vers une plate-forme ouverte sous Unix.

La deuxième phase a consisté à permettre au système central de comprendre d’autres valeurs que celles des caractères Pica, les valeurs Unicode. Cette nouvelle version a été mise à disposition de l’Abes (Agence bibliographique de l’enseignement supérieur) en 2004. Le standard UTF-8 (codage sur 1 à 4 octets, chacun sur 8 bits) a été choisi, parce que perçu comme plus « standard », et surtout parce que compatible avec les logiciels codant les caractères sur un octet. Pica a choisi la forme décomposée de codage des caractères : en utilisant l’interface professionnelle et en tapant un « e accent aigu », on envoie dans le système \u0065 [= « e »] + \U00B4 [= « accent aigu »], et il en sera de même en export UTF-8 standard. Ceci ne signifie pas par ailleurs que le système central ne comprenne pas \u00E9 [= « e accent aigu »] s’il le reçoit.

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC

Une notice présentant des zones doublées en russe, interface professionnelle du SUDOC.

Il a fallu ensuite rendre les « clients » compatibles, notamment pour les opérations de catalogage. Le premier a été le catalogue public (PSI, plus simple, parce que cette interface se contente de lire les données), opérationnel début 2005. Plus compliquée a été la mise en place de la nouvelle version de l’interface professionnelle (WinIBW, qui reçoit et envoie des données). Celle-ci a été mise à disposition au printemps 2005.

Interface professionnelle du SUDOC, WiniBW, présentant une notice dont les zones sont doublées en chinois

Une notice présentant des zones doublées en chinois, interface professionnelle du SUDOC.

Depuis cette date donc, tant qu’une notice n’est pas modifiée, elle reste stockée dans la base en caractères Pica et convertie en Unicode si on l’appelle à l’affichage ou si on l’exporte. Elle ne devient une notice stockée en Unicode qu’à partir du moment où elle est modifiée dans la base, cela pour éviter un volume total de la base trop important. Pour que la recherche ne soit pas affectée par la présence simultanée de caractères Pica et Unicode, tous les index, depuis la mise en service du nouveau système central, sont exclusivement en Unicode.

Depuis l’été 2005, il est donc théoriquement possible de cataloguer un document en n’importe quelle écriture connue de la version 4 d’Unicode. Cela suppose néanmoins la présence, sur le poste de travail ou de consultation, d’une police qui soit capable de restituer visuellement l’information (Arial MS Unicode, par exemple), et d’outils permettant de produire les caractères des écritures autres que latines.

Interface professionnelle du SUDOC, WiniBW  affichant une notice où les zones sont doublées en grec moderne

Une notice présentant des zones doublées en grec moderne, interface professionnelle du SUDOC.

Depuis 2007, le Sudoc travaille sur l’amélioration de l’affichage des écritures droite/ gauche (la double saisie « écriture originale/ écriture latine » est obligatoire dans le Sudoc) et sur la translittération automatique.

Interface professionnelle du SUDOC, WiniBW, présentant une notice  dont les zones ont été doublées en arabe

Une notice présentant des zones doublées en arabe, interface professionnelle du SUDOC.

Affichage public (OPAC) au SUDOC de cette même notice comportant  des zones en arabe

Affichage public au SUDOC de cette même notice comportant des zones en arabe.

♦ Pour aller plus loin :

CHABILLON, Christian. « Unicode dans le Sudoc ». BBF, 2007, n° 3, p. 28-28. [en ligne] Consulté le 11 juin 2010.

Un diaporama sur le catalogage multi-écritures dans le Sudoc, intervention lors des Cinquièmes journées Réseau (15-16 juin 2006), [en ligne] Consulté le 11 juin 2010.

Assistance professionnelle du Sudoc. [en ligne] Consulté le 11 juin 2010.

Guide méthodologique pour WinIBW (sur identification), [en ligne] Consulté le 11 juin 2010.

Bulletin d’information mensuel sur le Sudoc. [en ligne], Consulté le 11 juin 2010 n° 60 (janvier 2004), n°69 (novembre 2004), n°70 (décembre 2004), n° 73 (mars 2005), n°75 (mai 2005).

Unicode : les problèmes encore en suspens

Si Unicode semble bien constituer une révolution en matière de codage des caractères, un certain nombre de points demeurent non résolus:

Le débat sur la translittération

Les « contre » arguent que les usagers qui savent lire la translittération connaissent aussi la langue originale. D’ailleurs, les normes, bien qu’en voie d’harmonisation dans les différents établissements, n’existent pas pour toutes les langues. Les « pour » voient au contraire dans la translittération une manière d’améliorer l’accessibilité et la lisibilité pour l’usager.

Une translittération automatique encore difficile

Des tables établies par la BIULO (Bibliothèque Interuniversitaire des Langues Orientales) sont disponibles pour les caractères cyrilliques (dans les deux sens) et en arabe vers la langue originale. Elles permettent de faire fonctionner la translittération de manière automatique. Mais la plupart des langues n’ont pas fait l’objet d’un tel travail. Unicode pose aussi question dans la mesure où il traite de caractères et non de glyphes. Or plusieurs langues qui partagent la même écriture n’utilisent pas forcément les mêmes glyphes, de même que certaines écritures peuvent prendre diverses formes.

-Améliorer la directionalité

Le problème concerne les langues se lisant de droite à gauche. Il n’est pas besoin de définir la directionalité puisque chaque caractère a des propriétés d’affichage. On peut même mélanger les caractères au sein d’une même notice. Mais certains caractères, comme les chiffres, ont des propriétés de directionalité faibles et s’intègrent mal. Le Sudoc s’est bien amélioré sur le sujet mais des progrès sont encore à faire.

-L’insuffisance des claviers

Les claviers virtuels doivent être testés, voir nettement améliorés. L’édition des claviers reste souvent complexe. Il s’agit de faire correspondre les signes et ressources d’une langue source avec la configuration clavier spécifique d’une autre langue cible. La plupart du temps, on ne dispose que des correspondances de la langue source avec le qwerty américain ! En l’absence des ressources claviers spécifiques, qui ont peu de chances d’être développées, pour des raisons mercantiles, il est à craindre que leur expression soit fortement handicapée par la nécessité de naviguer, à la saisie, entre des blocs différents.

-Les débats de fond

Certains soulignent le fait qu’Unicode n’est pas une norme internationale, mais un standard établi par un consortium à vocation commerciale dominé par des entreprises américaines. A ce titre, l’entreprise ne serait pas dénuée d’arrière-pensées ethnocentriques (plus faible représentation des langues d’Afrique ou d’Asie, à moindre enjeu économique ; perpétuation d’archaïsmes typographiques manifestant l’hégémonie culturelle de certaines nations ; découpage contestable des langues en blocs séparés) et mercantiles (intégration de caractères propriétaires, mépris des besoins du compositeur au profit de l’utilisateur bureautique, volonté finale de faire du texte un matériau dont on gère les flux et les traitements comme ceux de n’importe quel autre produit).

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet. Disponible sur Wikimedia.org, libre de droits

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet.

♦ Pour aller plus loin :

HARALAMBOUS, Yannis. « Unicode et typographie : un amour impossible ». Document numérique, 2002/3-4, Volume 6, p. 105-137. [en ligne] Consulté le 12 juin 2010.

RANDIER, Olivier. « Unicode : tentations et limites. L’avis d’un typographe ». Document numérique, 2002/3-4, Volume 6, p. 89-103. [en ligne] Consulté le 12 juin 2010.

Le recrutement et la qualification des personnels de bibliothèque

« Difficulté majeure que de recruter quelqu’un qui connaisse bien la langue et la civilisation chinoise, tout en étant formé à la profession ! Soit c’est l’un, soit c’est l’autre, bien rarement les deux. Faute de personnel ayant cette double compétence, on est vite confronté à la difficulté, sinon l’impossibilité, de traiter, développer et valoriser convenablement des fonds en langues étrangères. »

Valentina de Monte, « Le fonds chinois de la bibliothèque municipale de Lyon ». BBF, 2007, n° 3, p. 62-66.

« Extrait d’un abécédaire des caractères cyrilliques civils et slavons d’Eglise pour l’enseignement des enfants Sarapouls dans leur langue », Kazan, 1847.

L’usage d’Unicode, s’il règle une certain nombre de questions techniques d’affichages et de catalogage, ne va pas toutefois sans poser un certain nombre de problèmes de personnels dans les bibliothèques, comme le souligne Valentina de Monte. En effet, indépendamment des questions de sélection et de médiation des documents, même pour effectuer des opérations techniques de saisie des données bibliographiques dans la langue et l’alphabet du document (et bien que les interfaces, comme le SUDOC par exemple, soient conçues pour), il est nécessaire de maîtriser un tant soit peu cet alphabet. La question des personnels dans les bibliothèques traitant de tels fonds se pose alors selon deux angles :

– Enjeux

De façon générale, il est indispensable à toute bibliothèque gérant des collections en langues étrangères de compter parmi son équipe un agent maîtrisant plus ou moins bien la langue concernée. Cette nécessité devient encore plus forte lorsque la langue est écrite dans un alphabet non latin, l’agent doit pouvoir la lire et la comprendre pour :

-faire des acquisitions ;

cataloguer les ouvrages, en translittéré ou dans l’alphabet original ;

ranger les ouvrages et les mettre en valeur dans la bibliothèque ;

-faire de la médiation, conseiller et faire vivre le fonds.

– Difficultés

Certaines bibliothèques recrutent des agents dont la mission principale est de s’occuper du fonds en langue étrangère. Elles privilégient dans ce cas les candidats ayant une solide maîtrise de la langue et de la culture du pays où elle est parlée. C’est le cas de la BML qui dispose d’un important fonds en langue chinoise et qui a recruté deux sinophones pour s’en occuper : ils se sont formés une fois en poste aux techniques documentaires. De même, au sein des équipes qui composent la BULAC, les compétences en langues (en langues orientales particulièrement) ont été privilégiées et déterminantes dans la rédaction des profils de poste et le recrutement des titulaires. Cette mesure volontaire s’est également accompagnée du recrutement de vacataires en appoint sur des contrats de courte durée, pour les langues « rares », notamment pour des tâches de catalogage.

D’autres structures, plus petites, n’ont pas les moyens d’embaucher un agent pour ce fonds dont la taille ne justifie pas un plein temps. Elles recrutent dans ce cas de façon épisodique, comme par exemple la BM d’Alençon ou la BMI de Grenoble, des vacataires pour travailler sur les collections et cataloguer les ouvrages. Cette solution n’est pas satisfaisante pour les collections qui sont délaissées jusqu’au recrutement ponctuel d’un nouveau vacataire.

♦ Pour aller plus loin :

HOURS, Françoise. « Quel avenir pour les fonds russes en France ? », Bibliothèque(s), 2005, n° 19, p. 28-30.

MONTE, Valentina De. « Le fonds chinois de la bibliothèque municipale de Lyon », BBF, 2007, n° 3, p. 62-66. [en ligne] Consulté le 16 juin 2010.

PIRSICH, Volker. « Missions interculturelles des bibliothèques en Allemagne : tendances et perspectives », BBF, 2009, n° 2, p. 68-71. [en ligne]  Consulté le 16 juin 2010.