L’accessibilité multilingue des sites web (1) : lire une page web multi-écritures

La généralisation d’Unicode est encore incomplète et nombre de pages web utilisent encore des codages hétérogènes qui peuvent poser des problèmes d’affichage. Les sites des principales bibliothèques russes, par exemple, utilisent la norme win-1251 pour le codage des caractères cyrilliques (Bibliothèque nationale de Russie à Saint-Pétersbourg et Bibliothèque d’État de Russie à Moscou). L’internaute doit donc s’assurer que les paramètres de son navigateur sont réglés sur la détection automatique des caractères, ou au besoin, modifier lui-même la norme d’affichage.

Sous Firefox : Affichage/Encodage des caractères, puis sélection du jeu de caractères approprié.

Sous Internet Explorer : Affichage/Code puis sélection du jeu de caractères approprié.

Si des problèmes persistent, cela s’explique par l’absence de polices Unicode dans le système de l’ordinateur utilisé, ou bien l’absence de police supportant les caractères de l’écriture recherchée, notamment des polices CJK pour les écritures idéographiques d’Europe orientale. Il faut alors installer les polices appropriées, sous Internet Explorer comme sous Mozilla Firefox, dans le menu Outils/Options/Contenu/Police.

Billet de 1 rouble soviétique de 1961 : dans le cadre central sur fond blanc, la mention « un rouble » en russe est traduite dans les langues principales des différentes républiques de l’URSS
Billet de 1 rouble soviétique de 1961 : dans le cadre central sur fond blanc, la mention « un rouble » en russe est traduite dans les langues principales des différentes républiques de l’URSS.

Pour aller plus loin :

Fiche pratique pour l’affichage de caractères non latins, sur le site du Conseil national de recherches Canada. [en ligne] Consulté le 22 juin 2010.

Fiche pratique de la Bibliothèque du Congrès (en anglais). [en ligne] Consulté le 22 juin 2010.

Précautions particulières pour l’installation de polices Unicode supportant les écritures idéographiques sur le site du Council on East Asian Libraries (en anglais). [en ligne] Consulté le 22 juin 2010.

L’accessibilité multilingue des sites web (2) : construire une page web multilingue

Une page web multilingue doit intégrer des polices supportant les caractères propres à chaque écriture. La police la plus complète est la police Arial MS Unicode. Pour pouvoir jouer des différents jeux typographiques, la programmation devra donc s’assurer que les caractères propres à chaque écriture ou à chaque langue sont inclus dans les polices de caractère qu’il souhaite utiliser.

La page doit également intégrer, dans son architecture, les habitudes de lecture de l’écriture visée : lecture de droite à gauche pour l’hébreu et l’arabe, lecture verticale pour le chinois par exemple. En conséquence, la disposition des différentes cellules pourra être inversée : menu principal à droite et à gauche, transformation de bandeaux horizontaux en colonnes. La norme W3C s’efforce d’harmoniser les pratiques d’internationalisation des pages web pour faciliter la navigation et les conversions, notamment la reconnaissance automatique de l’encodage par les navigateurs.

Forme à imprimer

Forme à imprimer

Pour aller plus loin :

Le site de W3C. Consulté le 22 juin 2010. Voir notamment :

Généralités sur l’encodage

Généralités sur l’encodage en version française

Code des caractères en HTML et CSS

Spécification du codage dans les entêtes HTML

Base de données des glyphes spécifiques aux différentes langues utilisant alphabet latin ou cyrillique. [en ligne] Consulté le 22 juin 2010.

Le site personnel d’Alan Wood, recensant les différents blocs d’Unicode avec pages de tests, conseils et liens vers les polices. [en ligne] Consulté le 22 juin 2010.

Tutoriel sur les principes d’internationalisation des pages web. [en ligne] Consulté le 22 juin 2010.

L’accessibilité multilingue des sites web (3) : vers des URL multi-écritures ?

Si l’encodage du contenu d’une page web et de son intitulé est facilité par la généralisation d’Unicode, les URL (une URL est l’adresse du serveur abritant une page web) n’acceptent que l’alphabet latin, non accentué, car seule la norme ASCII est supportée à ce jour. Mais l’ICANN (Internet Corporation for Assigned Names and Numbers), l’autorité chargée de la gestion des noms de domaine, travaille désormais pour mettre en place des URL correspondant à l’écriture de la page web hébergée (International Domain Names, ou IDN) : ce principe a été voté le 30 octobre 2009 lors du congrès de l’organisation à Séoul, et les premiers enregistrements d’URL en caractères non-latins ont été ouverts en novembre. Mais les difficultés techniques persistent, notamment celles liées à la directionnalité des écritures.

Pour aller plus loin :

Deux articles relatifs au travail de l’ICANN pour l’internationalisation des URL:

« Les adresses web s’ouvrent aux alphabets du monde ». [en ligne] Consulté le 22 juin 2010.

« Cliquez sur وزارة-الأتصالات.مصر ». [en ligne] Consulté le 22 juin 2010.

Documents officiels de l’ICANN sur le sujet :

Internationalized Domain Names. [en ligne] Consulté le 22 juin 2010.

ICANN Bringing the Languages of the World to the Global Internet. [en ligne] Consulté le 22 juin 2010.

Normes de translittération (1) : généralités

À  la différence de la transcription qui cherche à rendre prononçable les mots d’autres écritures en suivant des règles phonétiques qui changent selon chaque langue, la translittération prétend à l’universalité (être compréhensible par tous les usagers de l’alphabet latin, quelque soit leur langue de communication) et garantit la réversibilité (le retour vers l’écriture d’origine).

Panneau d'entrée en quatre langues dans la zone américaine, Berlin, Check Point Charlie.

– Une pratique inutile ?

La translittération était une pratique incontournable tant que les systèmes informatiques et les catalogues informatisés ne pouvaient pas prendre en charge les caractères des écritures non-latines : elle permettait, à l’aide d’un répertoire de caractères latin étendu utilisant des signes diacritiques, de transcrire les autres écritures. Avec la généralisation d’Unicode qui permet la saisie et le transfert de notices dans tous types d’écriture, on pourrait s’interroger sur la pertinence d’une pratique toujours en vigueur pour les mentions d’autorité, la zone de titre et l’adresse des documents. La translittération assure en fait une fonction de contrôle dans le cas où une interface ne prendrait pas en charge certaines écritures ; elle assure aussi une lisibilité minimale de la notice à un bibliothécaire qui devrait gérer des références sans parler la langue d’origine.

– Une normalisation incomplète

Le développement des catalogues informatisés interrogeables à distance et de catalogues collectifs a conduit à une mise à plat des normes utilisées pour la translittération des écritures non-latines en caractères latins.

Malgré l’effort de normalisation, les formes de translittération pratiquées en Europe continentale diffèrent des modalités adoptées aux États-Unis sous l’égide de la Bibliothèque du Congrès (translittération ALA-LC). Les normes de translittération utilisées en France sont diverses. Un travail d’harmonisation a été mené par le groupe de travail sur le catalogage des documents en caractères non-latin en 2002 mais on relève encore quelques discordances : ainsi pour le japonais (écriture en kana), l’ABES s’appuie sur la norme NF ISO 3602 :1990 qui suit le système Kunrei tandis que la BULAC recommande le système Hepburn modifié suivi également par la Bibliothèque du Congrès.

♦ Pour aller plus loin :

« Normes de translittération (2) : les difficultés en suspens », sur notre blog. [en ligne]

Le guide pratique du catalogueur édité par la BnF. [en ligne] Consulté le 14 juin 2010.

Les normes de translittération en France, sur le site de l’ABES [en ligne]. Consulté le 14 juin 2010.

Les normes de translittération utilisées par la BULAC [en ligne]. Consulté le 14 juin 2010.

CHEVRANT-BRETON, Philippe. « Rendre lisible l’illisible », BBF, 2007, n° 3, p. 29-35 [en ligne] Consulté le 14 juin 2010.

FÉDÉRATION INTERNATIONALE DES ASSOCIATIONS DE BIBLIOTHÉCAIRES ET DES BIBLIOTHÈQUES. ISBD(M) : Description bibliographique internationale normalisée des monographies. Revision de 2002. Paris : Bibliothèque nationale de France, 2003, p. 17, §0.6, l’annexe B, p. 64, précise les règles à suivre dans le cas d’écritures orientées de droite à gauche comme l’arabe ou l’hébreu [en ligne]. Consulté le 14 juin 2010.

MINISTÈRE DE L’ÉDUCATION NATIONALE. Catalogage des documents en caractères non latins : rapport du groupe de travail, rédigé par Danièle Duclos-Faure. Paris : 2002 [en ligne]. Consulté le 14 juin 2010.

SUCHET, Soline. Une langue étrange parmi les langues étrangères : paysage et intérêt de la lecture publique en chinois en France. Villeurbanne : ENSSIB, mémoire d’études DCB, 2008.

Normes de translittération (2) : les difficultés en suspens

"Panneau de signalisation bilingue (français et cri) avant d'entrer sur la Route de la Baie James au km 257"

« Panneau de signalisation bilingue (français et cri) avant d'entrer sur la Route de la Baie James au km 257 »

– Translittération et orthographes désuètes

La question du codage des caractères sortis d’usage se pose aux catalogueurs. Les normes de catalogage internationales (ISBD) imposent de retranscrire le titre et la mention de responsabilité d’un document dans la langue et l’écriture de l’original. L’usage adopté dans les différents répertoires catalographiques peut toutefois différer et être source de confusion. À titre d’exemple, pour le russe, différentes lettres de l’alphabet cyrillique ont été supprimées en 1918 par le pouvoir soviétique. Les bibliothèques, si elles suivent toutes la normes ISO-9 de translittération des caractères cyrilliques, ont parfois l’habitude de « convertir » ces mentions aux règles d’orthographe en usage depuis 1918. Ces divergences peuvent être source de doublons entre les notices d’un même document.

Par exemple, on trouve dans  le SUDOC deux règles de transcriptions différentes pour deux tomes de la même collection des œuvres de Léon Tolstoï  (titre seul, en double affichage) ; il s’agit des tome VII et VIII contenant la 3e et la 4e partie du roman Guerre et Paix. Les caractères concernés sont signalés en rouge:

Notice SUDOC n°134375696 (orthographe pré-1918)

Сочинения графа Л. Н. Толстого. Часть VIII, Война и Мир. IV [Texte imprimé]. – Изданіе восьмое

Sočineniâ grafa L. N. Tolstogo. Častʹ VIII, Vojna i Mir. IV [Texte imprimé]. – Izdanìe vosʹmoe

Notice SUDOC n°092133878 (orthographe modernisée)

Сочиненія графа Л. Н. Толстого. VII, Война и Мир. Т. III [Texte imprimé]. – Изданіе восьмое

Sočinenìâ grafa L. N. Tolstogo. VII, Vojna i Mir. T. III [Texte imprimé]. – Izdanìe vosʹmoe

La divergence de la transcription du « i » fausse donc la notice : un utilisateur qui cliquerait sur le lien actif proposé par le titre, ne retrouvera qu’une partie des tomes de l’édition des œuvres complètes de 1889. L’utilisateur averti devra donc copier et coller le titre dans la barre de recherche et remplacer les caractères litigieux par une troncature.

– L’agrégation des morphèmes des langues idéographiques asiatiques

Les langues idéographiques, comme le chinois, le coréen et le japonais sont translittérées en restituant les morphèmes (les sons) qui composent les différents caractères. Mais à la lecture de la transcription, il est difficile d’isoler la série de morphèmes qui retranscrivent un caractère de ceux du caractère suivant. Plusieurs pratiques existent : soit l’agrégation des morphèmes d’un même caractère, pour faciliter la lecture, soit la séparation totale des morphèmes. La pratique la plus courante est de retranscrire les langues asiatiques de façon non agrégée, sauf pour les noms propres, afin de faciliter le travail d’indexation. Toutefois, les pratiques catalographiques des bibliothèques ne sont pas toujours harmonisées, les pratiques ayant divergé selon les périodes de rétroconversion des catalogues papier ou de constitution des catalogues électroniques. Il y a là une source d’ambiguïté qui persiste.

♦ Pour aller plus loin :

Voir le billet « Normes de translittération (1) : généralités » sur notre blog