Carte heuristique autour d’Unicode

Cette carte a pour vocation de présenter sous forme graphique toutes les ressources que l’on peut mobiliser sur le Web à propos d’Unicode (et plus particulièrement à propos d’Unicode en bibliothèque).

Chaque branche principale privilégie une approche et des besoins d’utilisateurs différents :

Se renseigner sur Unicode recense des définitions générales de premier niveau et des ressources bibliographiques sur la question ;

Utiliser Unicode décline les outils nécessaires à la saisie ou à la lecture de textes dans un autre alphabet, tant pour les usagers des bibliothèques ou le grand public que pour les professionnels ayant à cataloguer des documents en caractères non latins ;

– Enfin, Quelles ressources pour quel alphabet vous offre un panorama des outils classés par langues ou alphabets non latin (asiatique, cyrillique, arabe et grec principalement).

Cliquez sur l’image pour ouvrir la carte et naviguer dans l’arborescence dynamique !

Carte heuristique sur Unicode en bibliothèque

Panorama des ressources recensées autour d'Unicode

Petite légende à l’intention des lecteurs qui ne sont pas familiers des cartes heuristiques :

– En cliquant sur les + et les placés aux embranchements, vous pouvez à l’envi naviguer dans l’arborescence et déployer plus ou moins chaque branche ;

– Une petite flèche  en haut à droite des bulles de la carte signifie qu’un lien actif vers un site ou une ressource en ligne prolonge la branche de la carte sur le Web ;

– Une petite « fiche » jaune placée dans la bulle ouvre une note explicative quand le curseur de la souris glisse dessus ;

– Un petit trombone dans une bulle indique qu’un document y est attaché.

Unicode pour les Nuls

Qui n’a jamais reçu un message électronique illisible ou essayé en vain d’afficher en caractères lisibles une page Internet où tous les caractères accentués sont remplacés par d’étranges combinaisons (comme « Ã© » pour les accents aigus), dans le meilleur des cas, quand des rectangles vides ne remplacent pas bonnement et simplement des caractères ou des symboles ?

Comment ça marche ?

Commençons par le commencement… et les principes fondamentaux de l’informatique. Toutes les données que nous voyons s’afficher sur les écrans de nos ordinateurs sont en réalité le résultat d’un codage en chiffres. L’informatique est basée sur le concept de langage binaire. Chaque chiffre binaire est appelé bit, un octet regroupant 8 bits. Aujourd’hui, la quasi totalité des microprocesseurs – les composants d’ordinateur exécutant les instructions – travaillent avec des mots de 8, 16, 32 ou 64 bits. Avec 2 bits, on peut avoir quatre « états » différents : 00, 01, 10, 11.  Avec 3 bits, huit états différents : 000, 001, 010, 011, 100, 101, 110, 111. Avec 8 bits, on aura 256 possibilités.

Un caractère est donc codé par une série de « 0 » ou de « 1 ».  Ainsi, en supposant des caractères définis sur un octet, la suite : 0111 0001 va définir la lettre « q » dans le codage ASCII sur 8 bits. C’est ce que l’on appelle le codage binaire du caractère.

Assez souvent, les logiciels de nos ordinateurs sont paramétrés sur un codage de 8 bits, c’est pour cela que l’on voit parfois apparaître dans les options de paramétrage le champ « UTF 8 » (pour UCS Transformation Format). C’est un des formats de codage les plus courants, qui gère tous les caractères Unicode dans les systèmes ASCII préexistants. Comme Monsieur Jourdain, nous faisons donc quotidiennement de l’Unicode sans le savoir, tout simplement parce que la mention « Unicode » se cache sous le pseudo d’ « UTF 8 » ! Deux autres formes de codage d’Unicode en UTF existent : UTF 32 et UTF 16. Par ailleurs, le standard Unicode se conforme à la norme ISO/CEI 1046 pour affecter (donner un numéro) et nommer les caractères.

On peut définir un jeu de caractères comme la combinaison entre un répertoire de caractères et les codages correspondants. Un répertoire de caractères, c’est une liste comportant un glyphe pour chaque caractère, un nom pour chaque caractère et éventuellement certaines caractéristiques d’utilisation de ce jeu de caractères par rapport au répertoire.

Avant l’invention d’Unicode, des centaines de systèmes de codage de caractères ont été créés, souvent incompatibles entre eux. Lorsque mon ordinateur affiche de manière altérée des caractères accentués, c’est qu’il utilise pour lire l’information un autre standard d’encodage que celui avec lequel elle a été codée.

Unicode et ses apports

Le standard Unicode constitue une révolution car il spécifie un numéro unique pour chaque caractère, quelle que soit la plate-forme, quel que soit le logiciel et quelle que soit la langue. Son originalité réside dans le fait qu’il prend en charge à la fois la gestion du codage, la directionnalité (c’est-à-dire qu’il gère aussi bien les langues s’écrivant de gauche à droite que celles, comme l’hébreu, s’écrivant de droite à gauche) et les caractères écrits de façon différente selon leur position dans le mot (en arabe, par exemple). Unicode définit des conversions exactes entre son répertoire et d’autres normes largement répandues.

D’un point de vue économique, Unicode permet donc aux développeurs et vendeurs de logiciels informatique de viser un marché international, puisque les métadonnées, grâce à Unicode, deviennent lisibles partout, car tous les caractères utilisés dans toutes les langues du monde peuvent être codés en Unicode.

Unicode, c’est donc l’universalité, l’unicité, l’efficacité, la stabilité, la convertibilité.

« Abece : Dorbs un rutala myusu barnim / pa I. Ritina paraugim sast. latgalisu skolu darbiniki; - Pleskava, 1920 ».

♦ Pour aller plus loin :

Pour en savoir plus sur les applications pratiques d’Unicode, consulter sur notre blog les billets sur les claviers virtuels et les applications pratiques d’Unicode sur Internet.

Un vaste répertoire en ligne de fontes Unicode. Consulté le 23 juin 2010.

Une base de données des glyphes spécifiques aux différentes langues utilisant alphabet latin ou cyrillique. Consulté le 23 juin 2010.

Le site personnel d’Alan Wood, avec pages de tests, conseils et liens vers les polices permettant d’afficher les blocs d’Unicode. Consulté le 23 juin 2010.

Un site proposant les images de l’ensemble des caractères d’Unicode. Consulté le 23 juin 2010.

L’article de Wikipédia sur Unicode. [en ligne] Consulté le 23 juin 2010.

ANDRIES, Patrick. « Introduction à Unicode et à l’ISO 10646 ». Document numérique, 2002/3-4, Volume 6, p. 51-88. [en ligne] Consulté le 05 juin 2010.

ANDRIES, Patrick. « Unicode ». Encyclopédie Larousse en ligne, 15 avril 2008. [en ligne] Consulté le 6 juin 2010.

ANDRIES, Patrick. Unicode 5.O en pratique : codage des caractères et internationalisation des logiciels et des documents. Paris, Dunod, 2008, 399 p.

CONSORTIUM UNICODE. The Unicode Standard, Version 5.0. Addison-Wesley, Boston, 2007, 1 472 p.

DESRICHARD, Yves. « Petit précis de codage des caractères ». BBF, 2007, n° 3, p. 22-27. [en ligne] Consulté le 16 juin 2010.

Normes de translittération (1) : généralités

À  la différence de la transcription qui cherche à rendre prononçable les mots d’autres écritures en suivant des règles phonétiques qui changent selon chaque langue, la translittération prétend à l’universalité (être compréhensible par tous les usagers de l’alphabet latin, quelque soit leur langue de communication) et garantit la réversibilité (le retour vers l’écriture d’origine).

Panneau d'entrée en quatre langues dans la zone américaine, Berlin, Check Point Charlie.

– Une pratique inutile ?

La translittération était une pratique incontournable tant que les systèmes informatiques et les catalogues informatisés ne pouvaient pas prendre en charge les caractères des écritures non-latines : elle permettait, à l’aide d’un répertoire de caractères latin étendu utilisant des signes diacritiques, de transcrire les autres écritures. Avec la généralisation d’Unicode qui permet la saisie et le transfert de notices dans tous types d’écriture, on pourrait s’interroger sur la pertinence d’une pratique toujours en vigueur pour les mentions d’autorité, la zone de titre et l’adresse des documents. La translittération assure en fait une fonction de contrôle dans le cas où une interface ne prendrait pas en charge certaines écritures ; elle assure aussi une lisibilité minimale de la notice à un bibliothécaire qui devrait gérer des références sans parler la langue d’origine.

– Une normalisation incomplète

Le développement des catalogues informatisés interrogeables à distance et de catalogues collectifs a conduit à une mise à plat des normes utilisées pour la translittération des écritures non-latines en caractères latins.

Malgré l’effort de normalisation, les formes de translittération pratiquées en Europe continentale diffèrent des modalités adoptées aux États-Unis sous l’égide de la Bibliothèque du Congrès (translittération ALA-LC). Les normes de translittération utilisées en France sont diverses. Un travail d’harmonisation a été mené par le groupe de travail sur le catalogage des documents en caractères non-latin en 2002 mais on relève encore quelques discordances : ainsi pour le japonais (écriture en kana), l’ABES s’appuie sur la norme NF ISO 3602 :1990 qui suit le système Kunrei tandis que la BULAC recommande le système Hepburn modifié suivi également par la Bibliothèque du Congrès.

♦ Pour aller plus loin :

« Normes de translittération (2) : les difficultés en suspens », sur notre blog. [en ligne]

Le guide pratique du catalogueur édité par la BnF. [en ligne] Consulté le 14 juin 2010.

Les normes de translittération en France, sur le site de l’ABES [en ligne]. Consulté le 14 juin 2010.

Les normes de translittération utilisées par la BULAC [en ligne]. Consulté le 14 juin 2010.

CHEVRANT-BRETON, Philippe. « Rendre lisible l’illisible », BBF, 2007, n° 3, p. 29-35 [en ligne] Consulté le 14 juin 2010.

FÉDÉRATION INTERNATIONALE DES ASSOCIATIONS DE BIBLIOTHÉCAIRES ET DES BIBLIOTHÈQUES. ISBD(M) : Description bibliographique internationale normalisée des monographies. Revision de 2002. Paris : Bibliothèque nationale de France, 2003, p. 17, §0.6, l’annexe B, p. 64, précise les règles à suivre dans le cas d’écritures orientées de droite à gauche comme l’arabe ou l’hébreu [en ligne]. Consulté le 14 juin 2010.

MINISTÈRE DE L’ÉDUCATION NATIONALE. Catalogage des documents en caractères non latins : rapport du groupe de travail, rédigé par Danièle Duclos-Faure. Paris : 2002 [en ligne]. Consulté le 14 juin 2010.

SUCHET, Soline. Une langue étrange parmi les langues étrangères : paysage et intérêt de la lecture publique en chinois en France. Villeurbanne : ENSSIB, mémoire d’études DCB, 2008.

Normes de translittération (2) : les difficultés en suspens

"Panneau de signalisation bilingue (français et cri) avant d'entrer sur la Route de la Baie James au km 257"

« Panneau de signalisation bilingue (français et cri) avant d'entrer sur la Route de la Baie James au km 257 »

– Translittération et orthographes désuètes

La question du codage des caractères sortis d’usage se pose aux catalogueurs. Les normes de catalogage internationales (ISBD) imposent de retranscrire le titre et la mention de responsabilité d’un document dans la langue et l’écriture de l’original. L’usage adopté dans les différents répertoires catalographiques peut toutefois différer et être source de confusion. À titre d’exemple, pour le russe, différentes lettres de l’alphabet cyrillique ont été supprimées en 1918 par le pouvoir soviétique. Les bibliothèques, si elles suivent toutes la normes ISO-9 de translittération des caractères cyrilliques, ont parfois l’habitude de « convertir » ces mentions aux règles d’orthographe en usage depuis 1918. Ces divergences peuvent être source de doublons entre les notices d’un même document.

Par exemple, on trouve dans  le SUDOC deux règles de transcriptions différentes pour deux tomes de la même collection des œuvres de Léon Tolstoï  (titre seul, en double affichage) ; il s’agit des tome VII et VIII contenant la 3e et la 4e partie du roman Guerre et Paix. Les caractères concernés sont signalés en rouge:

Notice SUDOC n°134375696 (orthographe pré-1918)

Сочинения графа Л. Н. Толстого. Часть VIII, Война и Мир. IV [Texte imprimé]. – Изданіе восьмое

Sočineniâ grafa L. N. Tolstogo. Častʹ VIII, Vojna i Mir. IV [Texte imprimé]. – Izdanìe vosʹmoe

Notice SUDOC n°092133878 (orthographe modernisée)

Сочиненія графа Л. Н. Толстого. VII, Война и Мир. Т. III [Texte imprimé]. – Изданіе восьмое

Sočinenìâ grafa L. N. Tolstogo. VII, Vojna i Mir. T. III [Texte imprimé]. – Izdanìe vosʹmoe

La divergence de la transcription du « i » fausse donc la notice : un utilisateur qui cliquerait sur le lien actif proposé par le titre, ne retrouvera qu’une partie des tomes de l’édition des œuvres complètes de 1889. L’utilisateur averti devra donc copier et coller le titre dans la barre de recherche et remplacer les caractères litigieux par une troncature.

– L’agrégation des morphèmes des langues idéographiques asiatiques

Les langues idéographiques, comme le chinois, le coréen et le japonais sont translittérées en restituant les morphèmes (les sons) qui composent les différents caractères. Mais à la lecture de la transcription, il est difficile d’isoler la série de morphèmes qui retranscrivent un caractère de ceux du caractère suivant. Plusieurs pratiques existent : soit l’agrégation des morphèmes d’un même caractère, pour faciliter la lecture, soit la séparation totale des morphèmes. La pratique la plus courante est de retranscrire les langues asiatiques de façon non agrégée, sauf pour les noms propres, afin de faciliter le travail d’indexation. Toutefois, les pratiques catalographiques des bibliothèques ne sont pas toujours harmonisées, les pratiques ayant divergé selon les périodes de rétroconversion des catalogues papier ou de constitution des catalogues électroniques. Il y a là une source d’ambiguïté qui persiste.

♦ Pour aller plus loin :

Voir le billet « Normes de translittération (1) : généralités » sur notre blog

Unicode : les problèmes encore en suspens

Si Unicode semble bien constituer une révolution en matière de codage des caractères, un certain nombre de points demeurent non résolus:

Le débat sur la translittération

Les « contre » arguent que les usagers qui savent lire la translittération connaissent aussi la langue originale. D’ailleurs, les normes, bien qu’en voie d’harmonisation dans les différents établissements, n’existent pas pour toutes les langues. Les « pour » voient au contraire dans la translittération une manière d’améliorer l’accessibilité et la lisibilité pour l’usager.

Une translittération automatique encore difficile

Des tables établies par la BIULO (Bibliothèque Interuniversitaire des Langues Orientales) sont disponibles pour les caractères cyrilliques (dans les deux sens) et en arabe vers la langue originale. Elles permettent de faire fonctionner la translittération de manière automatique. Mais la plupart des langues n’ont pas fait l’objet d’un tel travail. Unicode pose aussi question dans la mesure où il traite de caractères et non de glyphes. Or plusieurs langues qui partagent la même écriture n’utilisent pas forcément les mêmes glyphes, de même que certaines écritures peuvent prendre diverses formes.

-Améliorer la directionalité

Le problème concerne les langues se lisant de droite à gauche. Il n’est pas besoin de définir la directionalité puisque chaque caractère a des propriétés d’affichage. On peut même mélanger les caractères au sein d’une même notice. Mais certains caractères, comme les chiffres, ont des propriétés de directionalité faibles et s’intègrent mal. Le Sudoc s’est bien amélioré sur le sujet mais des progrès sont encore à faire.

-L’insuffisance des claviers

Les claviers virtuels doivent être testés, voir nettement améliorés. L’édition des claviers reste souvent complexe. Il s’agit de faire correspondre les signes et ressources d’une langue source avec la configuration clavier spécifique d’une autre langue cible. La plupart du temps, on ne dispose que des correspondances de la langue source avec le qwerty américain ! En l’absence des ressources claviers spécifiques, qui ont peu de chances d’être développées, pour des raisons mercantiles, il est à craindre que leur expression soit fortement handicapée par la nécessité de naviguer, à la saisie, entre des blocs différents.

-Les débats de fond

Certains soulignent le fait qu’Unicode n’est pas une norme internationale, mais un standard établi par un consortium à vocation commerciale dominé par des entreprises américaines. A ce titre, l’entreprise ne serait pas dénuée d’arrière-pensées ethnocentriques (plus faible représentation des langues d’Afrique ou d’Asie, à moindre enjeu économique ; perpétuation d’archaïsmes typographiques manifestant l’hégémonie culturelle de certaines nations ; découpage contestable des langues en blocs séparés) et mercantiles (intégration de caractères propriétaires, mépris des besoins du compositeur au profit de l’utilisateur bureautique, volonté finale de faire du texte un matériau dont on gère les flux et les traitements comme ceux de n’importe quel autre produit).

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet. Disponible sur Wikimedia.org, libre de droits

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet.

♦ Pour aller plus loin :

HARALAMBOUS, Yannis. « Unicode et typographie : un amour impossible ». Document numérique, 2002/3-4, Volume 6, p. 105-137. [en ligne] Consulté le 12 juin 2010.

RANDIER, Olivier. « Unicode : tentations et limites. L’avis d’un typographe ». Document numérique, 2002/3-4, Volume 6, p. 89-103. [en ligne] Consulté le 12 juin 2010.

Unicode et numérisation des textes anciens

Le répertoire de caractères géré par le jeu Unicode offre des possibilités de codage pour un très grand nombre de caractères et réserve de très nombreux codes pour des extensions futures. Les possibilités offertes par ce jeu de caractères dépassent donc la simple transcription des écritures actuellement en usage, des symboles mathématiques ou des caractères de commande.

Ces potentialités sont notamment exploitées pour la numérisation des documents anciens. Cette numérisation, qui repose sur un procédé de reconnaissance automatisé des caractères (OCR – Optical Character Recognition), traduit en glyphes codés les caractères utilisés dans les documents anciens. Plusieurs projets visent donc à compléter le répertoire du jeu Unicode pour y intégrer des symboles et des caractères aujourd’hui disparus, notamment dans les manuscrits médiévaux.

Exemple de caractères anciens trouvés dans des manuscrits

Exemple de caractères anciens trouvés dans des manuscrits.

Le principal projet dans ce domaine est le Medieval Unicode Font Initiative (MUFI), animé depuis 2001 par des spécialistes universitaires des documents médiévaux qui développent des codes de caractères disparus au sein de la zone des codes réservés de la version 5.0 d’Unicode. Le projet a donc à la fois un rôle de proposition de nouveaux codes et de coordination des efforts de codage dans le domaine des écritures médiévales. 152 caractères médiévaux ont été intégrés officiellement dans la version 5.1 d’Unicode de juin 2008. Le dernier répertoire élaboré par le MUFI, la version 3.0, datée de juin 2009 rassemble 1 548 caractères rassemblés à titre provisoire dans la zone des caractères à usage privé d’Unicode. MUFI se concentre sur le codage des écritures des manuscrits latins. Le projet KODEKS développe des codages, des normes de translittération et des polices pour les manuscrits slaves, Menota pour les manuscrits scandinaves.

En complément à ce projet, plusieurs polices adaptées à ce répertoire Unicode sont développées, comme Cardo ou Junicode.

Pour aller plus loin :

ANDRÉ, Jacques. « Numérisation et codage des caractères de livres anciens ». Document numérique 3/2003 (Volume 7), p. 127-142. [en ligne] Consulté le 16 juin 2010.

The Menota handbook. Guidelines for the electronic encoding of Medieval Nordic primary sources. [en ligne] Consulté le 16 juin 2010.