Carte heuristique autour d’Unicode

Cette carte a pour vocation de présenter sous forme graphique toutes les ressources que l’on peut mobiliser sur le Web à propos d’Unicode (et plus particulièrement à propos d’Unicode en bibliothèque).

Chaque branche principale privilégie une approche et des besoins d’utilisateurs différents :

Se renseigner sur Unicode recense des définitions générales de premier niveau et des ressources bibliographiques sur la question ;

Utiliser Unicode décline les outils nécessaires à la saisie ou à la lecture de textes dans un autre alphabet, tant pour les usagers des bibliothèques ou le grand public que pour les professionnels ayant à cataloguer des documents en caractères non latins ;

– Enfin, Quelles ressources pour quel alphabet vous offre un panorama des outils classés par langues ou alphabets non latin (asiatique, cyrillique, arabe et grec principalement).

Cliquez sur l’image pour ouvrir la carte et naviguer dans l’arborescence dynamique !

Carte heuristique sur Unicode en bibliothèque

Panorama des ressources recensées autour d'Unicode

Petite légende à l’intention des lecteurs qui ne sont pas familiers des cartes heuristiques :

– En cliquant sur les + et les placés aux embranchements, vous pouvez à l’envi naviguer dans l’arborescence et déployer plus ou moins chaque branche ;

– Une petite flèche  en haut à droite des bulles de la carte signifie qu’un lien actif vers un site ou une ressource en ligne prolonge la branche de la carte sur le Web ;

– Une petite « fiche » jaune placée dans la bulle ouvre une note explicative quand le curseur de la souris glisse dessus ;

– Un petit trombone dans une bulle indique qu’un document y est attaché.

Unicode pour les Nuls

Qui n’a jamais reçu un message électronique illisible ou essayé en vain d’afficher en caractères lisibles une page Internet où tous les caractères accentués sont remplacés par d’étranges combinaisons (comme « Ã© » pour les accents aigus), dans le meilleur des cas, quand des rectangles vides ne remplacent pas bonnement et simplement des caractères ou des symboles ?

Comment ça marche ?

Commençons par le commencement… et les principes fondamentaux de l’informatique. Toutes les données que nous voyons s’afficher sur les écrans de nos ordinateurs sont en réalité le résultat d’un codage en chiffres. L’informatique est basée sur le concept de langage binaire. Chaque chiffre binaire est appelé bit, un octet regroupant 8 bits. Aujourd’hui, la quasi totalité des microprocesseurs – les composants d’ordinateur exécutant les instructions – travaillent avec des mots de 8, 16, 32 ou 64 bits. Avec 2 bits, on peut avoir quatre « états » différents : 00, 01, 10, 11.  Avec 3 bits, huit états différents : 000, 001, 010, 011, 100, 101, 110, 111. Avec 8 bits, on aura 256 possibilités.

Un caractère est donc codé par une série de « 0 » ou de « 1 ».  Ainsi, en supposant des caractères définis sur un octet, la suite : 0111 0001 va définir la lettre « q » dans le codage ASCII sur 8 bits. C’est ce que l’on appelle le codage binaire du caractère.

Assez souvent, les logiciels de nos ordinateurs sont paramétrés sur un codage de 8 bits, c’est pour cela que l’on voit parfois apparaître dans les options de paramétrage le champ « UTF 8 » (pour UCS Transformation Format). C’est un des formats de codage les plus courants, qui gère tous les caractères Unicode dans les systèmes ASCII préexistants. Comme Monsieur Jourdain, nous faisons donc quotidiennement de l’Unicode sans le savoir, tout simplement parce que la mention « Unicode » se cache sous le pseudo d’ « UTF 8 » ! Deux autres formes de codage d’Unicode en UTF existent : UTF 32 et UTF 16. Par ailleurs, le standard Unicode se conforme à la norme ISO/CEI 1046 pour affecter (donner un numéro) et nommer les caractères.

On peut définir un jeu de caractères comme la combinaison entre un répertoire de caractères et les codages correspondants. Un répertoire de caractères, c’est une liste comportant un glyphe pour chaque caractère, un nom pour chaque caractère et éventuellement certaines caractéristiques d’utilisation de ce jeu de caractères par rapport au répertoire.

Avant l’invention d’Unicode, des centaines de systèmes de codage de caractères ont été créés, souvent incompatibles entre eux. Lorsque mon ordinateur affiche de manière altérée des caractères accentués, c’est qu’il utilise pour lire l’information un autre standard d’encodage que celui avec lequel elle a été codée.

Unicode et ses apports

Le standard Unicode constitue une révolution car il spécifie un numéro unique pour chaque caractère, quelle que soit la plate-forme, quel que soit le logiciel et quelle que soit la langue. Son originalité réside dans le fait qu’il prend en charge à la fois la gestion du codage, la directionnalité (c’est-à-dire qu’il gère aussi bien les langues s’écrivant de gauche à droite que celles, comme l’hébreu, s’écrivant de droite à gauche) et les caractères écrits de façon différente selon leur position dans le mot (en arabe, par exemple). Unicode définit des conversions exactes entre son répertoire et d’autres normes largement répandues.

D’un point de vue économique, Unicode permet donc aux développeurs et vendeurs de logiciels informatique de viser un marché international, puisque les métadonnées, grâce à Unicode, deviennent lisibles partout, car tous les caractères utilisés dans toutes les langues du monde peuvent être codés en Unicode.

Unicode, c’est donc l’universalité, l’unicité, l’efficacité, la stabilité, la convertibilité.

« Abece : Dorbs un rutala myusu barnim / pa I. Ritina paraugim sast. latgalisu skolu darbiniki; - Pleskava, 1920 ».

♦ Pour aller plus loin :

Pour en savoir plus sur les applications pratiques d’Unicode, consulter sur notre blog les billets sur les claviers virtuels et les applications pratiques d’Unicode sur Internet.

Un vaste répertoire en ligne de fontes Unicode. Consulté le 23 juin 2010.

Une base de données des glyphes spécifiques aux différentes langues utilisant alphabet latin ou cyrillique. Consulté le 23 juin 2010.

Le site personnel d’Alan Wood, avec pages de tests, conseils et liens vers les polices permettant d’afficher les blocs d’Unicode. Consulté le 23 juin 2010.

Un site proposant les images de l’ensemble des caractères d’Unicode. Consulté le 23 juin 2010.

L’article de Wikipédia sur Unicode. [en ligne] Consulté le 23 juin 2010.

ANDRIES, Patrick. « Introduction à Unicode et à l’ISO 10646 ». Document numérique, 2002/3-4, Volume 6, p. 51-88. [en ligne] Consulté le 05 juin 2010.

ANDRIES, Patrick. « Unicode ». Encyclopédie Larousse en ligne, 15 avril 2008. [en ligne] Consulté le 6 juin 2010.

ANDRIES, Patrick. Unicode 5.O en pratique : codage des caractères et internationalisation des logiciels et des documents. Paris, Dunod, 2008, 399 p.

CONSORTIUM UNICODE. The Unicode Standard, Version 5.0. Addison-Wesley, Boston, 2007, 1 472 p.

DESRICHARD, Yves. « Petit précis de codage des caractères ». BBF, 2007, n° 3, p. 22-27. [en ligne] Consulté le 16 juin 2010.

Fiche pratique : Unicode au quotidien

Après une petite mise au point dans « Unicode pour les Nuls », voici une présentation du versant « pratique » d’Unicode, applicable aussi bien dans un traitement de texte que dans un logiciel de messagerie, au quotidien (car ces outils font aussi partie de l’ordinaire des bibliothèques !). Pour ce billet, le guide Unicode 5.0 en pratique : codage des caractères et internationaliation des logiciels et des documents de Patrick Andries nous a été très utile.

Ma police est-elle « Unicode-compatible » ?

Il existe plusieurs façon de vérifier que notre police préférée peut être utilisée avec des textes Unicode. Pour les ordinateurs qui tournent sous Windows, il faut au préalable télécharger et installer librement un logiciel Microsoft. Une fois ces étapes franchies, il suffit d’aller sur une police (dans le répertoire « Polices » du panneau de configuration), de faire apparaître le menu contextuel en faisant un clic droit et de choisir « Propriétés ». Une boîte de dialogue apparaît. Il convient de choisir l’onglet « CharSet / Unicode » pour vérifier que le premier encadré porte bien une mention du type « Font Encoding Type : Unicode ISO 10646-2 ». Les encarts suivants dans la fenêtre indiquent quels caractères cette police supporte  (latins mais aussi bien souvent cyrilliques, grecs, turcs etc.).

Pour les addicts d’autres systèmes d’exploitation que Windows, il existe une deuxième solution pour vérifier que l’on utilise une police « Unicode-compatible », grâce à l‘outil « BabelMap » (répertorié dans les signets, rubrique Outils). Il faut le télécharger, puis l’installer et le démarrer. Allez dans « Outils » puis « Analyse de police ». Il est alors possible d’analyser la police et de voir tous les blocs Unicode qu’elle prend en charge. Si les caractères affichés pour un bloc dans « L’échantillon de texte » présenté en dessous ne correspondent pas aux noms de caractères (par exemple : vous voyez des caractères en arabe quand l’intitulé parle de « latin… »), votre police n’est pas Unicode-compatible.

NB : cette interface, contrairement à celle de Microsoft, est entièrement traduite en français !

Comment saisir des caractères Unicode ?

Il existe plusieurs possibilités pour saisir des caractères Unicode, selon le logiciel, la plate-forme, le document que l’on veut rédiger. Nous ne parlons pas ici des langues idéographiques, qui disposent de ressources supplémentaires.

– La méthode la plus simple consiste à utiliser le clavier « normal », grâce à une combinaison de touches affectée à un caractère. Cette combinaison comprends souvent les touches « Alt », « Alt Gr » ou « Ctrl ». Ainsi, la valeur hexadécimale correspondant à « È » est « Alt+0200 ». Néanmoins, si cette méthode est facile à maîtriser, elle n’est valable que lorsqu’on utilise un petit nombre de caractères Unicode de façon très courante. Dans le cas inverse, retenir de mémoire toutes les combinaisons attachées aux caractères devient vite un casse-tête.

– La technique de l’appel de caractères s’approche beaucoup, dans la méthode et les inconvénients,  de ce premier mode de saisie. Il s’agit d’appeler un caractère en composant son code sous forme de chaîne de caractères (par exemple « &#x00c8 » correspond à un « È », qui sera réinterprété comme tel dans les éditeurs HTML et XML).

– Pour contourner cette difficulté mnémotechnique, certains logiciels proposent un menu (c’est le cas de l’éditeur HTML de Mozilla, Composeur, par exemple), dans lequel il faut aller chercher l’option qui insère un caractère choisit. Cela peut également devenir rapidement fastidieux, d’autant plus que souvent, les éditeurs ne proposent qu’un nombre de caractères très limité.

– La technique de la sélection à partir d’un tableau (comme dans la version gratuite de WordPress par exemple) s’en approche beaucoup : à travers un menu, on appelle une grille,  dans laquelle on choisit le caractère que l’on veut. Contrairement au simple menu décrit précédemment, le choix est plus étendu. C’est le cas sous Open Office, quand on fait « Insertion / Caractères spéciaux ».

– Enfin, mixant la solution « tableau »  à l’écran et utilisation du clavier via une combinaison de touches, la technique du clavier virtuel a tendance à se développer, comme nous l’avons détaillé dans un autre billet qui traite aussi de l’utilisation de ce type de matériel en bibliothèque.

♦ Pour aller plus loin :

ANDRIES, Patrick. Unicode 5.O en pratique : codage des caractères et internationalisation des logiciels et des documents. Paris, Dunod, 2008, 399 p.

L’outil BabelMap, à télécharger gratuitement.

Unicode : les problèmes encore en suspens

Si Unicode semble bien constituer une révolution en matière de codage des caractères, un certain nombre de points demeurent non résolus:

Le débat sur la translittération

Les « contre » arguent que les usagers qui savent lire la translittération connaissent aussi la langue originale. D’ailleurs, les normes, bien qu’en voie d’harmonisation dans les différents établissements, n’existent pas pour toutes les langues. Les « pour » voient au contraire dans la translittération une manière d’améliorer l’accessibilité et la lisibilité pour l’usager.

Une translittération automatique encore difficile

Des tables établies par la BIULO (Bibliothèque Interuniversitaire des Langues Orientales) sont disponibles pour les caractères cyrilliques (dans les deux sens) et en arabe vers la langue originale. Elles permettent de faire fonctionner la translittération de manière automatique. Mais la plupart des langues n’ont pas fait l’objet d’un tel travail. Unicode pose aussi question dans la mesure où il traite de caractères et non de glyphes. Or plusieurs langues qui partagent la même écriture n’utilisent pas forcément les mêmes glyphes, de même que certaines écritures peuvent prendre diverses formes.

-Améliorer la directionalité

Le problème concerne les langues se lisant de droite à gauche. Il n’est pas besoin de définir la directionalité puisque chaque caractère a des propriétés d’affichage. On peut même mélanger les caractères au sein d’une même notice. Mais certains caractères, comme les chiffres, ont des propriétés de directionalité faibles et s’intègrent mal. Le Sudoc s’est bien amélioré sur le sujet mais des progrès sont encore à faire.

-L’insuffisance des claviers

Les claviers virtuels doivent être testés, voir nettement améliorés. L’édition des claviers reste souvent complexe. Il s’agit de faire correspondre les signes et ressources d’une langue source avec la configuration clavier spécifique d’une autre langue cible. La plupart du temps, on ne dispose que des correspondances de la langue source avec le qwerty américain ! En l’absence des ressources claviers spécifiques, qui ont peu de chances d’être développées, pour des raisons mercantiles, il est à craindre que leur expression soit fortement handicapée par la nécessité de naviguer, à la saisie, entre des blocs différents.

-Les débats de fond

Certains soulignent le fait qu’Unicode n’est pas une norme internationale, mais un standard établi par un consortium à vocation commerciale dominé par des entreprises américaines. A ce titre, l’entreprise ne serait pas dénuée d’arrière-pensées ethnocentriques (plus faible représentation des langues d’Afrique ou d’Asie, à moindre enjeu économique ; perpétuation d’archaïsmes typographiques manifestant l’hégémonie culturelle de certaines nations ; découpage contestable des langues en blocs séparés) et mercantiles (intégration de caractères propriétaires, mépris des besoins du compositeur au profit de l’utilisateur bureautique, volonté finale de faire du texte un matériau dont on gère les flux et les traitements comme ceux de n’importe quel autre produit).

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet. Disponible sur Wikimedia.org, libre de droits

Billet de banque de l’Indochine coloniale (100 piastres) présentant 4 alphabets, par Pyvanet.

♦ Pour aller plus loin :

HARALAMBOUS, Yannis. « Unicode et typographie : un amour impossible ». Document numérique, 2002/3-4, Volume 6, p. 105-137. [en ligne] Consulté le 12 juin 2010.

RANDIER, Olivier. « Unicode : tentations et limites. L’avis d’un typographe ». Document numérique, 2002/3-4, Volume 6, p. 89-103. [en ligne] Consulté le 12 juin 2010.

Les claviers virtuels et leur utilisation en bibliothèque

Clavier virtuel russe, en cyrillique

Clavier virtuel russe, en cyrillique

Les claviers virtuels sont des « pilotes logiciels qui réassignent aux touches d’un clavier matériel des valeurs différentes de celles qui y sont représentées » (V. Hachard). Ils permettent donc d’entrer les caractères de presque toutes les écritures, à partir de n’importe quel ordinateur, en cliquant sur les représentations des caractères de l’alphabet choisi. Désormais proposés librement par de nombreux sites internet de qualité, ils sont de plus en plus simples d’utilisation. Pour la saisie des milliers de caractères des langues chinoise, japonaise et coréenne dites CJK, existent des logiciels spécifiques comme l’Input method editor (IME) développé par Microsoft et jugé « plus facilement généralisable » par Vincent Hachard. Plusieurs de ces programmes sont fournis avec MS Internet Explorer 5+ ou Windows 2000+. Un outil de modification des pilotes de clavier est également téléchargeable en ligne sur une page du site de Microsoft. L’IME lancé récemment par Google, même s’il est librement disponible pour 19 langues (dont l’arabe, le grec, et le russe) ne prend actuellement pas en charge les CJK.

L’ensemble de ces outils constitue pour les bibliothèques dont le catalogue permet, grâce à l’utilisation d’Unicode, une interrogation à l’aide de caractères non latins, une alternative privilégiée à l’acquisition de claviers dans les différentes langues représentées dans ses fonds. Ainsi, la bibliothèque municipale internationale de Grenoble, qui ne dispose dans sa salle de lecture que d’un seul clavier en arabe pour l’interrogation des notices de ses fonds dans la langue, recommande à ses usagers l’utilisation des claviers virtuels proposés par le site Lexilogos.

La BULAC, particulièrement concernée en raison de la nature de ses fonds et grâce à la hauteur de ses moyens, travaille, quant à elle, à l’amélioration des claviers virtuels, sur certains points encore insuffisants : complexité d’utilisation encore trop importante, problèmes de correspondance avec des claviers azerty…

Clavier virtuel hébreu

Clavier virtuel hébreu

Pour aller plus loin :

ANDRIES, Patrick. Unicode 5.0 en pratique : codage des caractères et internationalisation des logiciels et des documents. Paris : DUNOD, 2008, 399 p.

« Enjeux et défis d’un système de catalogage multilingue et multiécriture ». Arabesques, Agence bibliographique de l’enseignement supérieur, n° 35, juillet-août-septembre 2004, p. 12-16. [en ligne] Consulté le 21 juin 2010.

Outils:

The Microsoft Keyboard Layout Creator. [en ligne] Consulté le 22 juin 2010.

L’IME proposé par Google. [en ligne] Consulté le 22 juin 2010.

Claviers multilingues proposés par Richard Ishida (W3C). [en ligne] Consulté le 22 juin 2010.

Claviers virtuels sur le site Lexilogos. [en ligne] Consulté le 22 juin 2010.

Keyman, logiciel de gestion de claviers. [en ligne] Consulté le 22 juin 2010.