Parlez-vous l’Unicode ? : lexique

Pour parler et comprendre l’Unicode, quelques pré-requis sont nécessaires. Les définitions données ici permettront de faire ses premiers pas dans Unicode sans avoir l’impression d’être perdu dans une jungle de termes barbares ou étranges. Il s’agit en effet pour la plupart de substantifs qui existent dans la langue française courante (dans l’univers de la typographie par exemple), mais dans des acceptions moins techniques. C’est pourquoi il est préférable de préciser quelques nuances de sens dans le contexte d’Unicode au préalable, sans toutefois entrer dans les détails.

Les termes au sens proche mais qu’il convient de ne pas confondre sont expliqués les uns à la suite des autres : ce lexique suit donc plutôt la logique de groupements d’idées et non le traditionnel ordre alphabétique.

Nous nous sommes beaucoup inspirés de l’article d’Yves Desrichard dans le n° 3 du BBF de 2007, notamment pour les définitions proposées autour de la notion de «caractère», ainsi que de l’article de Philippe Chevrant-Breton dans  ce même numéro pour les définitions autour de la notion de « translittération ».

◊ ◊ ◊ ◊ ◊ ◊

Caractère : le plus petit composant du langage écrit ayant une valeur sémantique (d’après la définition donnée par le consortium Unicode : « the smallest component of written language that has semantic value »).

Glyphe : forme sous laquelle un caractère apparaît sur un support. Un glyphe peut donc représenter plusieurs caractères et inversement.

Codage : attribution d’une valeur lisible par un ordinateur (binaire) à chaque caractère.

Multitude de glyphes possibles pour les mêmes  caractères "a" et "A"

Multitude de glyphes possibles pour les mêmes caractères « a » et « A ».

– Concernant les « jeux de caractères »:

Jeu de caractères : Association entre un répertoire de caractères et les codages correspondants.

Répertoire de caractères : liste présentant un glyphe et un nom pour chaque caractère, avec éventuellement certaines caractéristiques d’utilisation du jeu de caractères correspondant, par rapport à lui.

◊ ◊ ◊ ◊ ◊ ◊

– A propos des « polices »:

Polices : « ensembles de glyphes pour un jeu de caractères donné ».

Fontes : sous-ensembles des polices qui constituent des « assortiments » de caractères dans une taille et des attributs particuliers (gras, italique, souligné). Différentes fontes peuvent ainsi correspondre à chaque police.

Dans la pratique informatique, à la distinction entre fontes et polices, désormais peu pertinente (en raison des modes particuliers de constitution des caractères qui varient selon la taille et la nature de l’attribut choisi), se substitue celle suivant le mode d’élaboration des glyphes, par la machine.

◊ ◊ ◊ ◊ ◊ ◊

Directionnalité : Unicode présente la particularité de définir, en même temps qu’il code les caractères, le sens dans lequel s’écrit et se lit la langue. C’est un algorithme bidirectionnel (d’où le terme de « classe bidi ») qui précise la façon dont un texte en arabe ou en hébreu doit s’afficher. On a ainsi un type directionnel « droite-à-gauche fort » pour les lettres arabes, syriaques, hébraïques… alors que les langues à caractères latins ou autres ont un type directionnel « gauche-à-droite fort ». Tous les caractères dits « neutres » (ponctuation, chiffres, espaces) ont une directionnalité qui varie : ils prennent celle des caractères qui les entourent ou, en cas de tension, celle qui est majoritaire dans le paragraphe où ils se trouvent.

♦ Pour plus d’informations sur la directionnalité, on peut se reporter à une explication de l’algorithme bidi.

◊ ◊ ◊ ◊ ◊ ◊

Autour des notions de « translittération » :

Translittération : opération qui consiste à représenter les caractères d’une écriture alphabétique ou syllabique par ceux d’un alphabet de conversion.

Retranslittération : opération inverse de la précédente, pour « reconstituer le texte translittéré sous sa forme originale ».

Transcription : opération qui consiste « à noter la prononciation d’une langue donnée au moyen du système de signes d’une langue de conversion », en respectant les conventions orthographiques de cette dernière. Elle est la seule méthode utilisable pour la représentation de systèmes « non entièrement alphabétiques ou syllabiques et pour toutes les écritures idéographiques », le chinois notamment.

Romanisation : Conversion d’écritures non latines en alphabet latin, par transcription, translittération, ou par un système mixte.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :