Unicode – Un historique

Unicode se présente comme l’aboutissement et l’ultime unification d’une réflexion ancienne sur les caractères et leur codage.

Le codage des caractères est fondé sur la mise en correspondance d’un code et d’un caractère. Les premières applications télégraphiques de transmission à distance de caractères d’écriture (Chappe 1793, Morse 1844) utilisèrent des codages conventionnels. Le premier jeu de caractères au sens moderne fut élaboré pour le Télex : basé sur 6 bits, il permettait donc le codage de 64 caractères, tandis que la première norme internationale, ASCII (American Standard Coded Information Interchange), date quant à elle de 1967. Basée sur 7 bits (128 caractères), elle reste très utilisée, puisque la majorité des jeux de caractères se servent, pour les caractères inclus dans cette norme, des mêmes combinaisons binaires.

À la suite d’ASCII, des dizaines de jeux de caractères ont été créés, permettant de coder des écritures très différentes d’une manière satisfaisante. La norme ISO-Latin-1 (ou ISO 8859-1) donne ainsi la possibilité de coder 256 caractères, couvrant la plupart des langues d’Europe occidentale. Mais des problèmes existaient : ambiguïté des polices utilisant les mêmes valeurs pour coder des caractères et des symboles totalement différents, et surtout cacophonie générée par l’utilisation de multiples jeux de caractères incompatibles.

La Pierre de Rosette, comportant le même texte en hiéroglyphes, en démotique et en grec

La Pierre de Rosette, comportant le même texte en hiéroglyphes, en démotique et en grec

C’est pour résoudre ces problèmes que le consortium Unicode, créé en 1989 par de grandes sociétés informatiques, a mis au point le standard Unicode (première norme publiée en 1991). Ce mécanisme universel de codage de caractères définit une manière cohérente de coder des textes multilingues et facilite l’échange de données textuelles.

Aujourd’hui, Unicode figure dans tous les grands langages informatiques et applications logicielles, de Java à XML, en passant par Google et Windows, dès lors qu’un usager lit ou écrit quelque chose sur un ordinateur. En vingt ans d’existence, Unicode a ainsi opéré une réelle révolution en matière de fonctionnement et de communication informatique, en raccourcissant et en simplifiant les problèmes de traduction, et donc de diffusion dans le monde, des textes et applications. Maintenu par le Unicode Technical Comittee, il s’enrichit en permanence de nouvelles langues et caractères et est sans cesse réactualisé. La dernière version est la 5.2, qui date d’octobre 2009. Unicode a déjà défini 245 000 codes différents et pourra à terme en coder jusqu’à plus de 2 milliards.

♦ Pour aller plus loin :

ANDRIES, Patrick. « Introduction à Unicode et à l’ISO 10646 ». Document numérique, 2002/3-4, Volume 6, p. 51-88. [en ligne] Consulté le 05 juin 2010.

ANDRIES, Patrick. « Unicode ». Encyclopédie Larousse en ligne, 15 avril 2008. [en ligne] Consulté le 6 juin 2010.

DESRICHARD, Yves. « Petit précis de codage des caractères ». BBF, 2007, n° 3, p. 22-27. [en ligne] Consulté le 05 juin 2010.

JASLIER, Emmanuel. « Catalogue et catalogage ». Sous la dir. d’Yves Alix, Le métier de bibliothécaire, Paris, Editions du Cercle de la librairie, 2010, p. 237-258.