Fog Creek Software
Fog Creek Software

Unicode 8 et Réglage Jeux De Caractères



CityDesk peut être utilisé pour éditer du texte dans n'importe quel alphabet supporté par votre ordinateur.

Sur Windows 98 et Windows Me :

Sur Windows NT, Windows 2000 et Windows XP :

Le texte dans les articles CityDesk et les variables sont stockés à l'intérieur dans un format Unicode. Quand les fichiers HTML sortent, CityDesk les convertit en format UTF-8. UTF-8 est un moyen d'encode l'Unicode qui est compris par tous les navigateurs web modernes, mais vous devez signaler au navigateur d'attendre de l'UTF-8 afin qu'il sache comment le décoder. Ceci peut être réalisé en plaçant la balise suivante dans votre fichier HTML immediatement après la balise <head> :

<meta http-equiv="Content-Type"
content="text/html; charset=UTF-8">

Il est important que ce soit la première balise après la balise <head> pour évider aux navigateurs web de se tromper. Par exemple :

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<html>
<head>
<meta http-equiv="Content-Type"
content="text/html; charset=UTF-8">

<title>Unicode and Character Set Issues</title>
</head>

Vous remarquerez que CityDesk insère cela pour vous par défaut dans les nouveaux gabarits.

Les fichiers HTML et gabarits dans CityDesk sont traités un peu différemment : ils sont stockés dans CityDek en format UTF-8. Quand ils sont stockés en mémoire, par exemple, si vous voulez les éditer avec l'éditeur intégré, ils seront convertis en Unicode. Aussi sont-ils convertis vers UTF-8 quand vous les sauvegardez. Si vous éditez un fichier HTML ou un un gabarit à partir de CityDesk en utilisant un éditeur externe, vous travaillerez sur la version UTF-8 du fichier.

Qu'est-ce que UTF-8, précisément ? Bien, vous n'avez pas besoin de cela pour faire fonctionner CityDesk, mais vous pouvez vous poser la question, aussi  essaierons-nous de l'expliquer ici.

Dans les anciens temps, les ordinateurs utilisaient 8 bits pour stocker une lettre. Il y a 256 combinaisons possibles de 8 bits. C'est suffisant pour beaucoup de langues, mais pas suffisant pour les langues asiatiques comme le Chinois qui compte des milliers de "lettres" différentes.  Il existait beaucoup de manières incompatibles pour mixer différents alphabet vers les 256 combinaisons. Le plus courant, ASCII, définissait ce qui arriverait dans les 127 premières combinaisons, mais c'était seulement suffisant pour l'anglais.

Pour simplifier le problème un consortium de fabricants d'ordinateurs arriva avec un standard baptisé l'Unicode. Sous l'Unicode, vous pouviez utiliser 16 bits pour stocker une lettre. Cela vous donne de la place pour 65536 lettres, ce qui est suffisant pour simplement tous les alphabets connus, rendant possible le texte en multilangue sur les ordinateurs.

Le problème est que tous les gens qui parlaient anglais étaient distraits d'imaginer perdre un extra de 8 bits sur chaque lettre même s'ils écrivaient seulement en anglais. Et en plus, il existait déjà beaucoup de systèmes qui assumaient le fait que 8 bits = 1 lettre. Aussi le Consortium Unicode Consortium revint avec un standard appelé UTF-8. Dans ce scheme, toutes les lettres en anglais (et à fortiori, tous les caractères en dessous de 128 extrait du vieux jeu de caractère ASCII) serait écrit exactement de la même façon qu'avant. Seulement les lettres non-anglaises seraient encodées entre 2 et 6 bits. Ce standard est la méthode la plus populaire pour encoder sur l'Internet.

Les détails, bien sûr, sont plus compliqués que cela, et en fait, c'est une sursimplification très grotesque, mais à ce stade nous vous avons probablement suffisamment ennuyé, aussi, nous vous proposons de plier bagage.

(ndt : si quelqu'un peut m'expliquer plus clairement en français comment produire un fil XML avec cet alphabet je serais preneur merci ;) -- ChristopheDucamp)

Retour Accueil Documentation CityDesk


Traduction : christophe ducamp

[page faite avec CityDesk] site meter