Insertion de caractères internationaux dans un document HTML

Joël Brogniart

Première publication 17 avril 2003.

Dernière modification 17 avril 2003.

Introduction

Il arrive parfois que l'on ait besoin d'insérer dans un document HTML des caractères qui ne font pas partie des caractères que l'on trouve habituellement sur son clavier, par exemple pour écrire dzień dobry ou こんにちは !

Avec HTML 4.01 l'ensemble des caractères utilisables est celui de l'ISO 10646. Cet ensemble comprend les caractères des principales langues actuelles (enfin surtout celles pour lesquelles les fabricants informatiques peuvent vendre leurs produits).

Comment faire ?

Il est possible donc d'insérer n'importe quel caractère de l'ISO 10646 dans un document HTML 4.01. Si vous ne disposez ni d'un clavier, ni d'un logiciel permettant la saisie facile des caractères dont vous avez besoin, il est possible d'insérer la référence numérique du caractère directement dans le code HTML de votre document.

Pour insérer un caractère de cette manière, il faut d'abord connaître le nombre associé au caractère désiré dans le standard ISO 10646. Vous pouvez obtenir beaucoup d'informations sur les caractères sur le site du Consortium Unicode : <http://www.unicode.org/>.

Alors que les équipes de normalisation de l'ISO n'en étaient encore qu'à la réflexion sur le cahier des charges pour l'établissement de la norme 10646, certains fabricants informatiques, réunis au sein du Consortium Unicode, avaient déjà établi un standard pratique pour la prise en compte de nombreuses langues. La norme ISO 10646 et le standard Unicode ont beaucoup de chose en commun et la norme ISO incorpore les informations du standard Unicode. De plus, contrairement aux normes ISO qu'on ne peut obtenir qu'en achetant (très cher) les documents de l'ISO, les informations sur le standard Unicode sont accessibles gratuitement sur le site du Consortium.

En parcourant le site Unicode je vois que le symbole a renversé est associé au nombre hexadécimal 0250. Pour insérer ce caractère dans mon document, il faut que je saisisse la séquence &#x0250; (les trois caractères &#x suivis du nombre hexadecimal de mon caractère et enfin ;).

Par exemple, si dans le code HTML de mon document je tape

<p>Le symbole API &#x0250; est une voyelle centrale ouverte<p>.

je devrais voir afficher dans mon navigateur

Le symbole API ɐ est une voyelle centrale ouverte.

Par contre rien ne garanti que le texte saisi de cette manière soit affiché correctement par le navigateur des personnes consultant votre page. Il faut que le navigateur et le système d'exploitation utilisés par le visiteur comprennent HTLM 4.0, Unicode et que des polices de caractères Unicode soient installées. Normalement les outils informatiques récents ne devraient pas avoir de problème pour afficher votre document. Je n'ai pas de problème d'affichage avec les navigateurs Netscape, Mozilla, Safari, Opera sur les machines fonctionnant avec les système d'exploitation Linux (Debian et Red-Hat) ou Mac OS X. Et en dehors du fait que je ne comprends rien à ce qui est affiché, les pages des sites <http://www.doshisha.ac.jp/>, <http://www.uw.edu.pl/>, <http://www.cu.edu.eg/arabic/default.htm> ou <http://www.huji.ac.il/unew/hebrew/mainnf.html> s'affichent correctement sur ma machine.

Exemple de références de caractère numériques

Les caractères sont ceux d'une partie de la table ISO 8859-2 qui est utilisée pour les systèmes d'écriture d'Europe centrale (croate, tchèque, hongrois, polonais roumain, slovaque, serbe).

Exemple de références de caractère numériques
Référence numériqueCaractèreDénomination Unicode
&#x0104;ĄLATIN CAPITAL LETTER A WITH OGONEK
&#x02D8;˘BREVE
&#x0141;ŁLATIN CAPITAL LETTER L WITH STROKE
&#x00A4;¤CURRENCY SIGN
&#x013D;ĽLATIN CAPITAL LETTER L WITH CARON
&#x015A;ŚLATIN CAPITAL LETTER S WITH ACUTE
&#x00A7;§SECTION SIGN
&#x00A8;¨DIAERESIS
&#x0160;ŠLATIN CAPITAL LETTER S WITH CARON
&#x015E;ŞLATIN CAPITAL LETTER S WITH CEDILLA
&#x0164;ŤLATIN CAPITAL LETTER T WITH CARON
&#x0179;ŹLATIN CAPITAL LETTER Z WITH ACUTE
&#x00AD;­SOFT HYPHEN
&#x017D;ŽLATIN CAPITAL LETTER Z WITH CARON
&#x017B;ŻLATIN CAPITAL LETTER Z WITH DOT ABOVE
&#x00B0;°DEGREE SIGN
&#x0105;ąLATIN SMALL LETTER A WITH OGONEK
&#x02DB;˛OGONEK
&#x0142;łLATIN SMALL LETTER L WITH STROKE
&#x00B4;´ACUTE ACCENT
&#x013E;ľLATIN SMALL LETTER L WITH CARON
&#x015B;śLATIN SMALL LETTER S WITH ACUTE
&#x02C7;ˇCARON
&#x00B8;¸CEDILLA
&#x0161;šLATIN SMALL LETTER S WITH CARON
&#x015F;şLATIN SMALL LETTER S WITH CEDILLA
&#x0165;ťLATIN SMALL LETTER T WITH CARON
&#x017A;źLATIN SMALL LETTER Z WITH ACUTE
&#x02DD;˝DOUBLE ACUTE ACCENT
&#x017E;žLATIN SMALL LETTER Z WITH CARON
&#x017C;żLATIN SMALL LETTER Z WITH DOT ABOVE
&#x0154;ŔLATIN CAPITAL LETTER R WITH ACUTE
&#x00C1;ÁLATIN CAPITAL LETTER A WITH ACUTE
&#x00C2;ÂLATIN CAPITAL LETTER A WITH CIRCUMFLEX
&#x0102;ĂLATIN CAPITAL LETTER A WITH BREVE
&#x00C4;ÄLATIN CAPITAL LETTER A WITH DIAERESIS
&#x0139;ĹLATIN CAPITAL LETTER L WITH ACUTE
&#x0106;ĆLATIN CAPITAL LETTER C WITH ACUTE
&#x00C7;ÇLATIN CAPITAL LETTER C WITH CEDILLA
&#x010C;ČLATIN CAPITAL LETTER C WITH CARON
&#x00C9;ÉLATIN CAPITAL LETTER E WITH ACUTE
&#x0118;ĘLATIN CAPITAL LETTER E WITH OGONEK
&#x00CB;ËLATIN CAPITAL LETTER E WITH DIAERESIS
&#x011A;ĚLATIN CAPITAL LETTER E WITH CARON
&#x00CD;ÍLATIN CAPITAL LETTER I WITH ACUTE
&#x00CE;ÎLATIN CAPITAL LETTER I WITH CIRCUMFLEX
&#x010E;ĎLATIN CAPITAL LETTER D WITH CARON
&#x0110;ĐLATIN CAPITAL LETTER D WITH STROKE
&#x0143;ŃLATIN CAPITAL LETTER N WITH ACUTE
&#x0147;ŇLATIN CAPITAL LETTER N WITH CARON
&#x00D3;ÓLATIN CAPITAL LETTER O WITH ACUTE
&#x00D4;ÔLATIN CAPITAL LETTER O WITH CIRCUMFLEX
&#x0150;ŐLATIN CAPITAL LETTER O WITH DOUBLE ACUTE
&#x00D6;ÖLATIN CAPITAL LETTER O WITH DIAERESIS
&#x00D7;×MULTIPLICATION SIGN
&#x0158;ŘLATIN CAPITAL LETTER R WITH CARON
&#x016E;ŮLATIN CAPITAL LETTER U WITH RING ABOVE
&#x00DA;ÚLATIN CAPITAL LETTER U WITH ACUTE
&#x0170;ŰLATIN CAPITAL LETTER U WITH DOUBLE ACUTE
&#x00DC;ÜLATIN CAPITAL LETTER U WITH DIAERESIS
&#x00DD;ÝLATIN CAPITAL LETTER Y WITH ACUTE
&#x0162;ŢLATIN CAPITAL LETTER T WITH CEDILLA
&#x00DF;ßLATIN SMALL LETTER SHARP S
&#x0155;ŕLATIN SMALL LETTER R WITH ACUTE
&#x00E1;áLATIN SMALL LETTER A WITH ACUTE
&#x00E2;âLATIN SMALL LETTER A WITH CIRCUMFLEX
&#x0103;ăLATIN SMALL LETTER A WITH BREVE
&#x00E4;äLATIN SMALL LETTER A WITH DIAERESIS
&#x013A;ĺLATIN SMALL LETTER L WITH ACUTE
&#x0107;ćLATIN SMALL LETTER C WITH ACUTE
&#x00E7;çLATIN SMALL LETTER C WITH CEDILLA
&#x010D;čLATIN SMALL LETTER C WITH CARON
&#x00E9;éLATIN SMALL LETTER E WITH ACUTE
&#x0119;ęLATIN SMALL LETTER E WITH OGONEK
&#x00EB;ëLATIN SMALL LETTER E WITH DIAERESIS
&#x011B;ěLATIN SMALL LETTER E WITH CARON
&#x00ED;íLATIN SMALL LETTER I WITH ACUTE
&#x00EE;îLATIN SMALL LETTER I WITH CIRCUMFLEX
&#x010F;ďLATIN SMALL LETTER D WITH CARON
&#x0111;đLATIN SMALL LETTER D WITH STROKE
&#x0144;ńLATIN SMALL LETTER N WITH ACUTE
&#x0148;ňLATIN SMALL LETTER N WITH CARON
&#x00F3;óLATIN SMALL LETTER O WITH ACUTE
&#x00F4;ôLATIN SMALL LETTER O WITH CIRCUMFLEX
&#x0151;őLATIN SMALL LETTER O WITH DOUBLE ACUTE
&#x00F6;öLATIN SMALL LETTER O WITH DIAERESIS
&#x00F7;÷DIVISION SIGN
&#x0159;řLATIN SMALL LETTER R WITH CARON
&#x016F;ůLATIN SMALL LETTER U WITH RING ABOVE
&#x00FA;úLATIN SMALL LETTER U WITH ACUTE
&#x0171;űLATIN SMALL LETTER U WITH DOUBLE ACUTE
&#x00FC;üLATIN SMALL LETTER U WITH DIAERESIS
&#x00FD;ýLATIN SMALL LETTER Y WITH ACUTE
&#x0163;ţLATIN SMALL LETTER T WITH CEDILLA
&#x02D9;˙DOT ABOVE

Informations complémentaires

Spécification HTML 4.01 : <http://www.w3.org/TR/html401/>.

Standard Unicode : <http://www.unicode.org/>.

Correspondance ISO 8859-2 vers Unicode : <http://www.unicode.org/Public/MAPPINGS/ISO8859/8859-2.TXT>.