• Relever ensuite la taille des fichiers :
◦ Graphiquement (clic-droit / menu contextuel, Propriétés)
◦ En ligne de commande, avec la commande ls -l nom_du_fichier.txt
• Observer le contenu binaire des fichiers avec l’éditeur hexadécimal GHex :
◦ Repérer le caractère de retour chariot / à la ligne.
Encodage UTF-8 et ISO • Ouvrir les fichiers utf-8.txt et iso-8859-15.txt avec un éditeur de texte, et comparer leur contenu. • Avec l’ éditeur de texte, dans le menu Document, relever l’encodage utilisé.
• Relever ensuite la taille des fichiers (graphiquement et en ligne de commande.
• Observer le contenu binaire des fichiers avec l’éditeur hexadécimal :
◦ Remarquer le nombre d’octets nécessaires pour encoder un accent. Faire le lien avec la taille du fichier.
◦ Relever le codage hexadécimal des accents (faire une table pour les deux encodages)
Encodage et pages web (HyperText Markup Language) • Ouvrir les pages utf-8.html, et iso-8859-15.html dans un navigateur et dans un éditeur de texte. Observer, analyser, émettre des hypothèses et les vérifier (cf guide si besoin).
• Essayer d’ouvrir ce document avec un éditeur de texte et un éditeur hexadécimal.
• Créer un dossier, et y copier ce document. Changer l’extension odt en zip, puis extraire les fichiers, et analyser.
Conclure : qu’avez-vous retenu de cette activité ? • Concernant les fins de lignes des fichiers textes. • Concernant l’encodage des caractères. • Concernant la distinction entre fichier texte et binaire. • Concernant la structure d’un document HTML, les images.
Guide pour l’analyse de l’encodage Observations • Dans le navigateur, certains caractères s’affichent mal avec le fichier iso-8859-15.html, alors qu’ils s’affichent correctement avec le fichier “utf-8.html”. • Le contenu des fichiers (cf éditeur de texte semble identique). • Il y a une balise « meta » qui spécifie un encodage. Connaissances mobilisées • Les caractères sont encodés sous forme binaire. Par exemple la table ASCII indique que le caractère « A » est encodé 0b 0100 0001 (0x41) • Il existe plusieurs encodages possibles pour (notamment) les caractères accentués : l’UTF-8 et l’ISO (8859-15 pour l’Europe de l’Ouest). • L’encodage UTF-8 utilise 2 octets pour les caractères accentués. Hypothèse • Le problème pourrait être lié à l’encodage des caractères accentués. → il faut s’assurer que l’encodage des fichiers est effectivement différent. Vérification • La taille des fichiers diffère effectivement. • L’éditeur de texte indique un encodage différent pour les deux fichiers. • l’éditeur hexadécimal montre que l’encodage hexadécimal / binaire des accents est effectivement différent. → hypothèse confirmée. Est-ce une limitation du navigateur web ?
Hypothèses? Vérifications ? Nouvelle hypothèse • Les indications de la balise « meta » sont peut-être prises en compte par le navigateur web. → il faut essayer de changer la valeur de la balise méta pour s’en assurer (remplacer « UTF-8 » par ISO-8859-15 »).
Conclusion à démontrer Il doit y avoir correspondance entre l’encodage utilisé pour saisir le contenu de la page web et celui déclaré dans la balise « meta ».