xml : balisage structurel

XML - Introduction

XML (eXtensible Markup Language) est un langage de balisage structurel, utilisé pour la description et l'échange de documents (structurés). XML est issue de SGML (Standard Generalized Markup Language), et developpé au sein du W3C. La récommandation pour la version 1.0 date de février 1998; celle pour la version 1.1 de février 2004.

1. Documents bien formés

Un document XML bien formé obéit aux règles syntaxiques du langage: c'est un 'document correct'.

On distingue dans un document XML:

  • Prologue
    L'inclusion d'un prologue est conseillé, mais facultatif. Il contient un certain nombre de déclarations :
    [1.] - une déclaration XML, qui a la forme :
    <?xml version="1.0" encoding="ISO-8859-1" standalone="yes" ?> La valeur de l'attribut 'encoding' est l'encodage de caractères utilisé dans le document;
    si la valeur de l'attribut 'standalone' est 'yes', toutes les déclarations nécessaires au traitement du document y sont inclus; si la valeur est 'no', ces déclarations se trouvent dans d'autres fichiers.
    [2.] - instructions de traitement, par exemple par une feuille de style CSS :
    <?xml-stylesheet href="sombre.css" type="text/css" ?> [3.] - déclaration de type de document
    Indique, dans le cas où le document se conforme à une structure type particulière, quel est ce type ; permet aussi la spécification de certaines déclarations propres au document :
    <!DOCTYPE playlist SYSTEM "listelecture.dtd" [declarations]> Cet exemple indique que le document a comme élément racine 'playlist' (liste de lecture), et se conforme à la structure type définie dans le fichier 'listelecture.dtd' : c'est un exemple de DTD externe. La déclaration de type peut aussi être interne :
    <!DOCTYPE recipe [declarations]> Le nom de la DTD interne (recipe) est arbitraire, et sert qu'à indiquer la portée des déclarations qui figurent entre les crochets.
  • Arbre d'éléments
    Pour XML, la partie centrale d'un document est une hiérarchie d'éléments (c'est la structure sémantique du contenu). Cet hiérarchie doit être un arbre, c.a.d. : tout élément fils est complètement inclus dans son père (il ne peut pas y avoir recouvrement d'éléments) ; un document a toujours un et un seul élément père qui contient tous les autres : l'élément racine (par exemple, rappelons que l'élément racine d'un document XHTML est : <html> )
    ( Un élément peut contenir un ou plusieurs instances de lui-même.)
    Chaque élément d'un document se compose d'une balise ouvrante, du contenu de l'élément, et une balise fermante, comme dans :
    <realisateur>Rainer Werner Fassbinder</realisateur> Le nom de la balise (dans notre exemple: 'realisateur') est une chaîne composée de caractères alphanumériques, 'underscore' ( _ ), 'moins' ( - ) ou 'point' ( . ) (ou le 'double point' ( : ), qui a un sens particulier), et commence par un caractère alphabétique ou 'underscore'. Les noms peuvent être choisis librement, avec l'exception de noms commencant par 'xml' (en minuscules, majuscules ou une mélange des deux), qui sont interdit.
    Un élément peut contenir : d'autres éléments, des données, une mélange des deux. Un élément peut aussi être vide. Dans ce cas la notation peut être simplifiée : <riendutout /> Dans la balise d'ouverture d'un élément, le nom peut être suivi par un ou plusieurs couples 'attribut/valeur', utilisés pour décrire certaines propriétés de l'élément. Exemple : <instruction langue="FR" date="11.04.2005" pour='etudiants'> Le nom d'un attribut obéit aux mêmes règles que les noms d'éléments. La valeur est une chaîne de caractères (les caractères ^ , & et % sont exclus) encadrée par des guillemets ( " ) ou pas des apostrophes ( ' ) (mais jamais par une mélange des deux).
  • Commentaires et instructions de traitement
    Facultative; pourront apparaître aussi bien dans le prologue que dans l'arbre d'éléments. Exemple : <!-- Ceci n'est pas une instruction; c'est un commentaire -->

Creative Commons | CC | 2003-2005 Paris, HarsMedia / H. Schellinx. HTML & CSS valide.