Les langages Descriptifs

la création de documents et leur distribution nécessitent de plus en plus d'énergie, de temps, de recherche. Cette formidable explosion a débuté en 1980, ou il a fallu trouver des solutions pour la manipulation de milliers de documents, et assurer leur mise à jour. Le stockage de masse a été partiellement résolu par le CD-ROM, puis le DVD. La distribution électronique a elle aussi explosé en 1988 avec l'arrivée de l'Internet. La gestion de ces documents posait encore un problème, solutionné en partie par quelques approches informatiques pas très fiables. Puis en fin, la composition automatique des documents en ligne pour un client particulier posa les derniers problèmes.

Problématique

Les documents papier posent le problème de la pérennité, de la distribution (par courrier...) et celui, majeur, de leur mise à jour. Il est impossible d'effectuer des recherches précises sans maintenir des index volumineux dont la mise à jour souffre des mêmes maux. Une première étude revela la nécessité de travailler sur une documentation electronique, liée a une ou plusieurs bases de données destinées à la maintenance des information (mise à jour, modifications etc..).

Pus tard, il fut admis que les données soient séparées des illustrations et enfin, la structure du document fut identifiée en une Structure, un Contenu, et un Style dont le traitement séparé allait résoudre bon nombre de problèmes. Les informations de nature différente sont identifiées dans le document par un Balisage particulier reconnu par le procédé informatique en conservant la lisibilité Human readable. Le balisage est donc tout sauf le contenu, et sa mise en place relève de deux techniques et règles différentes. dès lors qu'un processus informatique est mis en oeuvre, il n'y a plus de place au hasard ni à la fantaisie.La codification de telles règles a donné naissance à une norme internationale: SGML Standard Generalized Markup Language qui peut être traduit par Langage Standard Généralisé de balisage repèré par le sigle d'origine ISO 8879:1986 ISO: International Standard Organisation.Dont le site est en Suisse, depuis la référence ISO a évoluée au fil des amendements. Pour la petite histoire, c'est un groupe de travail américain composé de Charles Goldfarb, Edward Mosher et Raymond Lorie mit sur pied en 1986 un langage intermédiaire, le GML du nom de ses auteurs. Ce langage précéda la standardisation par l'ISO de SGML.

Traitement

Le traitement par procédé informatique consite alors a lire le document et a déclencher un traitement approprié sur la machine hôte pour obtenir l'effet visuel ou structurel recherché: gras, italique, souligné, affichage d'une image, paragraphes, indentation etc. sont des effets qui demandent l'action de plusieurs processus, un pour le style, un pour le positionnement et un pour l'image dans cet exemple. Un document subira en effet trois traitements:

DéfinitionContenuPublication
Choix de la structure du document, (classe) définition et écriture de la DTD (structure positionnement et style). C'est la fonction SGML Rédaction du document en respectant la DTD. Elle peut être manuelle ou bien assistée à l'aide d'un logiciel (ex: FrameMaker + SGML®) Publication en affectant un traitement informatique particulier à chaque élément de la DTD. La publication peut être faite sur papier, sous un autre standard documentaire ou en HTML pour une application Web.

Le balisage

Il existe deux catégories de balisage: le balisage procédural et le balisage descriptif.

Le balisage procédural

Cette forme de balisage est utilidée dans certains traitement de texte tels que Microsoft Word ® dont le produit final est stocké en binaire. Elle consiste à déposer aux endroits judicieux du document, des codes informatiques appropriés. Exemple: pour faire apparaitre un texte en gras, on peut imaginer que le code suivant soit introduit dans le taxte: CODE[45 90 65 33] suivi du texte en gras et CODE[55 69 05] pour supprimer la commande..L'ordinateur lit le texte caractère par caractère et reconnait ainsi le code 45 90 65 33 comme signalant le début d'un texte à afficher en gras, et le code 55 69 05 pour continuer en texte normal.

Bravo ça marche encore aujourd'hui, avec les inconvénients suivants: Tous les éditeurs de logiciel de traitement de texte n'utilisent pas les mêmes conventions entre produits et entre versions successifs. Il n'est pas possible de lire du "Word" avec un logiciel non Microsoft et le texte, stocké en mémoire en binaire, n'est pas lisible (Human readable). Il s'agit d'un balisage propriétaire. Ce type de balisage n'est pas abordé dans ce document.

Le balisage descriptif

Ce type de balisage est dit:générique. Il isole des portions de document nécessitant un traitement particulier. Le lecteur traitera cette requête avec la même généricité. Exemple: la balise <BOLD> signifie qu'un traitement des caractères doit être appliqué pour qu'ils apparaissent en gras à l'écran. SGML et sa classe HTML sont des langages descriptifs

Résumé

Le balisage procédural souffre des mêmes désavantages que la documentation papier: mise à jour difficile, fusion de documents de différentes sources impossible, changement de format, ou format contextuel (selon l'utilisateur) impossible ou très lourd.
Le balisage descriptif est un balisage générique. Il signale la présence d'une portion de texte à traiter. Au procédé lecteur la tâche d'appliquer un format générique approprié.