3. Le balisage du DU2

Les principes de l'informatisation ayant été posés, nous pouvons maintenant passer à une description concrète de l'entreprise. Nous décrirons dans la structure type de l'article du DU2. Nous présenterons ensuite, à titre d'exemple, le balisage de la partie grammaticale.

3.1. Le balisage de la typographie

Comme on l'a déjà souligné, les caractéristiques typographiques ne peuvent être systématiquement associées aux champs informationnels de l'article, puisque de nombreuses irrégularités apparaissent dans le texte. Il est donc nécessaire de codifier indépendamment ces informations. Le balisage signale les typographies non standard. Ainsi, les caractères minuscules romains non gras ne recevront aucun traitement et seront considérés comme le style par défaut. En revanche, on balisera :

  • les capitales;
  • les petites capitales;
  • les italiques.

    Dans l'article DAGUET, par exemple, on peut repérer trois éléments qui n'appartiennent pas au style standard : DAGUET, DAGUET, daguet.

    Le balisage du style sera effectué à l'aide d'un attribut placé sur les différents champs : l'entrée principale, la sous-entrée et la mention de l'entrée dans l'article. Cela se traduira en SGML de la façon suivante :

    Aux différents éléments <Orth>, <Orthre> et <Oref> [11], on a associé l'attribut Rend qui prendra différentes valeurs selon la forme de la typographie. Les valeurs Caps, Smc et It indiquent respectivement les capitales, les petites capitales et les italiques.

    3.2. Les différents champs qui composent un article standard

    Si la structure que nous proposons d'un article standard du DU2 n'est pas tout à fait définitive en l'état de nos travaux, on peut toutefois tenter d'en établir une description assez précise, et proposer une liste des rubriques qui composent un article complet.

    Un article type du DU2 est régulièrement composé des éléments suivants [12] :

    1. Une entrée principale, en capitales romaines étendues, suivie d'un point;
    2. une information grammaticale suivie d'un point;
    3. une marque de domaine ou d'usage;
    4. une ou des indication(s) rhétorico-sémantique(s) du type « figurément, par extension »;
    5. un énoncé définitoire;
    6. une ou plusieurs contextualisation(s), qui peuvent être un exemple construit, une citation en prose ou en vers;
    7. les locutions et/ou collocations;
    8. une information explicative d'ordre encyclopédique;
    9. l'indication étymologique (cette classe d'information fait l'objet d'un passage à la ligne dans le corps de l'article);
    10. le renvoi à une autre entrée;
    11. une note;
    12. un sous-article, introduit par une sous-entrée en petites capitales romaines, dont la première lettre est en grandes capitales. Régulièrement, la sous-entrée n'est pas suivie d'une marque grammaticale ; la marque est surtout présente lorsqu'elle ne peut pas être héritée de l'information grammaticale principale. C'est le cas par exemple pour les sous-entrées dérivées par conversion;
    13. un paragraphe spécial, que nous appelons « sous-article locutif », traitant de collocations, introduit par des marqueurs du type « On dit proverbialement d'[] », « On dit figurément d' [] », etc. peut apparaître soit à la fin de l'article, soit (cette place est moins fréquente dans notre corpus) dans la dernière partie d'un sous-article. Ces paragraphes sont suffisamment fréquents et réguliers (on peut en déterminer les patrons) dans le texte pour qu'ils aient un statut comparable aux sous-articles.

    Tous les éléments, sauf (a), (b), et (e), sont facultatifs dans les articles types, c'est-à-dire qu'ils peuvent ne pas apparaître dans l'énoncé global. De plus, la définition n'est pas non plus obligatoire dans bien des sous-articles. Ces éléments peuvent aussi apparaître dans leur totalité. Cette organisation peut se répéter à l'intérieur même de l'article, par le biais de ce que l'on appelle les sous-entrées, lorsque le mot-entrée se démultiplie. Les sous-articles sont indiqués par un alinea et retrait négatif, des petites capitales romaines, et elles sont le plus souvent suivies d'une virgule.

    On peut prendre comme exemple l'article dague du DU2 :

    3.2.1. Organisation

    Article principal :

    Sous-article numéro 1 Sous-article numéro 2 Sous-article numéro 3 Sous-article locutif

    Toutes les composantes de l'article peuvent évidemment être elles-mêmes décomposées. Nous ne pourrons, dans le cadre de cette présentation, détailler chacune d'entre elles. Nous avons choisi de privilégier la description des marques grammaticales.

    3.2.2. Balisage SGML de l'article standard

    Comme nous venons de le voir, nous distinguons l'article standard de l'article de renvoi et de l'article grammatical que nous n'approfondirons pas ici. La délimitation de l'article standard ne pose guère de difficulté. Les articles du DU2 comportent généralement une acception principale qui fait l'objet d'un alinéa et d'un retrait négatif et qui est introduite par une entrée en grandes capitales, ainsi que d'éventuels sous-articles, comme on peut le voir s.v. DAGUE supra.

    Les sous-articles concernent plusieurs types de sous-entrées : des homographes, des dérivés, des flexions, des collocations ou locutions. L'article dans son entier sera balisé à l'aide de <Entry> [13], le sous-article à l'aide de <Re>. Enfin, l'acception principale dans son entier est balisée par <Sense> ainsi que la ou les acceptions introduites dans les sous-articles. Certains éléments sont directement rattachés à l'article : le commentaire étymologique qui fait l'objet d'un paragraphe (<CEtym>) et le commentaire sur une ou plusieurs collocations (<CollGrp>).

    La structure d'ensemble de l'article DAGUET est la suivante (le nom des différentes balises sera expliqué dans le cours du texte) :

    La structure de l'article type peut être schématisée par l'arbre présenté à la figure 4 [14].

    Fig. 4 : Arborescence d'un article type

    3.3. Le champ grammatical

    Comme dans les dictionnaires contemporains, la zone grammaticale est une des zones les plus codifiées de l'article. Elle comporte la partie du discours et des informations morphosyntaxiques et sémantiques.

    3.3.1. Occurrence du champ grammatical

    Ce champ informationnel apparaît immédiatement à la suite de l'entrée ou de la sous-entrée (et ses éventuelles variantes et/ou flexions), généralement à la suite d'un point ou d'une virgule. Le champ, lorsqu'il apparaît à la suite de l'entrée principale, est précédé d'un point et est presque systématique. Dans notre échantillon seuls 20 articles ne comportent pas de champ grammatical. Parmi ceux-ci, on relève 16 articles comprenant des renvois à la macrostructure, comme DANCE :

    Notre échantillon compte donc 330 articles comportant une zone grammaticale sur 334 articles standard [15]. On peut donc considérer que la zone grammaticale est un élément systématique dans l'article standard et que son omission est une anomalie dans la microstructure.

    Dans le sous-article, en revanche, la zone grammaticale est facultative. Elle ne semble introduite que lorsque l'information grammaticale ne peut pas être héritée systématiquement de celle de l'entrée principale, c'est-à-dire lorsque la partie du discours ou les autres informations morphosyntaxiques diffèrent, comme nous pouvons l'observer dans des exemples comme les suivants :

    Ainsi, l'examen de notre échantillon révèle que l'information grammaticale n'apparaît pas dans les sous-articles, sauf dans quatre cas (s.v. DAMOISELLE, DATE, DECOMPOSER et DECORATEUR), lorsque les caractéristiques grammaticales sont identiques à celles de l'entrée principale. La présence de cette information dans ce dernier cas semble liée au fait que les sous-entrées sont des homographes nettement distincts sémantiquement de l'entrée principale. Il paraît alors peut-être nécessaire de rappeler leur appartenance catégorielle:

    Cette hypothèse devrait néanmoins être vérifiée sur un corpus plus conséquent que notre échantillon. En revanche, on pourra relever que les informations grammaticales ne sont pas systématiques lorsque la sous-entrée diffère sur ce plan de l'entrée principale. Ainsi, sous l'entrée DANSER, le sous-article de MAÎTRE À DANSER, ici substantif, ne comporte aucune information grammaticale :

    En bref, le champ grammatical apparaît quasi systématique pour les entrées principales alors qu'il n'apparaît, facultativement, pour les sous-entrées que lorsqu'il ne paraît pas héritable de l'entrée principale.

    [Table] -- [Suite]


    Notes

    10. Les capitales sont conservées dans le balisage pour faciliter le traitement avec le logiciel de balisage SGML Author/Editor. En revanche, le logiciel ne connaît pas la casse des petites capitales, ce qui explique qu'elles n'apparaissent pas dans le texte.

    11. Caractérisant respectivement l'entrée principale, la sous-entrée et l'entrée en mention dans une contextualisation.

    12. Par « article standard » on exclut les articles de type « renvoi » qui ne sont pas traités ici, comme par exemple : « DANCE. Voyez DANSE », ni les articles grammaticaux pour lesquels on devra produire une DTD particulière.

    13. Par commodité, nous avons conservé les étiquettes d'origine de la TEI, qui sont proposées en anglais. Ces étiquettes peuvent bien entendu être modifiées.

    14. Les éléments entourés d'une parenthèse sont facultatifs. Ceux qui sont suivis de l'astérisque sont facultatifs et répétables.

    15. Les quatre articles ne comportant pas de champ grammatical sont: DAGUET, DAILLOTS, DANNEBROGE, DECISIF.