| Qu'est-ce qu'un thésaurus ? |
Introduction sommaire |
Un thésaurus est un corpus linguistique, composé de termes
(mots ou expressions composées) mis en relation les uns avec les
autres.
Le thésaurus peut être utilisé seul : il permet,
à partir d'un terme initial, de naviguer dans les termes de proche
en proche, jusqu'à trouver le "terme juste".
Le thésaurus
peut aussi être utilisé pour référencer (indexer)
des livres, documents, etc.; le thésaurus est un outil utilisé
par les documentalistes et les bibliothécaires.
|
Un exemple |
Cet extrait de thésaurus concerne la pratique nautique:
Le thésaurus est un outil, dont le champ est adapté à un domaine :
un thésaurus peut être centré sur un thème
- ici la voile -, mais il existe aussi des thésaurus généraux
d'une langue.
Dans un contexte documentaire, le thésaurus peut aussi être
utilisé pour indexer des documents.
Le choix, dans le thésaurus,
"du terme juste" a pour suite de pré-sélectionner automatiquement
tous les documents préalablement indexés sur ce terme.
| exemple de navigation dans un thésaurus sur le web |
|
Nous avons constitué une base de constitution de thésaurus à partir des
conférences données dans le cadre de
"l'Université de tous
les savoirs".
Le thésaurus est très simple, il ne fait que refléter l'organisation des programmes de l'Université de tous les savoirs; il lui manque une foule de liens
(entre thèmes, entre conférences, entre organismes de recherche
où travaillent les intervenants etc) pour qu'il soit effectivement pertinent,
néanmoins il donne une première vue de l'aide navigationnelle apportée par un thésaurus dédié à un site.
Les conférences sont organisées autour de thèmes, associés à un ou plusieurs programmes mensuels (de janvier à avril). Chaque conférence peut être liée à un intervenant (voir aussi) et pointer vers un résumé de la conférence lorsqu'il est présent (ressource). Le commentaire indique la date.
thésaurus basé sur le programme janvier-avril de l'Université de tous les savoirs
Si vous avez le plugin d'Adobe, vous pouvez le visualiser graphiquement. Attention, le fichier a une taille de 125 KOctets et est assez long à charger.
|
|
Un peu d'histoire |
Le thésaurus est un outil familier des anglo-saxons. Un thésaurus
général pour la langue anglaise existe depuis le début
du XXème siècle.
En France, le thésaurus n'a pas eu
la même importance; pourtant, on peut comparer la tradition du dictionnaire
analogique français à celle du thésaurus anglo-saxon.
|
Que contient exactement un thésaurus ? |
Les termes sont exprimés en langue naturelle (français, anglais,
etc.).
Les principales relations permettant de relier les termes sont les
suivantes :
Nom de la relation |
Explications |
Exemple |
"Terme Spécifique" |
aussi appelée "relation de hiérarchie" : un terme est
lié à un terme représentant un concept plus spécifique.
La relation inverse est appelée "Terme Générique".
Un terme peut avoir plusieurs "Termes Spécifiques".
Un terme peut avoir plusieurs "Termes Génériques".
|
voilier ----> dériveur |
"Voir Aussi" |
aussi appelée "relation de voisinage" : relie deux termes dont la sémantique
est "proche" (nous verrons que cette relation peut être affinée afind e faciliter la modélisation du savoir).
Un terme peut posséder plusieurs relations "Voir Aussi". |
voilier <--> navigation |
"Employé Pour" |
aussi appelée "synonyme". C'est en fait une propriété
d'un terme qui permet d'identifier les synonymes et les abrévations
de ce terme. Les termes synonymes sont interchangeables.
|
Grand Voile = GV |
Le thésaurus (tel que décrit par la norme ISO 2788) décrit les liens suivant:
- relation d'équivalence (interchangeabilité des descripteurs):
- synonymie: même sens général (plutôt rare dans le langage), ou sens très proche - marques, abréviations, traductions couramment utilisées - (employé pour, beaucoup plus fréquent);
- quasi-synonymie: permet de regrouper des termes qui sont effectivement pris l'un pour l'utre dans le domaine décrit;
- relation hiérarchique: organise les concepts en catégories liées au domaine étudié; généricité - spécificité(mer - mer intérieure); ensemble - sous-ensemble (europe - france); instanciation, exemples (pays - france); la multi hiérarchie doit être autorisée;
- relation associative: lien étroit dans le domaine étudié, mais hiérarchisation impossible; elle doit être vue en rapport avec la catégorisation retenue;
- classification à facette: divise en catégories fondamentales le domaine étudié:
- facette entités - choses, objets:
- facette abstraites / concrètes: entités abstraites / entités concrètes [naturelles / fabriquées]
- facette fonctionnelle: sujet / objet / produit final
- facette caractéristiques: propriétés / matériaux, coposants / parties / entités simples / entités complexes
- actions: processus / opérations / actions complexes
- espace
- temps
La description du domaine étudié et l'établissement de domaines connexes permet de clarifier le travail d'élaboration d'un thésaurus.
| NOTE:
La norme internationale des thésaurus
est la norme ISO 2788 pour les thésaurus monolingues,
ISO 5964 pour les thésaurus multilingues;
la norme française: AFNOR NF Z 47-100 "Principes directeurs pour l'établissement de thésaurus multilingues".
L'outil "Recherche par thésaurus" d'Equilibre
se conforme en partie (la classification à facette n'est pas implémentée)
aux définitions introduites par la norme internationale ISO 2788.
Notamment, les noms de relation exposées ci-avant correspondent à la
norme internationale.
| |
|
|