equilibre.thésaurus

La recherche par equilibre.thésaurus La fonction de recherche par thésaurus d'Equilibre guide l'internaute vers l'information. L'outil Equilibre.thésaurus de la société Equilibre offre un moyen nouveau et performant, le thésaurus, pour naviguer sur un site web et trouver l'information rapidement.

Qu'est-ce qu'un thésaurus ?

Introduction sommaire
Un thésaurus est un corpus linguistique, composé de termes (mots ou expressions composées) mis en relation les uns avec les autres.
Le thésaurus peut être utilisé seul : il permet, à partir d'un terme initial, de naviguer dans les termes de proche en proche, jusqu'à trouver le "terme juste".
Le thésaurus peut aussi être utilisé pour référencer (indexer) des livres, documents, etc.; le thésaurus est un outil utilisé par les documentalistes et les bibliothécaires.

Un exemple
Cet extrait de thésaurus concerne la pratique nautique:

Le thésaurus est un outil, dont le champ est adapté à un domaine :
un thésaurus peut être centré sur un thème - ici la voile -, mais il existe aussi des thésaurus généraux d'une langue.

Dans un contexte documentaire, le thésaurus peut aussi être utilisé pour indexer des documents.
Le choix, dans le thésaurus, "du terme juste" a pour suite de pré-sélectionner automatiquement tous les documents préalablement indexés sur ce terme.

exemple de navigation dans un thésaurus sur le web

Nous avons constitué une base de constitution de thésaurus à partir des conférences données dans le cadre de "l'Université de tous les savoirs".

Le thésaurus est très simple, il ne fait que refléter l'organisation des programmes de l'Université de tous les savoirs; il lui manque une foule de liens (entre thèmes, entre conférences, entre organismes de recherche où travaillent les intervenants etc) pour qu'il soit effectivement pertinent, néanmoins il donne une première vue de l'aide navigationnelle apportée par un thésaurus dédié à un site.

Les conférences sont organisées autour de thèmes, associés à un ou plusieurs programmes mensuels (de janvier à avril). Chaque conférence peut être liée à un intervenant (voir aussi) et pointer vers un résumé de la conférence lorsqu'il est présent (ressource). Le commentaire indique la date.

thésaurus basé sur le programme janvier-avril de l'Université de tous les savoirs

Si vous avez le plugin d'Adobe, vous pouvez le visualiser graphiquement. Attention, le fichier a une taille de 125 KOctets et est assez long à charger.

Un peu d'histoire
Le thésaurus est un outil familier des anglo-saxons. Un thésaurus général pour la langue anglaise existe depuis le début du XXème siècle.
En France, le thésaurus n'a pas eu la même importance; pourtant, on peut comparer la tradition du dictionnaire analogique français à celle du thésaurus anglo-saxon.

Que contient exactement un thésaurus ?
Les termes sont exprimés en langue naturelle (français, anglais, etc.).
Les principales relations permettant de relier les termes sont les suivantes :

Nom de la relation Explications Exemple
"Terme Spécifique"  aussi appelée "relation de hiérarchie" : un terme est lié à un terme représentant un concept plus spécifique.
La relation inverse est appelée "Terme Générique".
Un terme peut avoir plusieurs "Termes Spécifiques".
Un terme peut avoir plusieurs "Termes Génériques".  
voilier ----> dériveur 
"Voir Aussi"  aussi appelée "relation de voisinage" : relie deux termes dont la sémantique est "proche" (nous verrons que cette relation peut être affinée afind e faciliter la modélisation du savoir).
Un terme peut posséder plusieurs relations "Voir Aussi". 
voilier <--> navigation 
"Employé Pour"  aussi appelée "synonyme". C'est en fait une propriété d'un terme qui permet d'identifier les synonymes et les abrévations de ce terme. Les termes synonymes sont interchangeables.   Grand Voile = GV 

Le thésaurus (tel que décrit par la norme ISO 2788) décrit les liens suivant:

  • relation d'équivalence (interchangeabilité des descripteurs):
    • synonymie: même sens général (plutôt rare dans le langage), ou sens très proche - marques, abréviations, traductions couramment utilisées - (employé pour, beaucoup plus fréquent);
    • quasi-synonymie: permet de regrouper des termes qui sont effectivement pris l'un pour l'utre dans le domaine décrit;
  • relation hiérarchique: organise les concepts en catégories liées au domaine étudié; généricité - spécificité(mer - mer intérieure); ensemble - sous-ensemble (europe - france); instanciation, exemples (pays - france); la multi hiérarchie doit être autorisée;
  • relation associative: lien étroit dans le domaine étudié, mais hiérarchisation impossible; elle doit être vue en rapport avec la catégorisation retenue;
  • classification à facette: divise en catégories fondamentales le domaine étudié:
    • facette entités - choses, objets:
      • facette abstraites / concrètes: entités abstraites / entités concrètes [naturelles / fabriquées]
      • facette fonctionnelle: sujet / objet / produit final
      • facette caractéristiques: propriétés / matériaux, coposants / parties / entités simples / entités complexes
    • actions: processus / opérations / actions complexes
    • espace
    • temps

La description du domaine étudié et l'établissement de domaines connexes permet de clarifier le travail d'élaboration d'un thésaurus.

 NOTE:

La norme internationale des thésaurus est la norme ISO 2788 pour les thésaurus monolingues, ISO 5964 pour les thésaurus multilingues; la norme française: AFNOR NF Z 47-100 "Principes directeurs pour l'établissement de thésaurus multilingues".

L'outil "Recherche par thésaurus" d'Equilibre se conforme en partie (la classification à facette n'est pas implémentée) aux définitions introduites par la norme internationale ISO 2788. Notamment, les noms de relation exposées ci-avant correspondent à la norme internationale.

 

Qu'est-ce que la recherche Web par thésaurus ?

Recherche thématique
La recherche web par thésaurus est une fonction de recherche d'informations sur un site web. C'est un nouveau moyen, très agréable pour l'internaute, de naviguer dans un graphe de thèmes, et de piloter sa navigation dans le site web.

La recherche web par thésaurus offre à l'internaute la sensation de naviguer dans les thèmes du site web. Il a ainsi un moyen de naviguer rapidement dans l'ensemble du site web, selon un cheminement thématique différent du cheminement pré-établi des liens hyper-texte.

La recherche web par thésaurus est organisée par le webmestre; le webmestre a donc là un moyen supplémentaire d'organiser le site d'une manière transversale. Le thésaurus permet en effet de définir une navigation autre que celle des liens hyper-texte.

Recherche par thésaurus et recherche par mots
Le moyen le plus courant de recherche d'informations sur un site web est la recherche par mots (aussi appelée "full-text" en anglais). Les documents contenant le(s) mot(s) tapé(s) par l'internaute sont présentés à l'utilisateur.

La recherche par mots est directe et simple, toutefois, elle est conceptuellement limitée, et il y a souvent une réponse "bruitée" (trop de réponses inadéquates) ou "silencieuse" (pas ou pas assez de réponse).

Elle suppose d'autre part que les concepts sont connus de l'utilisateur ou/et qu'il formule correctement sa requête. La navigation dans le thésaurus l'aide à spécifier sa requête tout en l'amenant vers des documents liés sémantiquement aux thèmes parcourus.
La recherche par thésaurus et la recherche par mots sont deux approches complémentaires, et les deux outils peuvent se trouver sur le site web de manière très profitable pour l'internaute.

Comment installer la recherche et la navigation par thésaurus sur votre site web ?

Les différents modules...
Le webmestre qui souhaite ajouter la recherche web par thésaurus d'Equilibre peut le faire sans modification importante du site qu'il administre : la structure du site, le contenu et le format des fichiers existant ne sont pas modifiés. Le webmestre construit son thésaurus dans l'outil graphique "Equilibre.thésaurus.générateur", puis il lance l'outil "Equilibre.thésaurus.créateur", qui génère automatiquement des pages HTML à ajouter au fichiers existant du site web.

Equilibre.thésaurus est constitué de trois modules, décrits dans le tableau suivant :

Nom du module Où le module est-il placé ? Que fait le module ?
Module "Créateur Thésaurus"  sur le PC du webmestre  Outil dédié du webmestre. Création et maintenance du thésaurus. Export du thésaurus vers le module "navigateur thésaurus" et vers le module "indexeur". 
Module "Générateur Navigateur Thésaurus"  sur le PC du webmestre ou serveur WEB  Ce module génère les Pages HTML pour l'utilisateur :
navigation dans le thésaurus et collecte des termes pour la recherche.  
Module optionnel "Indexeur Thésaurus"  sur le serveur WEB  Indexation de la base documentaire par rapport aux termes du thésaurus. 

Module Equilibre.thésaurus.créateur
Le module "Equilibre.thésaurus.créateur" (application sous PC/Windows) permet au webmestre de gérer la recherche web par thésaurus. Le thésaurus est créé et mis à jour dans un éditeur graphique. Une fonction "crawler" de l'outil crée automatiquement une image de la structure des documents du site. Le webmestre établit alors graphiquement l'indexation des documents du site avec les termes du thésaurus.

Création et mise à jour du thésaurus
L'outil de création de thésaurus permet au webmestre de construire le thésaurus de son site. L'outil offre trois vues : une vue "graphique", une vue "liste hiérarchisée" et une vue "liste alphabétique". La photo d'écran ci-après présente les trois vues pour un thésaurus consacré au nautisme.

Les différentes vues permettent de consulter le thésaurus existant, et d'y ajouter, supprimer ou modifier termes, relations, synonymes. L'outil contrôle à chaque modification que le thésaurus est bien formé :
  • chaque terme est unique dans le thésaurus (le même terme peut être utilisé dans différentes branches du thésaurus)
  • chaque synonyme est unique dans le thésaurus
  • il n'y a pas de relations de hiérarchie qui bouclent

Importation des documents du site
Une fonction "crawler" parcourt l'ensemble des répertoires et fichiers du site web et crée une image de ces fichiers dans l'éditeur de thésaurus.

Indexation des documents du site
Le webmestre peut mettre en correspondance les termes du thésaurus et les fichiers du site.

Export de thésaurus
Le thésaurus est exporté dans un fichier texte XML. Le résultat de l'indexation des documents du site par rapport au thésaurus est elle aussi exportée dans un fichier XML.

Module Equilibre.thésaurus.générateur
Le module "Equilibre.thésaurus.générateur" (une application JAVA sous Windows ou LINUX), prend en entrée les fichiers XML exportés de "Equilibre.thésaurus.créateur", et génère un ensemble de pages HTML. Ces pages HTML constituent un moyen de navigation dans le site à partir du thésaurus. Ces fichiers HTML doivent être ajoutés aux fichiers existant du site web.

Description technique
 
en cours de rédaction
 

Contactez-nous contact@equilibre.thesaurus.free.fr