(13/2/2002) - TECHNOLOGIE DES MOTEURS DE RECHERCHE
Les technologies des
moteurs de recherche en 10 questions
Dans le domaine des moteurs
de recherche, les discours des éditeurs semblent
souvent assez proches. Partant tous d'une logique
applicative de traitement statistique, la plupart
d'entre eux se sont équipés au fil des années
d'analyseurs sémantiques et grammaticaux afin de
prendre en compte le sens du langage. Pour mieux
appréhender ce déluge de termes techniques, qui
finit par brouiller la compréhension des offres,
voici quelques points de repères...
Consulter les autres
Questions-Réponses
Les moteurs de recherche
possèdent tous leur index. A quoi sert-il ? Il
est difficile de parler de solutions de recherche
documentaire sans parler d'indexation. Présent dans
toute application de recherche digne de ce nom, un
index a pour but de référencer l'ensemble de la
base de documents. Généré par un moteur
d'indexation ou de classement, il se présente
généralement sous la forme d'un ou de plusieurs
fichiers de description de contenu.
Que décrit l'index d'un
moteur de recherche ? Les systèmes d'indexation
se chargent le plus souvent d'identifier l'ensemble
des mots des textes gérés par le moteur ainsi que
leur position. Ce processus propre au domaine
informatique a été directement initié par les
éditeurs de solutions -et en particulier ceux qui
font la promotion des méthodes de recherche
s'adossant à une indexation "plein texte"
(tel que Verity par exemple).
Existe t-il d'autres
sortes d'index ? Certains moteurs s'appuient
effectivement sur des types d'index différents qui
sont issus de démarches plus traditionnelles. On
peut citer d'une part la tradition documentaliste,
qui s'articule autour d'une indexation des textes
par mots clés - éventuellement sélectionnés à
partir de thésaurus (organisations de termes en
familles et sous-familles). Et d'autre part les
méthodologies plus proches du monde des
bibliothèques, qui recommandent la mise au point de
plans de classement (ou taxonomies) pour
catégoriser les documents. Un procédé qui est
souvent jugé peu souple en cas de modifications.
Les moteurs incluent-il
systématiquement une composante statistique ?
L'ensemble des moteurs de recherche, y compris les
plus simples d'entre-eux (comme les moteurs
booléens), disposent en effet d'une logique
statistique -basée principalement sur des
algorithmes. Appliquée à l'index, leur objectif
final est le plus souvent de trier les réponses par
ordre de pertinence.
Quels sont les différents
types d'algorithmes ? Il existe de très
nombreuses catégories d'algorithmes. Certains
moteurs -comme celui de Verity- en intègrent plus
de 30. Ces formules mathématiques peuvent être
classées en deux groupes. Les premières comparent
la répétition et l'espacement des termes contenus
dans la requête avec ceux répertoriés par
l'index, puis appliquent un taux de pertinence aux
réponses correspondantes. Les secondes vont
effectuer le classement en partant du principe que
plus un objet textuel est rare plus sa valeur
informative est élevée, technique utilisée
notamment par Triple-Hop.
Qu'en est-il des moteurs
sémantiques ? Au delà du traitement
statistique, certains moteurs -dits sémantiques-
intègrent également une batterie d'analyseurs
linguistiques (sémantiques, syntaxiques etc.) et de
dictionnaires permettant de ne plus seulement
indexer des mots, mais également des concepts (ou
expressions) ainsi que des synonymes et autres
termes connexes. Ce traitement permet d'optimiser
les recherches qui seront lancées par la suite sur
l'index.
Quel est le rôle des
analyseurs syntaxiques ? Ces composants se
chargent d'interpréter la structure des phrases
afin de repérer les mots vides de sens (le, la,
etc.) et d'isoler les concepts dans les textes. Dans
ce dernier cas, il s'agira par exemple de saisir que
la suite de mot "le la du diapason"
correspond à une expression.