Merci a Philippe, membre de la
liste d entraide SoSWindows
pour sa participation.
Comment
les moteurs de recherche classent-ils leurs résultats ?
Mieux utiliser les outils de recherche, c'est également mieux
comprendre comment ils fonctionnent. Et, notamment, comment ils classent
les informations fournies lorsque vous recherche une information en leur
sein. Après les annuaires la semaine dernière, on passe aux moteurs de
recherche...
Nous avons vu, la semaine dernière, comment les annuaires classaient
les résultats qu'ils proposaient aux internautes.
En ce qui concerne les moteur de recherche, qui effectuent leurs
investigations dans plusieurs centaines de millions de pages Web, la
situation est plus complexe. En effet, de nombreux paramètres sont pris
en compte pour effectuer le calcul de pertinence. Citons :
* la présence du mot demandé dans le titre du document ;
* sa présence dans le texte de la page, mais cela ne suffit pas : une
page contenant le mot demandé en haut du document sera mieux "notée"
qu'une autre le présentant en bas de page. De nombreux critères sur la
façon dont le texte est affiché sont ainsi pris en compte, comme la
proximité, la mise en exergue (gras, taille des caractères, etc.) ;
* la présence du mot demandé dans certains champs qui n'apparaissent
pas sur la page mais qui sont fournis aux outils de recherche. On
appelle ces champs les "balises Meta" ;
* sa présence dans l'adresse de la page (exemple : www.bidule.fr/dossier/france2.html)
;
* l'indice de popularité du document (le nombre de liens
"pointant" vers cette page sur le Web).
Les critères de pertinence sont très nombreux pour les moteurs de
recherche. Historiquement, ils se sont basés, pour classer leurs
documents, sur des critères dits "in the page", c'est-à-dire
contenus dans le document à classer : titre, texte visible, balises
Meta, etc.
Nouveaux critères : "off the page"
Mais ces critères n'ont rapidement pas suffi, car trop de "petis
malins" ont essayé de les détourner à leur avantage pour voir
leur site bien classé sur ces outils. Aussi, les moteurs de recherche
ont imaginé de nouveaux critères, dits "off the page".
Ceux-ci sont alors pris en compte, non plus dans le contenu de la page,
mais dans son environnement. L'indice de popularité a été le premier
d'entre eux. Autre exemple de critère "off the page" :
l'indice de clic, symbolisé par le système DirectHit (http://www.directhit.com/).
Pour bien comprendre comment il fonctionne, analysons le comportement
"classique" d'un internaute devant un moteur de recherche. Il
va sur la page d'accueil, saisit un ou plusieurs mots dans un
formulaire, consulte la page de résultats proposée (sur laquelle
plusieurs liens sont indiqués, classés par ordre de pertinence), il
choisit l'un d'entre eux, va sur le site correspondant, le consulte. Si
cette page ne lui convient pas, il revient sur la page de résultats du
moteur (par le bouton "précédent" du navigateur), choisit un
autre lien parmi ceux proposés, jusqu'à ce qu'il ait trouvé son
bonheur.
DirectHit va, en fait, fonctionner en tâche de fond sur un moteur
existant. À chaque consultation d'un internaute, il va noter sur quel
lien il a cliqué et quel était le rang (le classement) de ce lien. Il
calcule ensuite combien de temps l'utilisateur met avant de revenir sur
la page de résultats. S'il ne revient pas, il en "déduit"
que le site proposé était a priori pertinent. Son adresse sera alors
mieux classée dans les résultats suivants, lors d'une interrogation
sur le même mot-clé. Et ainsi de suite, les interrogations et la façon
d'interroger et de naviguer des internautes vont alors enrichir la base
de données de DirectHit. Ingénieux, non ?
On peut le voir, le système de classement des moteurs de recherche est
basé sur des calculs de pertinence associés à de très nombreux critères.
Et tout cela en quelques dizièmes de secondes. Plutôt pas mal pour
trier parmi plusieurs centaines de milions de pages Web, non ?
Adresses :
Les principaux moteurs de recherche francophones (entre parenthèses, le
nombre de pages web en français référencées) :
Voila (30 millions)
http://www.voila.fr/
Altavista France (13,5 millions)
http://www.altavista.fr/
Hotbot France (13 millions)
http://www.hotbot.fr/
Lycos France (11 millions)
http://www.lycos.fr/
Les principaux moteurs de recherche anglophones (entre parenthèses, le
nombre de pages web en toutes langues référencées) :
Fast/Alltheweb (625 millions)
http://www.alltheweb.com/
Lycos (Fast) (625 millions)
http://www-english.lycos.com/
Google (620 millions)
http://www.google.fr/
Altavista (550 millions)
http://www.altavista.com/
HotBot (Inktomi) (500 millions)
http://www.hotbot.lycos.com/
NorthernLight (350 millions)
http://www.northernlight.com/
Excite (250 millions)
http://www.excite.com/