Windows 2003 server                               Windows Longhorn
Merci a Philippe, membre de la liste d entraide SoSWindows pour sa participation.


Comment les moteurs de recherche classent-ils leurs résultats ?

 
Mieux utiliser les outils de recherche, c'est également mieux comprendre comment ils fonctionnent. Et, notamment, comment ils classent les informations fournies lorsque vous recherche une information en leur sein. Après les annuaires la semaine dernière, on passe aux moteurs de recherche...
 
Nous avons vu, la semaine dernière, comment les annuaires classaient les résultats qu'ils proposaient aux internautes.
 
En ce qui concerne les moteur de recherche, qui effectuent leurs investigations dans plusieurs centaines de millions de pages Web, la situation est plus complexe. En effet, de nombreux paramètres sont pris en compte pour effectuer le calcul de pertinence. Citons :
 
* la présence du mot demandé dans le titre du document ;
 
* sa présence dans le texte de la page, mais cela ne suffit pas : une page contenant le mot demandé en haut du document sera mieux "notée" qu'une autre le présentant en bas de page. De nombreux critères sur la façon dont le texte est affiché sont ainsi pris en compte, comme la proximité, la mise en exergue (gras, taille des caractères, etc.) ;
 
* la présence du mot demandé dans certains champs qui n'apparaissent pas sur la page mais qui sont fournis aux outils de recherche. On appelle ces champs les "balises Meta" ;
 
* sa présence dans l'adresse de la page (exemple : www.bidule.fr/dossier/france2.html) ;
 
* l'indice de popularité du document (le nombre de liens "pointant" vers cette page sur le Web).
 
Les critères de pertinence sont très nombreux pour les moteurs de recherche. Historiquement, ils se sont basés, pour classer leurs documents, sur des critères dits "in the page", c'est-à-dire contenus dans le document à classer : titre, texte visible, balises Meta, etc.
 
Nouveaux critères : "off the page"
 
Mais ces critères n'ont rapidement pas suffi, car trop de "petis malins" ont essayé de les détourner à leur avantage pour voir leur site bien classé sur ces outils. Aussi, les moteurs de recherche ont imaginé de nouveaux critères, dits "off the page". Ceux-ci sont alors pris en compte, non plus dans le contenu de la page, mais dans son environnement. L'indice de popularité a été le premier d'entre eux. Autre exemple de critère "off the page" : l'indice de clic, symbolisé par le système DirectHit (http://www.directhit.com/).
 
Pour bien comprendre comment il fonctionne, analysons le comportement "classique" d'un internaute devant un moteur de recherche. Il va sur la page d'accueil, saisit un ou plusieurs mots dans un formulaire, consulte la page de résultats proposée (sur laquelle plusieurs liens sont indiqués, classés par ordre de pertinence), il choisit l'un d'entre eux, va sur le site correspondant, le consulte. Si cette page ne lui convient pas, il revient sur la page de résultats du moteur (par le bouton "précédent" du navigateur), choisit un autre lien parmi ceux proposés, jusqu'à ce qu'il ait trouvé son bonheur.
 
DirectHit va, en fait, fonctionner en tâche de fond sur un moteur existant. À chaque consultation d'un internaute, il va noter sur quel lien il a cliqué et quel était le rang (le classement) de ce lien. Il calcule ensuite combien de temps l'utilisateur met avant de revenir sur la page de résultats. S'il ne revient pas, il en "déduit" que le site proposé était a priori pertinent. Son adresse sera alors mieux classée dans les résultats suivants, lors d'une interrogation sur le même mot-clé. Et ainsi de suite, les interrogations et la façon d'interroger et de naviguer des internautes vont alors enrichir la base de données de DirectHit. Ingénieux, non ?
 
On peut le voir, le système de classement des moteurs de recherche est basé sur des calculs de pertinence associés à de très nombreux critères. Et tout cela en quelques dizièmes de secondes. Plutôt pas mal pour trier parmi plusieurs centaines de milions de pages Web, non ?
 
Adresses :
Les principaux moteurs de recherche francophones (entre parenthèses, le nombre de pages web en français référencées) :
 
Voila (30 millions)
http://www.voila.fr/
 
Altavista France (13,5 millions)
http://www.altavista.fr/
 
Hotbot France (13 millions)
http://www.hotbot.fr/
 
Lycos France (11 millions)
http://www.lycos.fr/
 
Les principaux moteurs de recherche anglophones (entre parenthèses, le nombre de pages web en toutes langues référencées) :
 
Fast/Alltheweb (625 millions)
http://www.alltheweb.com/
 
Lycos (Fast) (625 millions)
http://www-english.lycos.com/
 
Google (620 millions)
http://www.google.fr/
 
Altavista (550 millions)
http://www.altavista.com/
 
HotBot (Inktomi) (500 millions)
http://www.hotbot.lycos.com/
 
NorthernLight (350 millions)
http://www.northernlight.com/
 
Excite (250 millions)
http://www.excite.com/

RETOUR  SoSLiens