cosinus salton

Le Cosinus de Salton : représenter par les vecteurs la pertinence d’une page

A la fois théorique et technique le référencement naturel repose sur ses propres lois. Nous savons que Google utilise 3 leviers pour répondre aux requêtes de chaque internaute. La popularité d’une page, l’accessibilité à celle-ci, et sa pertinence lexicale. Ce dernier point va faire l’objet de l’article à venir. Plongeons nous dans l’univers des mathématiques pour parler de pertinence sémantique, grâce au Cosinus de Salton.

Quelques définitions pour démarrer la lecture

Pour bien comprendre la théorie sur le cosinus de Salton, il est important de définir certaines expressions, pour être sûr de ne pas perdre le fil. Pour ceux qui connaitraient déjà les définitions de vecteur, espace vectoriel, lexie et cosinus, cliquez ici pour passer directement à la suite.

  • Un vecteur : On parle de vecteur lorsque l’on représente un déplacement entre deux points distincts. Situé sur un plan, le vecteur possède un sens, une direction et une longueur.
  •  

  • Un espace vectoriel : Un vecteur est un élément d’un espace vectoriel. Cet espace possède une structure, dans laquelle des combinaisons sont possibles. Il est possible d’effectuer des opérations entre les vecteurs de cet espace (attention, ce que j’avance ici est TRES largement vulgarisé, dans le but de faciliter la compréhension des notions de bases.). Exemple :

  • espace vectoriel cosinus salton

  • Une lexie : c’est tout simplement un élément qui compose un lexique. Elle peut être simple (référencement, stratégie….) ou composée (référencement naturel, stratégie digitale…). On l’oppose pour cet exercice aux stop-words, tel que « de », « et »… et aux verbes.
  •  

  • Cosinus : et la je ne peux pas faire plus simple que la définition donnée par Wikipédia : « La fonction cosinus est une fonction mathématique d’un angle. Dans un triangle rectangle, le cosinus d’un angle est le rapport de la longueur du côté adjacent par la longueur de l’hypoténuse. »

 

Ces quelques notions élémentaires sont essentielles pour bien comprendre le raisonnement autours du Cosinus de Salton. Etant donné que Google fonctionne avec des algorithmes, certaines notions mathématiques peuvent s’avérer efficace pour comprendre la logique des robots d’indexation.

Représenter un document dans un espace vectoriel

La théorie autours du Cosinus de Salton consiste donc à représenter une page web dans un espace défini par des vecteurs. Procédons par étapes pour expliquer la théorie. Je vais illustrer l’explication à travers un exemple précis. Pour appliquer les démarches selon vos propres critères, vous aurez besoins : d’une thématique, d’une page de contenu répondant à la thématique, d’une requête en lien avec cette thématique, et enfin d’un papier et d’un crayon, ça aide toujours 🙂 .

Étape 1 : Découper et organiser sa page de contenu en lexies

Autours d’un sujet choisi, il est évident que l’on utilisera un certains nombre de mots clés pour rester en cohérence avec la thématique voulu. Ce qui nous intéresse dans l’approche de Salton, c’est simplement l’occurrence des mots clés du document . La division du document en différents lexies (la définition est juste au dessus !) permet donc d’épurer le contenu en enlevant les stop-words et les verbes, afin de détecter combien de fois un mot (ou expression) revient dans le corps du document.
Débutons ensemble un exemple. Dans un bon nombre d’exposés sur la théorie du Cosinus de Salton, la thématique choisie tourne souvent autours des loutres et des rivières. Pour rester accordé avec cette tendance, voici un faux texte que l’on utilisera pour l’analyse :

La loutre de rivière vie… Dans les rivières ! Si la loutre choisi d’y vivre, c’est parce que les rivières sont pour les loutres le lieu idéal pour nager. Les rivières sont nombreuses à Condate ! On compte beaucoup de rivières ou les loutres aiment barboter !

Regroupons les lexies :

  • loutres de rivières : 1 occurrence
  • rivières : 4 occurrences
  • loutre : 3 occurrences

Étape 2 : Traçons l’espace vectoriel

Je pense qu’au vu d’un texte comme celui-là (dont vous admirerez la profondeur s’il vous plais !! 🙂 ), il est intéressant de concentrer l’exercice sur une requête telle que « loutre rivière ». Le plan dans lequel nous placerons nos vecteurs comportera donc deux axes : l’axe des abscisses (la barre horizontale), et l’axe des ordonnées (la barre verticale). On attribut maintenant un terme à chaque axe, par exemple rivière en abscisses et loutre en ordonnées. On obtient dans un premier temps ceci :

axe rivière loutre salton

Voila notre plan. Maintenant plaçons-y notre document !

Étape 3 : Représentation du document dans l’axe

Maintenant, imaginons une page web présentant le faux texte précédent. Nous nommerons cette page « Page 1 ». Afin de pouvoir placer cette page dans l’espace vectoriel présenté ci-dessus, il est impératif de lui attribuer des coordonnées. Ces coordonnées, nous allons les déterminer grâce à deux éléments : l’occurrence de chaque lexie sur le nombre total de lexies. Ainsi, pour correspondre aux axes du plan vectoriel, « Page 1 » aura pour coordonnées (4/8 ; 3/8), c’est à dire que le mot rivière (en abscisses) apparait 4 fois sur les 8 lexies, et que le mot loutre (en ordonnées) apparait 3 fois sur les 8 lexies. Pour placer ce point sur le plan vectoriel, je vais donc adapter la graduation des axes, aux coordonnées que je viens d’établir (je vais diviser les axes en 8ème). Je place ensuite mon point dans l’espace vectoriel, et je trace une droite partant de zéro (0 ; 0) au point (4/8 ; 3/8). Voici en image les étapes du tracé :

 

Graduation axe Placage des points Vecteur Page 1

 

A ce stade, nous avons donc réussi à positionner notre document dans l’espace vectoriel, régi par les expressions « loutre » et « rivière ». Passons à l’étape suivante.

Étape 4 : Comparer son document à une requête avec le Cosinus de Salton

Le travail consiste donc maintenant à placer une requête dans cet espace vectoriel. Prenons donc la requête « loutre rivière », nommée « Requête ». Pour lui attribuer des coordonnées, rien de plus simple, il suffit de faire la même opération que pour le faux texte, c’est à dire nombre d’occurrence / nombre total de lexies. Ici « Requête » a donc pour coordonnées (1/2 ; 1/2), ce qui reviens à placer le point (4/8 ; 4/8). Et oui, 4/8 = 1/2. Nous obtenons donc un plan comme celui-ci :

Placage requête
 
C’est ici, que le calcul du Cosinus de Salton entre en jeu ! En effet, cette opération va donc s’appliquer à l’angle formé entre les deux vecteurs « Page 1 » et « Requête ». Il faut savoir que la valuer du cosinus est comprise entre 0 et 1. C’est une démonstration mathématique que je ne vais pas aborder ici, mais pour faire simple, plus la valeur du cosinus est proche de 1, plus l’angle est petit. Si j’applique donc cette règle au plan ci-dessus, cela signifie que plus le cosinus de l’angle entre ma page et la requête est grand, plus ma page se rapproche de la requête. Elle est potentiellement une réponse pertinente à la requête formulée par l’internaute.

Étape 5 : Que faire à partir de cela ?

Pour vous prouver que vous ne vous êtes pas arraché les cheveux pour rien 🙂 voici en quoi cet exercice est utile. Dans un premier temps, vous pouvez comparer deux, trois, quatre… pages à la requête formulée par l’internaute. Rien de plus simple, si un autre document peut être placé dans le plan vectoriel choisi, attribuez lui simplement des coordonnées comme l’on a fait ci-dessus, et comparez l’écart entre les angles Pages/Requêtes. La page présentant le cosinus le plus élevé, donc l’angle le plus fermé sera la page la plus pertinente vis-à-vis de la requête. Exemple :

Comparaison-deux-pages

Dans le cas ci-dessus, « Page 1 » possède une pertinence sémantique plus importante que « Page 2 ». Le cosinus de l’angle « Page 1 » et « Requête » est plus élevé que le cosinus « Page 2 » et « Requête ».
Notez que dans notre développement nous n’utilisons que deux axes, car nous nous focalisons uniquement que sur deux termes. Rien ne vous empêche de rajouter une troisième dimension, seulement cela nécessitera un exercice dans un plan vectoriel à trois dimension, impliquant des notions des géométrie dans l’espace… Pas toujours facile !
Quoi qu’il en soi, c’est un procédé assez simple pour visualiser simplement la pertinence sémantique de plusieurs pages. Il y a cependant des limites à cette pratique, je reviendrai dessus un peu plus bas dans l’article.
Dans un seconde temps, une fois que l’on observe l’écart entre une page et une requête, il est possible de procéder à ce que l’on appelle un Alignement sémantique. Il s’agit de retravailler le contenu d’une page pour le faire correspondre le plus possible à une requête formulée par un internaute. Donc, réduire l’angle entre le vecteur « Page » et le vecteur « Requête ». Encore une fois, des limites existent, et je vais vous en parler maintenant.

Avantages et Limites de la théorie du Cosinus de Salton

D’un point de vue SEO, il ne s’agit pas de faire des calculs infinie pour obtenir ce résultats. L’aspect mathématique vient juste appuyer le fait que ce rapprochement entre vecteurs, et donc cette recherche de pertinence est parfaitement démontrable, et qu’elle ne sort du chapeau de personne. Pour le référencement naturel, il s’agit principalement de comprendre et de visualiser (comme je disais précédemment) quelle pertinence une page, un document ou un contenu peut obtenir. Ce processus de calcul de pertinence de page est effectué par les moteurs de recherche. Dans le but d’apporter une cohérence dans le contenu que l’on produit, je pense que comprendre un théorème tel que le Cosinus de Salton permet de construire une base sémantique efficace. En d’autres termes, il s’agit de donner aux moteurs de recherche ce qu’ils veulent.
Néanmoins, cette approche ne révolutionne pas le classement dans les résultats de recherches. Le Cosinus de Salton est un calcul effectué parmi des dizaines (voir des centaines) d’autres, lors du passage et du traitement par les robots. On ne peut finalement qu’estimer une certaine performance pour une page, car s’ajoute à ce calcul les liens entrant, les performances techniques du site, son ancienneté, sa structure… Bref, bienvenue dans l’univers des algorithmes à perte de vue. De plus, à vouloir trop se rapprocher d’une requête, je pense que le contenu perd de son attractivité pour l’internaute, et peut laisser transparaître un aspect « sur-optimisé », car n’oublions pas qu’une des variables du calcul du Cosinus de Salton repose sur l’occurrence d’expressions ou de mots clés. Le meilleurs exemple est le faux texte utilisé pour l’exemple ci-dessus.

Et pour finir…

Si vous arrivez jusqu’ici, c’est que ou vous avez tout lu, ou vous avez zappé des étapes 🙂 Rien de grave, si quelques choses vous échappe, laissez un petit commentaire, ou contactez-moi via ma page contact. J’ai pris un réel plaisir à écrire cet article. Je n’y serai cependant pas parvenu sans l’aide des frères Peyronnet, ayant déjà traité le sujet « Modèle vectoriel et cosinus de Salton ». N’hésitez pas à consulter leur site, c’est toujours une mine d’informations. Quant à moi, je n’ai plus qu’à vous remercier pour la lecture, et surtout n’hésitez pas à partager l’article ! 🙂

4 Comments

  1. Précisions :

    Il ne faut pas calculer l’angle mais bien le cosinus, même si pour vulgariser c’est plus simple de parler d’angle c’est vrai, mais si tu veux calculer avec 3,4, 5, …N dimensions (eh oui un texte contient souvent beaucoup beaucoup plus que 2 mots:)tu seras obligé de calculer le cosinus 🙂

    Formule du cosinus entre 2 vecteurs u et v : cos(u,v)= produit-scalaire(u,v)/(norme(u)*norme(v))

    A mon avis calculer la cosinus entre une requête et un texte n’a pas de sens , car plus un texte a de mots et plus le cosinus sera petit (le nombre de mots non inclus dans la requête faisant augmenter le produit des normes sans faire augmenter le produit scalaire), cela irait donc à l’encontre de la production de textes très riches.
    En revanche cela fait plus sens dans le calcul de la proximité entre une requête et une balise title : si la balise « match la requête alors le cosinus sera égal à 1, en revanche plus il y aura de mots dans la balise et plus le cosinus diminuera

    Je parcours ton blog et je le trouve très intéressant, tu abordes des notions rarement évoquées dans la sphére SEO française

  2. Intéressant comme article et ça me rappelle clairement la conférence de Christian Méline au SEO Camp de Nantes en 2014. J’imagine que ça n’a pas dû être simple de vulgariser le concept dans cet article, mais en tout cas ça fait plaisir de voir ton implication de plus en plus forte en SEO 😉

Leave a Comment