L'un des outils de gestion de l'indexation des sites par les moteurs de recherche est le fichier robots.txt. Il est principalement utilisé pour empêcher tout ou seulement certains robots de télécharger le contenu de certains groupes de pages. Cela vous permet de vous débarrasser des "poubelles" dans les résultats des moteurs de recherche et, dans certains cas, d'améliorer considérablement le classement de la ressource. Il est important d'avoir le bon fichier robots.txt pour une application réussie.
Nécessaire
éditeur de texte
Instructions
Étape 1
Faites une liste des robots pour lesquels des règles d'exclusion spéciales seront définies ou des directives du standard étendu robots.txt, ainsi que des directives non standard et spécifiques (extensions d'un moteur de recherche spécifique) seront utilisées. Saisissez dans cette liste les valeurs des champs User-Agent des en-têtes de requête HTTP envoyés par les robots sélectionnés au serveur du site. Les noms des robots peuvent également être trouvés dans les sections de référence des sites des moteurs de recherche.
Étape 2
Sélectionnez les groupes d'URL des ressources du site auxquels l'accès doit être refusé à chacun des robots de la liste compilée lors de la première étape. Effectuez la même opération pour tous les autres robots (un ensemble indéfini de robots d'indexation). En d'autres termes, le résultat devrait être plusieurs listes contenant des liens vers des sections du site, des groupes de pages ou des sources de contenu multimédia qui sont interdites d'indexation. Chaque liste doit correspondre à un robot différent. Il devrait également y avoir une liste d'URL interdites pour tous les autres bots. Faites des listes basées sur la comparaison de la structure logique du site avec l'emplacement physique des données sur le serveur, ainsi qu'en regroupant les URL des pages selon leurs caractéristiques fonctionnelles. Par exemple, vous pouvez inclure dans les listes de refus le contenu de tous les catalogues de services (regroupés par emplacement) ou de toutes les pages de profil utilisateur (regroupées par objectif).
Étape 3
Sélectionnez les signes d'URL pour chacune des ressources contenues dans les listes compilées dans la deuxième étape. Lors du traitement des listes d'exclusion pour les robots utilisant uniquement les directives robots.txt standard et les robots non définis, mettez en surbrillance les portions d'URL uniques de la longueur maximale. Pour les autres ensembles d'adresses, vous pouvez créer des modèles conformément aux spécifications de moteurs de recherche spécifiques.
Étape 4
Créez un fichier robots.txt. Ajoutez-y des groupes de directives, dont chacune correspond à un ensemble de règles d'interdiction pour un robot spécifique, dont la liste a été compilée dans la première étape. Cette dernière doit être suivie d'un groupe de directives pour tous les autres robots. Séparez les groupes de règles par une seule ligne vierge. Chaque ensemble de règles doit commencer par une directive User-agent identifiant le robot, suivie d'une directive Disallow, qui interdit l'indexation des groupes d'URL. Faites les lignes obtenues à la troisième étape avec les valeurs des directives Disallow. Séparez les directives et leur signification par deux points. Considérez l'exemple suivant: User-agent: YandexDisallow: /temp/data/images/User-agent: Moteur de recherche Yandex pour ne pas indexer l'URL qui contient la sous-chaîne /temp/data/images/. Il empêche également tous les autres robots d'indexer les URL contenant /temp/data/.
Étape 5
Complétez le fichier robots.txt avec des directives standard étendues ou des directives de moteur de recherche spécifiques. Des exemples de telles directives sont: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.