Bon robots.txt

Le fichier robots.txt — c'est le principal fichier qui décrit les règles de traitement des pages aux moteurs de recherche des robots. Ce fichier est nécessaire pour spécifier le nom principal du site, la carte du site (sitemap.xml), ouverts et fermés sections du site.
Le fichier robots.txt comprend les directives suivantes:

  • User-agent d'une directive indiquant pour quel robot les règles qui suivent
    • * - tous les robots
    • Yandex — le principal robot Yandex
    • Googlebot — base du robot de Google
    • StackRambler est un robot de recherche Rambler
    • Aport est un robot de recherche Altavista
    • Slurp — robot de Yahoo
    • MSNBot — robot MSN
  • Disallow — directive de l'interdiction du site
  • Allow — directive autorisation du site
  • Host — directive instructions de base le nom d'un site
  • Sitemap— directive indications de la carte du site (sitemap.xml)
  • Crawl-delay — la directive indiquant le nombre de secondes que le robot peut attendre de réponse du site (il est nécessaire d'fortement chargés des ressources pour que le robot n'a pas vu le site inaccessible)
  • Clean-param — directive décrit les paramètres dynamiques n'ont aucune incidence sur le contenu du site

Помимо директив в robots.txt используются спец символы:

  • * - любай (y compris le vide), la séquence de caractères
  • $ — une limitation de la règle

Pour la rédaction de la robots.txt utilise ces directives et chanté des symboles sur le principe suivant:

  • Spécifie le nom du robot pour lequel est écrit une liste de règles
    (User-agent: * une règle pour tous les robots)
  • Écrit la liste des interdits sections du site spécifié robot
    ( Disallow: / - l'interdiction de l'indexation de l'ensemble du site)
  • Écrit la liste des sections du site
    (Allow: /home/ autorisé la section home)
  • Indique le nom du site
    (Host: crazysquirrel.ru — le nom de base du site crazysquirrel.ru)
  • Spécifie le chemin d'accès absolu au fichier sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Si le site n'a pas interdites partitions robots.txt doit comporter au moins 4 points:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Vérifier robots.txt et comment il affecte l'indexation du site à l'aide d'outils Yandex

Voir et laisser des commentaires