Indexation des sites

De Wiki.

Comment empêcher les robots des moteurs d'indexer nos sites sur les versions locales (emulgator) et preprod.

Sommaire

En utilisant le fichier robots.txt

Pour masquer le site à Google (search) Uniquement :

User-agent: Googlebot
Disallow: /

Pour masquer le site à tous les moteurs de recherche

User-agent: *
Disallow: /

Si vous avez une version https (+gourmande en ressources) et une version http , et vous souhaitez masquer la version https :

sur le robots.txt de la version http

User-agent: *
Allow: /

sur le robots.txt de la version https

User-agent: *
Disallow: /

Masquer un répertoire particulier de votre site web toujours via à vis de Google.

User-agent: Googlebot
Disallow: /Nom_du_Repertoire/

Masquer l’indexation par Google de certains types de fichier (word par exemple)

User-agent: Googlebot
Disallow: /*.doc$

Une Image en particulier

User-agent: Googlebot-Image
Disallow: /image.jpg

Masquer toutes les images au vu de Google Images

User-agent: Googlebot-Image
Disallow: /


En utilisant les meta-tags

Placer cette meta tag entre votre balise <head> et </head>

<meta name=”robots” content=”noindex, nofollow”>

Pour empêcher l’indexation des images uniquement mais indexer le site :

<meta name=”robots” content=”noimageindex”>

Pas de version de votre site sur le cache de Google

<meta name=”Googlebot” content=”noarchive”>

cela évite simplement que votre blog se retrouve sur le cache de google, mais n’influe pas sur le réferencement du site.

Supprimer le petit snippet sur les SERPs

<meta name=”googlebot” content=”nosnippet”>


Sur le CMS Adequat'website

Pour chaque site, renseignez la ligne Robots avec "noindex, nofollow", puis régénérez les pages

Sur Wordpress

Dans les paramètres de lecture, décochez la case autorisant l'indexation du site :

Si vous utilisez un module de SEO, le désactiver.

Sur Drupal

Lors d'un passage en production

Ne pas oublier de :

- sur le CMS Adequat'website : modifier le fichier robots.txt et le champs ROBOTS "index,follow" pour chaque site
- sur Wordpress : modifier le fichier robots.txt, autoriser l'indexation du site, et activer et paramétrer les modules SEO
- sur Drupal :