Bloquer ou autoriser les AI crawlers : GPTBot, ClaudeBot, PerplexityBot

GPTBot, ClaudeBot, PerplexityBot visitent votre site chaque jour. Apprenez à les autoriser ou bloquer via robots.txt pour protéger votre contenu et maximiser votre visibilité dans les réponses IA.

Victor Viennot

Consultant en stratégie digitale et créateur d’outils marketing propulsés par l’IA.
J’aide les entreprises à gagner en visibilité et à communiquer plus efficacement.

Publié le 6 mai 2026

Réponse courte :

Pour bloquer ou autoriser les AI crawlers, modifiez votre fichier robots.txt en ciblant chaque user-agent (GPTBot, ClaudeBot, PerplexityBot…). La stratégie optimale consiste à autoriser les crawlers de récupération en temps réel pour la visibilité IA, tout en bloquant ceux dédiés à l’entraînement des modèles sur vos contenus sensibles.

Chaque jour, des dizaines de robots d’indexation IA parcourent votre site sans que vous le sachiez : GPTBot d’OpenAI, ClaudeBot d’Anthropic, PerplexityBot… Ils aspirent votre contenu pour entraîner des modèles ou alimenter des réponses en temps réel. Bonne nouvelle : vous avez le contrôle total. Mauvaise nouvelle : la plupart des propriétaires de sites ne le savent pas encore.

En résumé : Vous pouvez autoriser ou bloquer chaque AI crawler individuellement via votre fichier robots.txt. La décision dépend de votre stratégie de visibilité IA (GEO) et de la sensibilité de votre contenu. Ce guide vous explique comment faire, étape par étape, avec des exemples concrets pour les PME, les organismes de formation et les professions juridiques.

Étape 1 — Comprendre ce que font réellement ces robots

Les AI crawlers ne fonctionnent pas comme Googlebot. Ils ont deux usages distincts :

L’entraînement des modèles : votre contenu sert à améliorer les LLM (GPT-4, Claude, etc.). Ce crawl est permanent et massif.
La récupération en temps réel : des outils comme Perplexity AI ou ChatGPT avec navigation web visitent votre site pour répondre à des requêtes utilisateurs maintenant.

Ces deux cas ne méritent pas la même réponse. Bloquer l’entraînement mais autoriser la récupération en temps réel est une stratégie parfaitement viable — et souvent la plus pertinente pour une PME qui veut être citée dans les réponses IA.

En 2025, Cloudflare estimait que les AI crawlers représentaient entre 5 % et 12 % du trafic de crawl total sur les sites qu’ils analysaient. Ce chiffre continue de croître en 2026 avec la multiplication des agents IA autonomes.

Étape 2 — Identifier les principaux AI crawlers et leurs user-agents

Voici les agents les plus courants que vous rencontrerez dans vos logs serveur :

Crawler	User-agent	Éditeur	Usage principal
GPTBot	`GPTBot`	OpenAI	Entraînement + navigation web
ClaudeBot	`ClaudeBot`	Anthropic	Entraînement des modèles Claude
PerplexityBot	`PerplexityBot`	Perplexity AI	Réponses en temps réel
ChatGPT-User	`ChatGPT-User`	OpenAI	Navigation web via ChatGPT
Google-Extended	`Google-Extended`	Google	Entraînement Gemini / Bard
Bytespider	`Bytespider`	ByteDance / TikTok	Entraînement modèles internes
Meta-ExternalAgent	`Meta-ExternalAgent`	Meta	Entraînement Llama
Applebot-Extended	`Applebot-Extended`	Apple	Entraînement Apple Intelligence

Important : certains crawlers respectent scrupuleusement le robots.txt (OpenAI, Anthropic, Google). D’autres, comme Bytespider, ont historiquement ignoré ces directives. Pour ces derniers, une règle de pare-feu au niveau serveur ou Cloudflare est plus efficace.

Étape 3 — Accéder à votre fichier robots.txt et le modifier

Votre fichier robots.txt est accessible à la racine de votre domaine : https://votresite.fr/robots.txt. Sur WordPress, vous pouvez le modifier via Yoast SEO, Rank Math, ou directement en FTP à la racine du serveur.

Pour bloquer un crawler spécifique :

User-agent: GPTBot Disallow: /

Pour bloquer plusieurs crawlers d’un coup :

User-agent: GPTBot User-agent: ClaudeBot User-agent: Google-Extended Disallow: /

Pour autoriser un crawler sur tout le site :

User-agent: PerplexityBot Allow: /

Pour une approche chirurgicale — bloquer l’accès aux pages sensibles uniquement :

User-agent: GPTBot Disallow: /espace-client/ Disallow: /documents-confidentiels/ Allow: /blog/ Allow: /

Cette dernière approche est particulièrement pertinente si vous voulez être visible dans les réponses IA tout en protégeant certaines zones de votre site.

Étape 4 — Choisir votre stratégie : bloquer ou autoriser ?

Il n’existe pas de réponse universelle. Voici une matrice de décision adaptée aux profils que nous accompagnons chez EVICO :

Type de site	Contenu sensible ?	Objectif visibilité IA ?	Recommandation
Blog / site vitrine PME	Non	Oui	Tout autoriser
Organisme de formation	Partiellement (espaces apprenants)	Oui (catalogue public)	Autoriser le catalogue, bloquer les espaces privés
Cabinet d’avocats	Oui (données clients)	Oui (articles juridiques)	Autoriser le blog, bloquer tout le reste
Étude notariale	Oui (actes, tarifs)	Modéré	Bloquer l’entraînement, autoriser Perplexity
E-commerce / SaaS	Oui (prix, données)	Selon stratégie	Cas par cas selon compétitivité

Pour un cabinet d’avocats travaillant son référencement, la règle d’or est simple : le contenu éditorial (articles, guides juridiques) doit être accessible aux crawlers IA pour générer de la visibilité dans les réponses. Les coordonnées clients, les dossiers et les espaces sécurisés doivent être hermétiquement bloqués.

Étape 5 — Implémenter la balise meta robots pour un contrôle page par page

Le robots.txt agit au niveau du site. Pour un contrôle plus fin, utilisez la balise meta dans le de chaque page :

La directive noai est reconnue par un nombre croissant de crawlers IA en 2026. Elle indique que la page ne doit pas être utilisée pour l’entraînement des modèles, sans pour autant bloquer le crawl classique pour le SEO Google.

Sur WordPress avec Yoast ou Rank Math, vous pouvez appliquer cette directive à des catégories entières de pages en quelques clics, sans toucher au code.

Étape 6 — Vérifier et auditer votre configuration

Une fois votre robots.txt mis à jour, vérifiez que la configuration est correctement interprétée :

Testez votre robots.txt via Google Search Console (outil de test intégré) pour valider la syntaxe.
Analysez vos logs serveur pour confirmer que les user-agents ciblés ne visitent plus les URLs bloquées. Des outils comme AWStats, GoAccess ou Matomo permettent de filtrer par user-agent.
Utilisez Cloudflare AI Audit si votre site est derrière Cloudflare : ce tableau de bord liste en temps réel tous les AI crawlers détectés et vous permet de les bloquer en un clic, même ceux qui ignorent le robots.txt.
Revérifiez tous les 3 mois : de nouveaux crawlers apparaissent régulièrement. En 2026, on compte plus de 60 user-agents IA référencés contre une vingtaine fin 2023.

Exemples sectoriels concrets

Organisme de formation : maximiser la visibilité sur les requêtes IA

Un organisme de formation qui référence ses formations sur son site WordPress veut que ses programmes apparaissent quand un utilisateur demande à Perplexity ou ChatGPT « quelle formation Excel à Bordeaux ? ». La stratégie optimale : autoriser PerplexityBot et ChatGPT-User sur l’ensemble du catalogue public, bloquer GPTBot et ClaudeBot sur les espaces apprenants et les documents pédagogiques téléchargeables.

Si vous gérez votre catalogue via Digiforma, la intégration Digiforma sur WordPress génère des pages de formation avec leurs propres URLs — assurez-vous que ces URLs sont bien accessibles aux crawlers IA que vous souhaitez autoriser, et que les pages de connexion apprenant sont explicitement bloquées.

Pour les organismes qui réfléchissent à leur présence digitale globale, notre accompagnement SEO dédié aux organismes de formation intègre désormais systématiquement une stratégie GEO.

Cabinet d’avocats : protéger sans disparaître

Un cabinet d’avocats spécialisé en droit des affaires publie des articles de fond sur son blog (jurisprudence, actualités réglementaires). Ce contenu est exactement ce que les IA génératives citent en réponse aux questions juridiques. Le bloquer serait une erreur stratégique majeure.

En revanche, les pages « Espace client », les formulaires de contact avec données personnelles et les mentions d’honoraires doivent être hermétiquement protégées. Une configuration robots.txt avec Allow: /blog/ et Disallow: / pour les crawlers d’entraînement, combinée à Allow: / pour PerplexityBot, est souvent le bon équilibre.

Les études notariales font face au même dilemme. Notre agence SEO pour notaires recommande une approche similaire : visibilité maximale sur les contenus informatifs, protection totale sur les données sensibles.

Résultats attendus selon votre configuration

Configuration	Impact visibilité IA	Protection contenu	Complexité technique
Tout autoriser	Maximale	Nulle	Très faible
Tout bloquer	Nulle	Maximale	Très faible
Blocage sélectif par crawler	Élevée (crawlers temps réel)	Bonne (entraînement bloqué)	Faible
Blocage sélectif par URL	Élevée sur contenu public	Maximale sur zones privées	Moyenne
Robots.txt + meta noai + Cloudflare	Contrôle total	Maximale	Élevée

FAQ — Vos questions sur la gestion des AI crawlers

Est-ce que bloquer GPTBot empêche mon site d’apparaître dans ChatGPT ?

Pas nécessairement. GPTBot sert principalement à l’entraînement des modèles. ChatGPT avec navigation web utilise un agent différent : ChatGPT-User. Si vous bloquez GPTBot mais autorisez ChatGPT-User, votre site peut toujours être cité dans les réponses en temps réel de ChatGPT. En revanche, bloquer GPTBot réduit vos chances d’être intégré dans les données d’entraînement des futures versions du modèle.

Le robots.txt est-il vraiment respecté par tous les AI crawlers ?

Non. Les crawlers des grandes entreprises américaines (OpenAI, Anthropic, Google, Perplexity) respectent généralement le protocole. Certains acteurs moins scrupuleux, notamment Bytespider (ByteDance), ont été signalés pour non-respect. Pour ces cas, une règle de blocage au niveau pare-feu ou via Cloudflare est plus fiable. En 2026, le respect du robots.txt par les AI crawlers reste une norme de bonne conduite, pas une obligation légale universelle.

Bloquer les AI crawlers affecte-t-il mon référencement Google classique ?

Non, à condition de cibler précisément les user-agents IA. Googlebot (pour le SEO classique) et Google-Extended (pour l’entraînement IA de Google) sont deux agents distincts. Bloquer Google-Extended n’affecte en rien votre positionnement dans les résultats de recherche Google. Vérifiez toujours que votre règle robots.txt cible le bon user-agent avant de la déployer en production.

Comment savoir quels AI crawlers visitent mon site en ce moment ?

Analysez vos logs serveur en filtrant les user-agents inconnus. Sur Apache ou Nginx, une commande grep sur les logs d’accès suffit. Cloudflare propose un tableau de bord AI Audit qui automatise cette détection. Matomo Analytics permet également de segmenter le trafic par user-agent. Pour un inventaire complet des user-agents IA connus, des bases de données communautaires maintenues à jour recensent plus de 60 agents actifs en 2026.

Faut-il mettre à jour son robots.txt régulièrement ?

Oui, au minimum tous les trimestres. De nouveaux acteurs IA lancent leurs crawlers régulièrement : en 2025-2026, des agents liés à Mistral AI, xAI (Grok), Cohere et plusieurs startups asiatiques ont été identifiés. Une veille active sur les user-agents émergents est indispensable pour maintenir une configuration cohérente avec votre stratégie. Intégrez cette vérification dans votre routine d’audit SEO trimestriel.

Passez à l’action avec un accompagnement expert

La gestion des AI crawlers est désormais un composant à part entière d’une stratégie SEO sérieuse. Que vous soyez un organisme de formation souhaitant apparaître dans les réponses IA ou un cabinet juridique cherchant à protéger ses données sensibles, la configuration de votre robots.txt mérite une attention rigoureuse.

Si vous souhaitez un audit complet de votre configuration et une stratégie GEO adaptée à votre secteur, notre équipe spécialisée pour les professions juridiques ou notre pôle dédié aux organismes de formation peut vous accompagner. Contactez-nous pour en savoir plus.

Vous voulez savoir comment on peut vous aider concrètement ?

Faisons le point ensemble lors d’un audit gratuit de votre site ou de votre projet.