Chaque jour, des dizaines de robots d’indexation IA parcourent votre site sans que vous le sachiez : GPTBot d’OpenAI, ClaudeBot d’Anthropic, PerplexityBot… Ils aspirent votre contenu pour entraîner des modèles ou alimenter des réponses en temps réel. Bonne nouvelle : vous avez le contrôle total. Mauvaise nouvelle : la plupart des propriétaires de sites ne le savent pas encore.
En résumé : Vous pouvez autoriser ou bloquer chaque AI crawler individuellement via votre fichier
robots.txt. La décision dépend de votre stratégie de visibilité IA (GEO) et de la sensibilité de votre contenu. Ce guide vous explique comment faire, étape par étape, avec des exemples concrets pour les PME, les organismes de formation et les professions juridiques.
Étape 1 — Comprendre ce que font réellement ces robots
Les AI crawlers ne fonctionnent pas comme Googlebot. Ils ont deux usages distincts :
- L’entraînement des modèles : votre contenu sert à améliorer les LLM (GPT-4, Claude, etc.). Ce crawl est permanent et massif.
- La récupération en temps réel : des outils comme Perplexity AI ou ChatGPT avec navigation web visitent votre site pour répondre à des requêtes utilisateurs maintenant.
Ces deux cas ne méritent pas la même réponse. Bloquer l’entraînement mais autoriser la récupération en temps réel est une stratégie parfaitement viable — et souvent la plus pertinente pour une PME qui veut être citée dans les réponses IA.
En 2025, Cloudflare estimait que les AI crawlers représentaient entre 5 % et 12 % du trafic de crawl total sur les sites qu’ils analysaient. Ce chiffre continue de croître en 2026 avec la multiplication des agents IA autonomes.
Étape 2 — Identifier les principaux AI crawlers et leurs user-agents
Voici les agents les plus courants que vous rencontrerez dans vos logs serveur :
| Crawler | User-agent | Éditeur | Usage principal |
|---|---|---|---|
| GPTBot | GPTBot |
OpenAI | Entraînement + navigation web |
| ClaudeBot | ClaudeBot |
Anthropic | Entraînement des modèles Claude |
| PerplexityBot | PerplexityBot |
Perplexity AI | Réponses en temps réel |
| ChatGPT-User | ChatGPT-User |
OpenAI | Navigation web via ChatGPT |
| Google-Extended | Google-Extended |
Entraînement Gemini / Bard | |
| Bytespider | Bytespider |
ByteDance / TikTok | Entraînement modèles internes |
| Meta-ExternalAgent | Meta-ExternalAgent |
Meta | Entraînement Llama |
| Applebot-Extended | Applebot-Extended |
Apple | Entraînement Apple Intelligence |
Important : certains crawlers respectent scrupuleusement le robots.txt (OpenAI, Anthropic, Google). D’autres, comme Bytespider, ont historiquement ignoré ces directives. Pour ces derniers, une règle de pare-feu au niveau serveur ou Cloudflare est plus efficace.
Étape 3 — Accéder à votre fichier robots.txt et le modifier
Votre fichier robots.txt est accessible à la racine de votre domaine : https://votresite.fr/robots.txt. Sur WordPress, vous pouvez le modifier via Yoast SEO, Rank Math, ou directement en FTP à la racine du serveur.
Pour bloquer un crawler spécifique :
User-agent: GPTBot
Disallow: /
Pour bloquer plusieurs crawlers d’un coup :
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: Google-Extended
Disallow: /
Pour autoriser un crawler sur tout le site :
User-agent: PerplexityBot
Allow: /
Pour une approche chirurgicale — bloquer l’accès aux pages sensibles uniquement :
User-agent: GPTBot
Disallow: /espace-client/
Disallow: /documents-confidentiels/
Allow: /blog/
Allow: /
Cette dernière approche est particulièrement pertinente si vous voulez être visible dans les réponses IA tout en protégeant certaines zones de votre site.
Étape 4 — Choisir votre stratégie : bloquer ou autoriser ?
Il n’existe pas de réponse universelle. Voici une matrice de décision adaptée aux profils que nous accompagnons chez EVICO :
| Type de site | Contenu sensible ? | Objectif visibilité IA ? | Recommandation |
|---|---|---|---|
| Blog / site vitrine PME | Non | Oui | Tout autoriser |
| Organisme de formation | Partiellement (espaces apprenants) | Oui (catalogue public) | Autoriser le catalogue, bloquer les espaces privés |
| Cabinet d’avocats | Oui (données clients) | Oui (articles juridiques) | Autoriser le blog, bloquer tout le reste |
| Étude notariale | Oui (actes, tarifs) | Modéré | Bloquer l’entraînement, autoriser Perplexity |
| E-commerce / SaaS | Oui (prix, données) | Selon stratégie | Cas par cas selon compétitivité |
Pour un cabinet d’avocats travaillant son référencement, la règle d’or est simple : le contenu éditorial (articles, guides juridiques) doit être accessible aux crawlers IA pour générer de la visibilité dans les réponses. Les coordonnées clients, les dossiers et les espaces sécurisés doivent être hermétiquement bloqués.
Étape 5 — Implémenter la balise meta robots pour un contrôle page par page
Le robots.txt agit au niveau du site. Pour un contrôle plus fin, utilisez la balise meta dans le de chaque page :
La directive noai est reconnue par un nombre croissant de crawlers IA en 2026. Elle indique que la page ne doit pas être utilisée pour l’entraînement des modèles, sans pour autant bloquer le crawl classique pour le SEO Google.
Sur WordPress avec Yoast ou Rank Math, vous pouvez appliquer cette directive à des catégories entières de pages en quelques clics, sans toucher au code.
Étape 6 — Vérifier et auditer votre configuration
Une fois votre robots.txt mis à jour, vérifiez que la configuration est correctement interprétée :
- Testez votre robots.txt via Google Search Console (outil de test intégré) pour valider la syntaxe.
- Analysez vos logs serveur pour confirmer que les user-agents ciblés ne visitent plus les URLs bloquées. Des outils comme AWStats, GoAccess ou Matomo permettent de filtrer par user-agent.
- Utilisez Cloudflare AI Audit si votre site est derrière Cloudflare : ce tableau de bord liste en temps réel tous les AI crawlers détectés et vous permet de les bloquer en un clic, même ceux qui ignorent le robots.txt.
- Revérifiez tous les 3 mois : de nouveaux crawlers apparaissent régulièrement. En 2026, on compte plus de 60 user-agents IA référencés contre une vingtaine fin 2023.
Exemples sectoriels concrets
Organisme de formation : maximiser la visibilité sur les requêtes IA
Un organisme de formation qui référence ses formations sur son site WordPress veut que ses programmes apparaissent quand un utilisateur demande à Perplexity ou ChatGPT « quelle formation Excel à Bordeaux ? ». La stratégie optimale : autoriser PerplexityBot et ChatGPT-User sur l’ensemble du catalogue public, bloquer GPTBot et ClaudeBot sur les espaces apprenants et les documents pédagogiques téléchargeables.
Si vous gérez votre catalogue via Digiforma, la intégration Digiforma sur WordPress génère des pages de formation avec leurs propres URLs — assurez-vous que ces URLs sont bien accessibles aux crawlers IA que vous souhaitez autoriser, et que les pages de connexion apprenant sont explicitement bloquées.
Pour les organismes qui réfléchissent à leur présence digitale globale, notre accompagnement SEO dédié aux organismes de formation intègre désormais systématiquement une stratégie GEO.
Cabinet d’avocats : protéger sans disparaître
Un cabinet d’avocats spécialisé en droit des affaires publie des articles de fond sur son blog (jurisprudence, actualités réglementaires). Ce contenu est exactement ce que les IA génératives citent en réponse aux questions juridiques. Le bloquer serait une erreur stratégique majeure.
En revanche, les pages « Espace client », les formulaires de contact avec données personnelles et les mentions d’honoraires doivent être hermétiquement protégées. Une configuration robots.txt avec Allow: /blog/ et Disallow: / pour les crawlers d’entraînement, combinée à Allow: / pour PerplexityBot, est souvent le bon équilibre.
Les études notariales font face au même dilemme. Notre agence SEO pour notaires recommande une approche similaire : visibilité maximale sur les contenus informatifs, protection totale sur les données sensibles.
Résultats attendus selon votre configuration
| Configuration | Impact visibilité IA | Protection contenu | Complexité technique |
|---|---|---|---|
| Tout autoriser | Maximale | Nulle | Très faible |
| Tout bloquer | Nulle | Maximale | Très faible |
| Blocage sélectif par crawler | Élevée (crawlers temps réel) | Bonne (entraînement bloqué) | Faible |
| Blocage sélectif par URL | Élevée sur contenu public | Maximale sur zones privées | Moyenne |
| Robots.txt + meta noai + Cloudflare | Contrôle total | Maximale | Élevée |
FAQ — Vos questions sur la gestion des AI crawlers
Est-ce que bloquer GPTBot empêche mon site d’apparaître dans ChatGPT ?
Pas nécessairement. GPTBot sert principalement à l’entraînement des modèles. ChatGPT avec navigation web utilise un agent différent : ChatGPT-User. Si vous bloquez GPTBot mais autorisez ChatGPT-User, votre site peut toujours être cité dans les réponses en temps réel de ChatGPT. En revanche, bloquer GPTBot réduit vos chances d’être intégré dans les données d’entraînement des futures versions du modèle.
Le robots.txt est-il vraiment respecté par tous les AI crawlers ?
Non. Les crawlers des grandes entreprises américaines (OpenAI, Anthropic, Google, Perplexity) respectent généralement le protocole. Certains acteurs moins scrupuleux, notamment Bytespider (ByteDance), ont été signalés pour non-respect. Pour ces cas, une règle de blocage au niveau pare-feu ou via Cloudflare est plus fiable. En 2026, le respect du robots.txt par les AI crawlers reste une norme de bonne conduite, pas une obligation légale universelle.
Bloquer les AI crawlers affecte-t-il mon référencement Google classique ?
Non, à condition de cibler précisément les user-agents IA. Googlebot (pour le SEO classique) et Google-Extended (pour l’entraînement IA de Google) sont deux agents distincts. Bloquer Google-Extended n’affecte en rien votre positionnement dans les résultats de recherche Google. Vérifiez toujours que votre règle robots.txt cible le bon user-agent avant de la déployer en production.
Comment savoir quels AI crawlers visitent mon site en ce moment ?
Analysez vos logs serveur en filtrant les user-agents inconnus. Sur Apache ou Nginx, une commande grep sur les logs d’accès suffit. Cloudflare propose un tableau de bord AI Audit qui automatise cette détection. Matomo Analytics permet également de segmenter le trafic par user-agent. Pour un inventaire complet des user-agents IA connus, des bases de données communautaires maintenues à jour recensent plus de 60 agents actifs en 2026.
Faut-il mettre à jour son robots.txt régulièrement ?
Oui, au minimum tous les trimestres. De nouveaux acteurs IA lancent leurs crawlers régulièrement : en 2025-2026, des agents liés à Mistral AI, xAI (Grok), Cohere et plusieurs startups asiatiques ont été identifiés. Une veille active sur les user-agents émergents est indispensable pour maintenir une configuration cohérente avec votre stratégie. Intégrez cette vérification dans votre routine d’audit SEO trimestriel.
Passez à l’action avec un accompagnement expert
La gestion des AI crawlers est désormais un composant à part entière d’une stratégie SEO sérieuse. Que vous soyez un organisme de formation souhaitant apparaître dans les réponses IA ou un cabinet juridique cherchant à protéger ses données sensibles, la configuration de votre robots.txt mérite une attention rigoureuse.
Si vous souhaitez un audit complet de votre configuration et une stratégie GEO adaptée à votre secteur, notre équipe spécialisée pour les professions juridiques ou notre pôle dédié aux organismes de formation peut vous accompagner. Contactez-nous pour en savoir plus.