Fichier ai.txt, llms.txt, robots.txt : le guide de cohabitation 2026

robots.txt, ai.txt, llms.txt : trois fichiers aux rôles distincts pour gérer votre visibilité face aux IA en 2026. Guide technique complet avec exemples pour formation, droit et PME.

Victor Viennot

Consultant en stratégie digitale et créateur d’outils marketing propulsés par l’IA.
J’aide les entreprises à gagner en visibilité et à communiquer plus efficacement.

Publié le 9 mai 2026

Réponse courte :

En 2026, robots.txt contrôle le crawl, ai.txt exprime vos préférences sur l’entraînement IA, et llms.txt structure votre représentation dans les réponses génératives. Ces trois fichiers sont complémentaires et doivent être configurés ensemble pour une stratégie GEO cohérente.

En 2026, trois fichiers texte définissent les règles du jeu entre votre site et les IA : robots.txt, ai.txt et llms.txt. Comprendre leurs rôles respectifs n’est plus optionnel — c’est la base d’une stratégie de référencement IA maîtrisée.

Pendant des années, robots.txt suffisait. Il indiquait aux crawlers de Google et Bing ce qu’ils pouvaient indexer. Puis les LLM sont arrivés : GPT, Claude, Gemini, Perplexity. Ces modèles consomment votre contenu différemment — pas pour indexer une page, mais pour apprendre ou générer des réponses. Deux nouveaux fichiers ont émergé pour répondre à ce besoin : ai.txt et llms.txt. Ils n’ont pas les mêmes objectifs, pas les mêmes audiences, et ne se substituent pas l’un à l’autre.

Ce guide technique vous explique comment les trois coexistent, comment les configurer ensemble, et quelles erreurs éviter selon votre secteur.

Les trois fichiers : définitions et rôles distincts

Avant de parler de configuration, posons les bases. Ces trois fichiers répondent à des questions différentes.

Fichier	Créé par	Objectif principal	Audience cible	Statut 2026
`robots.txt`	Communauté web (1994)	Contrôler l’indexation SEO classique	Crawlers moteurs de recherche	Standard officiel (RFC)
`ai.txt`	Spawning (2023)	Signaler les préférences sur l’usage IA des contenus	Scrapers IA, datasets d’entraînement	Convention émergente, adoption croissante
`llms.txt`	Answer.ai (2024)	Fournir un résumé structuré du site aux LLM	Agents IA, LLM en mode RAG ou inférence	Proposition de standard, support partiel

La confusion la plus fréquente : croire que ai.txt et llms.txt font la même chose. Non. Le premier restreint ou autorise l’usage de vos données. Le second facilite la compréhension de votre site par les IA. Ce sont deux leviers complémentaires.

robots.txt : toujours le socle, mais avec des limites IA

Le fichier robots.txt reste incontournable. Il se place à la racine du domaine (https://votresite.fr/robots.txt) et utilise une syntaxe simple basée sur des directives User-agent, Disallow et Allow.

Depuis 2023, plusieurs opérateurs IA ont déclaré leurs propres user-agents. Vous pouvez donc cibler spécifiquement :

GPTBot — crawler d’OpenAI pour l’entraînement
Google-Extended — crawler Google pour Bard/Gemini
anthropic-ai — crawler de Claude
PerplexityBot — crawler de Perplexity
CCBot — Common Crawl, utilisé par de nombreux modèles open source

Exemple d’un robots.txt configuré pour un cabinet d’avocats souhaitant bloquer l’entraînement IA tout en restant indexable par Google :

User-agent: *
Disallow:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Allow: /

Ici, le cabinet autorise Perplexity (source de trafic qualifié) mais bloque l’entraînement des modèles. C’est une stratégie de visibilité GEO sélective que nous recommandons souvent aux professions réglementées. Si vous accompagnez des avocats sur leur présence digitale, notre agence SEO pour avocat intègre ce type de configuration dès l’audit technique.

Limite importante : robots.txt n’a aucune valeur légale. C’est une convention. Un scraper malveillant l’ignore. Pour les droits d’auteur, il faut aller plus loin.

ai.txt : signaler vos préférences sur l’entraînement IA

ai.txt est une initiative portée par Spawning, la société derrière Have I Been Trained. L’idée : créer un fichier déclaratif standardisé qui exprime vos préférences concernant l’utilisation de vos contenus dans les datasets d’entraînement des modèles d’IA.

Il se place également à la racine : https://votresite.fr/ai.txt. Sa syntaxe ressemble à robots.txt mais avec des directives propres :

# ai.txt
User-agent: *
Disallow: /blog/
Disallow: /ressources/
Allow: /a-propos/

Contact: legal@votresite.fr
License: https://votresite.fr/mentions-legales

Ce fichier est particulièrement pertinent pour :

Les organismes de formation qui produisent des contenus pédagogiques propriétaires
Les études notariales dont les modèles d’actes ne doivent pas alimenter des LLM concurrents
Les créateurs de contenu qui monétisent leur expertise éditoriale

Pour les organismes de formation, la question est stratégique : vos supports de cours, vos fiches pédagogiques, vos programmes Qualiopi représentent un capital immatériel. Les laisser alimenter un modèle généraliste sans contrepartie est un choix à faire consciemment. Notre agence SEO pour organisme de formation aborde systématiquement ce point lors des audits de contenu.

llms.txt : parler directement aux modèles de langage

llms.txt répond à une logique inverse. Plutôt que de restreindre, il facilite. Son objectif : fournir aux LLM un résumé structuré et hiérarchisé de votre site, en Markdown, pour qu’ils puissent vous citer correctement et orienter les utilisateurs vers vos ressources les plus pertinentes.

C’est la proposition d’Answer.ai, formalisée en 2024. Le fichier se place à https://votresite.fr/llms.txt et contient :

Le nom et la description de l’organisation
Les sections principales du site avec leurs URLs
Les pages prioritaires à citer
Les pages à ignorer (mentions légales, CGU, etc.)

Exemple simplifié pour un organisme de formation :

# Centre de Formation Excellence

Organisme de formation professionnelle certifié Qualiopi, spécialisé en management et RH.

## Formations

- [Catalogue formations management](/formations/management)
- [Formations RH et recrutement](/formations/rh)
- [Formations en ligne](/formations/elearning)

## À propos

- [Notre certification Qualiopi](/qualiopi)
- [Nos formateurs](/equipe)

## Optionnel

- [Mentions légales](/mentions-legales): skip
- [CGU](/cgu): skip

Concrètement, quand un utilisateur demande à ChatGPT ou Perplexity « quelle formation en management à Bordeaux ? », un LLM qui a traité votre llms.txt peut vous citer avec précision plutôt que de produire une réponse vague. C’est du GEO (Generative Engine Optimization) appliqué.

Comment les trois fichiers coexistent : la logique de priorité

En 2026, ces trois fichiers ne se concurrencent pas — ils se complètent à des niveaux différents :

robots.txt agit au niveau du crawl : il décide qui peut accéder à quoi.
ai.txt agit au niveau des droits d’usage : il exprime vos préférences sur l’entraînement.
llms.txt agit au niveau de la représentation : il structure ce que les IA disent de vous.

Un agent IA sophistiqué (type Perplexity, SearchGPT) consultera idéalement les trois. Mais attention : aucun de ces fichiers n’est légalement contraignant hors contexte contractuel. Ils relèvent de la convention et de la bonne foi des opérateurs.

Pour les études notariales, cette nuance est fondamentale. La confidentialité des actes relève du secret professionnel, pas d’un fichier texte. Notre agence SEO pour notaires accompagne ces structures avec une approche qui distingue clairement visibilité GEO et protection des données sensibles.

Méthodologie pratique : configurer les trois fichiers en 4 étapes

Étape 1 — Auditer votre robots.txt existant. Vérifiez que vous n’avez pas bloqué par erreur des crawlers IA utiles (Perplexity, SearchGPT) avec un Disallow: / global. C’est l’erreur la plus fréquente sur les sites migrés ou refondus.

Étape 2 — Définir votre stratégie IA. Posez-vous deux questions : voulez-vous apparaître dans les réponses génératives ? Voulez-vous que vos contenus alimentent des modèles d’entraînement ? Les réponses peuvent être différentes — et c’est légitime.

Étape 3 — Créer ai.txt selon votre réponse à la question 2. Si vous refusez l’entraînement, bloquez les agents concernés. Si vous acceptez certains usages, précisez-le avec une directive de licence.

Étape 4 — Rédiger llms.txt pour structurer votre visibilité GEO. Concentrez-vous sur vos 10-15 pages les plus stratégiques. Rédigez des descriptions précises, factuelles, sans jargon. Les LLM valorisent la clarté sémantique.

Cas concrets sectoriels

Organisme de formation

Un organisme certifié Qualiopi a tout intérêt à déployer un llms.txt complet listant ses formations par thématique, ses certifications, et ses zones géographiques. En revanche, ses contenus pédagogiques propriétaires (supports de cours, évaluations) doivent être protégés via ai.txt avec un blocage des agents d’entraînement sur les répertoires concernés.

Si votre site tourne sous WordPress avec Digiforma, la gestion des URLs de catalogue est un point technique à ne pas négliger. Consultez notre guide sur la création de site pour organisme de formation pour comprendre comment structurer l’arborescence en amont.

Cabinet d’avocats

La stratégie est plus restrictive. Un cabinet peut vouloir apparaître dans les réponses génératives (« avocat droit des affaires Bordeaux ») tout en refusant que ses articles de blog alimentent des modèles concurrents. Configuration recommandée : robots.txt avec autorisation sélective de Perplexity et SearchGPT, ai.txt avec blocage général de l’entraînement, llms.txt centré sur les domaines d’expertise et les zones d’intervention.

Erreurs à éviter absolument

Bloquer tous les bots IA dans robots.txt sans distinction : vous perdez la visibilité dans les moteurs génératifs comme Perplexity, qui représentent déjà plusieurs millions de requêtes quotidiennes en France.
Confondre ai.txt et llms.txt : déployer uniquement llms.txt en pensant protéger vos données, c’est l’inverse — vous les rendez plus accessibles.
Négliger la cohérence entre les trois fichiers : autoriser GPTBot dans robots.txt tout en le bloquant dans ai.txt crée une ambiguïté que les crawlers résolvent en faveur du fichier qu’ils consultent en premier.
Rédiger un llms.txt trop générique : des descriptions vagues n’apportent aucun avantage GEO. Soyez précis sur vos spécialités, vos localisations, vos certifications.
Oublier de mettre à jour ces fichiers après une refonte ou une refonte de site pour organisme de formation : les URLs obsolètes dans llms.txt génèrent des erreurs 404 que les LLM peuvent interpréter négativement.

FAQ

robots.txt suffit-il pour bloquer les IA ?

Non. robots.txt bloque les crawlers qui le respectent. Les grands opérateurs (OpenAI, Google, Anthropic) s’y conforment généralement pour l’entraînement depuis 2023. Mais les scrapers tiers, les modèles open source et les outils de collecte de données ne le font pas systématiquement. Pour une protection plus robuste, combinez robots.txt avec ai.txt et, si nécessaire, des mesures techniques côté serveur (rate limiting, blocage IP).

llms.txt améliore-t-il vraiment le référencement dans les IA ?

Les retours terrain de 2025 sont encourageants mais variables selon les modèles. Perplexity et certaines configurations de SearchGPT semblent valoriser les sites dotés d’un llms.txt bien structuré. Pour les modèles d’entraînement pur (GPT-5, Claude 4), l’impact est indirect : un contenu mieux structuré est mieux intégré. C’est un investissement faible pour un gain potentiel réel, surtout sur des niches concurrentielles comme la formation professionnelle ou le droit.

Faut-il déclarer llms.txt dans le sitemap XML ?

Ce n’est pas obligatoire et la convention actuelle ne le prévoit pas. Les LLM et agents IA cherchent ces fichiers directement à la racine du domaine, comme robots.txt. En revanche, mentionner l’existence de votre llms.txt dans votre robots.txt via une directive Sitemap: adaptée est une pratique expérimentale que certains webmasters testent pour améliorer la découvrabilité.

ai.txt a-t-il une valeur juridique en France ?

Non, pas en tant que tel. En droit français et européen, la protection des contenus relève du droit d’auteur (Code de la propriété intellectuelle) et du règlement sur l’IA (AI Act européen, applicable depuis 2024-2026). ai.txt est une déclaration de préférence, pas un contrat. Pour les professionnels du droit ou de la formation, il doit s’accompagner de mentions légales explicites sur les conditions d’utilisation des contenus publiés.

Ces fichiers fonctionnent-ils sur les sous-domaines ?

Chaque sous-domaine est traité comme un domaine indépendant. Si vous avez blog.votresite.fr et formations.votresite.fr, vous devez déployer robots.txt, ai.txt et llms.txt sur chacun séparément. C’est un point souvent oublié lors des migrations de catalogue, notamment dans les projets de migration de catalogue vers WordPress.

Si vous souhaitez un accompagnement technique pour configurer ces fichiers selon votre secteur et vos objectifs GEO, notre équipe spécialisée peut vous aider. Contactez-nous pour en savoir plus.

Vous voulez savoir comment on peut vous aider concrètement ?

Faisons le point ensemble lors d’un audit gratuit de votre site ou de votre projet.