SEO, GEO et LLM : les raisons pour lesquelles Google déconseille les pages Markdown uniquement accessibles aux robots
L’idée séduit de nombreux professionnels du SEO et du GEO : servir aux modèles de langage (LLM) une version allégée des pages web, au format Markdown, pour faciliter leur indexation. Google, via ses porte-parole John Mueller et Martin Splitt, a pourtant clairement exprimé son opposition. Dans l’épisode 111 du podcast Search Off the Record, ils démontent un à un les arguments avancés. Décryptage d’une pratique à haut risque pour votre référencement naturel.

Pourquoi l’argument du Markdown simplifié ne tient pas côté crawl
L’intuition de base semble logique : moins de balises HTML signifie moins de tokens à traiter pour un LLM. Martin Splitt reconnaît que du HTML brut ouvert dans un éditeur de texte reste difficile à lire, noyé sous les styles en ligne et les attributs. Le Markdown, lui, conserve une structure compréhensible même en cas d’échec du rendu.
Mais John Mueller rappelle un fait essentiel : le web et le HTML existent bien avant le Markdown. Tous les robots d’exploration se sont entraînés sur des pages HTML depuis des décennies. Extraire le texte d’une page HTML est une opération triviale, gérée par des bibliothèques standards. En clair, le principal argument de vente – simplifier l’indexation pour les modèles – ne tient pas. Si un robot lit déjà sans effort le contenu enfoui dans le HTML, le fichier Markdown devient redondant.
Le vrai angle mort : la découverte des pages et la perte de structure
Martin Splitt souligne un effet plus problématique. Le Markdown se concentre sur une seule chose : le texte. Il supprime les liens, la navigation et les en-têtes. Or ce sont précisément ces éléments qui aident un moteur à comprendre comment une page se relie au reste du site, et à découvrir d’autres pages de proche en proche.
Un moteur ne voit pas un site comme une pile de pages isolées. Il le lit comme un ensemble de sections, de catégories et de liens qui dialoguent entre eux. Ce que le Markdown jette comme superflu – le maillage interne – est utilisé comme signal de structure.
Reste la question de la confiance : un fichier Markdown servi à part finit toujours par être détourné, comme l’avait été l’ancienne balise meta keywords. Un moteur de recherche comme Google n’a aucune raison de retenir une version Markdown comme source de référence quand il peut extraire le contenu réel du HTML. Cette pratique peut même être interprétée comme du cloaking, une technique pénalisable.
Les risques concrets de la double version
- Duplicate content : deux versions d’une même page (HTML et Markdown) peuvent être perçues comme du contenu dupliqué, diluant la pertinence aux yeux de Google.
- Risque de cloaking : servir un contenu différent aux robots (Markdown) et aux humains (HTML) est explicitement interdit par les consignes Google.
- Aucun gain de crawl : les LLM et les crawlers traitent le HTML aussi bien que le Markdown, donc l’effort de duplication est inutile.
- Perte de signaux : en supprimant les balises sémantiques et les attributs (alt, title), on retire des indices précieux pour la compréhension du contenu.
Ce que ça change pour votre stratégie SEO et GEO
Le message de Google est sans équivoque : ne construisez pas une version Markdown parallèle de votre site en pensant gagner des positions auprès de Google. Le gain de crawl annoncé n’existe pas, et la version risque d’être ignorée comme source canonique.
Les fondamentaux ne bougent pas. Un HTML propre, des titres sémantiques, une navigation lisible et un maillage interne soigné servent à la fois le référencement naturel classique et la visibilité dans les réponses génératives. Les pages accessibles aux robots doivent l’être via une architecture claire, pas via un format parallèle.
Une nuance utile s’impose toutefois : le Markdown garde de vrais usages. Documenter un projet, alimenter votre propre base documentaire pour un système RAG, transporter du contenu d’un outil à l’autre. Le débat ne porte pas sur l’outil, mais sur l’idée de s’en servir comme levier de positionnement.
Tableau comparatif : HTML standard vs Markdown réservé aux bots
| Critère | HTML standard optimisé | Markdown réservé aux robots |
|---|---|---|
| Lisibilité pour un LLM | Bonne (extraction triviale) | Bonne, mais redondante |
| Richesse sémantique | Contenu riche (balises, attributs) | Pauvre (perte de structure) |
| Support du maillage interne | Complet (liens, navigation) | Aucun |
| Risque de cloaking | Aucun | Élevé |
| Expérience utilisateur | Optimisée | Inexistante (pour les humains) |
| Efficacité pour le SEO | Prouvée | Nulle ou négative |
Pour la visibilité, mieux vaut regarder quelles stratégies GEO fonctionnent vraiment que de parier sur des fichiers réservés aux machines. Si votre objectif est de cadrer l’accès des IA à vos contenus, le fichier llms.txt répond à un besoin différent, et ne remplace pas un site bien structuré.
Les données issues de l’étude SEO tendances 2026 confirment que les sites avec un HTML sémantique et un maillage interne solide performent mieux dans les réponses génératives. Les signaux utilisateurs SEO 2026 montrent également que l’expérience de navigation impacte directement le classement, ce que le Markdown seul ne peut offrir.
Notre verdict est clair : le Markdown réservé aux bots repose sur une intuition non vérifiée. Tant que Google extrait sans effort le contenu du HTML, dupliquer son site en Markdown pour plaire aux agents IA revient à entretenir des pages que le moteur n’utilisera pas comme référence. Le temps est mieux investi dans un HTML propre, un maillage interne solide et un contenu réellement utile – un double impact positif à la fois pour le SEO et le GEO.
