Analiza y diagnostica tu archivo robots.txt en segundos
Detecta errores, bloqueos accidentales, reglas para bots de IA y oportunidades de optimización del crawl budget.
El archivo robots.txt es uno de los elementos más fundamentales del SEO técnico. Se trata de un archivo de texto plano que vive en la raíz de tu dominio (tudominio.com/robots.txt) y funciona como un conjunto de instrucciones para los crawlers o rastreadores web. Cada vez que un bot como Googlebot, Bingbot o GPTBot visita tu sitio, lo primero que hace es leer este archivo para saber qué páginas tiene permitido rastrear y cuáles no.
Un robots.txt mal configurado puede tener consecuencias devastadoras: desde bloquear accidentalmente tu sitio completo de Google (eliminándolo de los resultados de búsqueda) hasta desperdiciar tu crawl budget en páginas irrelevantes como carritos de compra, paneles de administración o filtros de búsqueda internos.
Un archivo robots.txt se compone de bloques de reglas, cada uno iniciando con una directiva User-agent que identifica a qué bot se aplican las reglas siguientes. Las directivas principales son:
* para aplicar a todos los bots.Disallow: /admin/ bloquea todo el directorio admin.User-agent: * Allow: / Disallow: /admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /search? Disallow: /*?utm_ User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / Sitemap: https://tudominio.com/sitemap.xml
Con el auge de la IA generativa, un nuevo grupo de crawlers ha aparecido en escena. Estos bots rastrean contenido web para entrenar modelos de lenguaje, y muchos sitios web están optando por bloquearlos selectivamente. Los principales bots de IA que puedes controlar desde tu robots.txt incluyen GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (entrenamiento de Gemini), CCBot (Common Crawl) y Bytespider (ByteDance/TikTok).
Es importante entender que bloquear estos bots no afecta tu visibilidad en herramientas como ChatGPT Search o Perplexity, que usan crawlers distintos. La decisión de bloquear o permitir depende de si deseas que tu contenido sea utilizado para entrenar modelos de IA.
Estos son los errores más frecuentes que detectamos con esta herramienta y que pueden estar dañando tu SEO sin que lo sepas:
El crawl budget es la cantidad de recursos que Google asigna para rastrear tu sitio en un período determinado. Para sitios pequeños (menos de 1,000 páginas), esto rara vez es un problema. Pero para sitios medianos y grandes, gestionar el crawl budget es esencial para asegurar que Google rastree tus páginas más importantes.
Usa robots.txt para bloquear páginas que no aportan valor SEO: resultados de búsqueda interna, páginas de filtros con parámetros, versiones de impresión, directorios de archivos temporales y cualquier sección administrativa. Esto libera presupuesto de rastreo para tus páginas de producto, artículos de blog y landing pages que sí generan tráfico orgánico.
Es un archivo de texto ubicado en la raíz de tu sitio web (tudominio.com/robots.txt) que indica a los crawlers de buscadores qué páginas pueden o no pueden rastrear. Funciona como un portero digital que gestiona el acceso de los bots a tu contenido.
Googlebot respeta las directivas Disallow y Allow, pero ignora la directiva Crawl-delay. Para controlar la velocidad de rastreo de Google, debes usar Google Search Console. Otros bots como Bingbot sí respetan crawl-delay.
Depende de tu estrategia. Bloquear GPTBot impide que OpenAI use tu contenido para entrenar modelos. ClaudeBot hace lo mismo para Anthropic. Evalúa si el beneficio de la exposición en plataformas de IA supera el riesgo de uso no autorizado de tu contenido.
No directamente. Disallow evita el rastreo, pero Google puede indexar una URL si encuentra enlaces externos apuntando a ella. Para evitar la indexación de forma definitiva, usa la meta tag noindex en el HTML de la página.
Google procesa hasta 500 KB del archivo robots.txt. Cualquier contenido después de ese límite será ignorado. La mayoría de los sitios no se acercan a este límite, pero sitios con miles de reglas deben vigilarlo.
Un robots.txt bien configurado optimiza tu presupuesto de rastreo al evitar que los bots desperdicien recursos en páginas sin valor SEO (como /admin/, /cart/, filtros de búsqueda internos). Esto permite que Google dedique más rastreos a tus páginas importantes.
No es obligatorio. Si no existe el archivo, los crawlers asumen que pueden rastrear todo el sitio sin restricciones. Sin embargo, es una práctica recomendada para gestionar el acceso de los bots, optimizar el crawl budget y declarar la ubicación de tu sitemap.
Google necesita acceder a tus archivos CSS y JavaScript para renderizar tu página correctamente. Si los bloqueas, Google no podrá ver tu sitio como lo ven los usuarios, lo que puede afectar negativamente tu posicionamiento y la evaluación de Core Web Vitals.
Recibe recursos, frameworks y herramientas antes que nadie. Sin spam.
La membresía para profesionales de marketing que quieren implementar lo último en IA, SEO y estrategia digital. Trainings nuevos cada mes, herramientas premium y soporte directo.
Nuevos entrenamientos cada mes sobre SEO, GEO, IA aplicada al marketing y estrategias de contenido que realmente funcionan.
SEO Auditor, Traffic Accelerator, Schema Intelligence Lab, Roast My Website y más. Valoradas en $500+/mes, incluidas en tu membresía.
Sesiones mensuales donde resuelves tus dudas directamente con Ana, consultora SEO de empresas como Reddit, Adobe y startups de Y Combinator.
Acceso a soporte personalizado para tus proyectos, feedback de estrategia y guía paso a paso para implementar lo que aprendes.