SEO Técnico · Gratis

    Analizador de Robots.txt

    Analiza y diagnostica tu archivo robots.txt en segundos

    Detecta errores, bloqueos accidentales, reglas para bots de IA y oportunidades de optimización del crawl budget.

    Opción 1: Analizar por URL

    Opción 2: Pegar contenido

    ¿Qué es el archivo robots.txt y por qué es crítico para tu SEO?

    El archivo robots.txt es uno de los elementos más fundamentales del SEO técnico. Se trata de un archivo de texto plano que vive en la raíz de tu dominio (tudominio.com/robots.txt) y funciona como un conjunto de instrucciones para los crawlers o rastreadores web. Cada vez que un bot como Googlebot, Bingbot o GPTBot visita tu sitio, lo primero que hace es leer este archivo para saber qué páginas tiene permitido rastrear y cuáles no.

    Un robots.txt mal configurado puede tener consecuencias devastadoras: desde bloquear accidentalmente tu sitio completo de Google (eliminándolo de los resultados de búsqueda) hasta desperdiciar tu crawl budget en páginas irrelevantes como carritos de compra, paneles de administración o filtros de búsqueda internos.

    ¿Cómo funciona robots.txt?🤖Crawler llegaGooglebot, GPTBot,Bingbot, etc.📄Lee robots.txttudominio.com/robots.txt⚖️Evalúa reglasAllow vs Disallowpor User-agentRastreo permitidoLa página puede serindexada en Google🚫Rastreo bloqueadoEl crawler no accedea esa URL⚡ Dato claveDisallow NO bloquea la indexación.Google puede indexar una URL siencuentra enlaces hacia ella.robots.txt controla el rastreo, no la indexación. Usa la meta tag noindex para evitar la indexación.

    Anatomía de un robots.txt bien configurado

    Un archivo robots.txt se compone de bloques de reglas, cada uno iniciando con una directiva User-agent que identifica a qué bot se aplican las reglas siguientes. Las directivas principales son:

    • User-agent: Identifica el crawler al que aplican las reglas. Usa * para aplicar a todos los bots.
    • Disallow: Indica las rutas que el bot NO puede rastrear. Disallow: /admin/ bloquea todo el directorio admin.
    • Allow: Crea excepciones dentro de rutas bloqueadas. Útil para permitir acceso a un archivo específico dentro de un directorio bloqueado.
    • Sitemap: Declara la ubicación de tu sitemap XML. Esto ayuda a los buscadores a descubrir todas tus páginas indexables.
    • Crawl-delay: Establece un tiempo de espera entre solicitudes. Google lo ignora, pero Bing y otros bots lo respetan.

    Ejemplo de robots.txt optimizado

    User-agent: *
    Allow: /
    Disallow: /admin/
    Disallow: /cart/
    Disallow: /checkout/
    Disallow: /search?
    Disallow: /*?utm_
    
    User-agent: GPTBot
    Disallow: /
    
    User-agent: ClaudeBot
    Disallow: /
    
    Sitemap: https://tudominio.com/sitemap.xml

    Robots.txt y los bots de inteligencia artificial

    Con el auge de la IA generativa, un nuevo grupo de crawlers ha aparecido en escena. Estos bots rastrean contenido web para entrenar modelos de lenguaje, y muchos sitios web están optando por bloquearlos selectivamente. Los principales bots de IA que puedes controlar desde tu robots.txt incluyen GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (entrenamiento de Gemini), CCBot (Common Crawl) y Bytespider (ByteDance/TikTok).

    Es importante entender que bloquear estos bots no afecta tu visibilidad en herramientas como ChatGPT Search o Perplexity, que usan crawlers distintos. La decisión de bloquear o permitir depende de si deseas que tu contenido sea utilizado para entrenar modelos de IA.

    Bots de IA y robots.txt: qué puedes controlar🌐Tu sitio web🟢GPTBotOpenAI🟠ClaudeBotAnthropic🔵Google-ExtendedGoogle AI🟡CCBotCommon Crawl🔴BytespiderByteDanceEjemplo para bloquear bots de IA:User-agent: GPTBotDisallow: /User-agent: ClaudeBotDisallow: /

    Errores comunes en robots.txt que afectan tu posicionamiento

    Estos son los errores más frecuentes que detectamos con esta herramienta y que pueden estar dañando tu SEO sin que lo sepas:

    • Bloquear el sitio completo con Disallow: / | En sitios de producción, esto elimina todas tus páginas de Google. Solo debe usarse en entornos de staging o desarrollo.
    • Bloquear CSS, JS o imágenes | Google necesita renderizar tu página para evaluarla. Si bloqueas estos recursos, no podrá calcular correctamente tus Core Web Vitals ni entender tu layout.
    • No declarar el Sitemap | Aunque Google puede descubrir tu sitemap por otras vías, declararlo en robots.txt es la forma más directa y confiable de asegurar que lo encuentre.
    • Usar Disallow cuando necesitas noindex | Muchos confunden rastreo con indexación. Si una URL está bloqueada por robots.txt pero tiene enlaces externos, Google puede indexarla sin contenido. Usa noindex si quieres evitar la indexación.
    • Errores de sintaxis | Un espacio extra, un colon faltante o una directiva mal escrita pueden invalidar reglas completas sin que lo notes.

    Cómo optimizar tu crawl budget con robots.txt

    El crawl budget es la cantidad de recursos que Google asigna para rastrear tu sitio en un período determinado. Para sitios pequeños (menos de 1,000 páginas), esto rara vez es un problema. Pero para sitios medianos y grandes, gestionar el crawl budget es esencial para asegurar que Google rastree tus páginas más importantes.

    Usa robots.txt para bloquear páginas que no aportan valor SEO: resultados de búsqueda interna, páginas de filtros con parámetros, versiones de impresión, directorios de archivos temporales y cualquier sección administrativa. Esto libera presupuesto de rastreo para tus páginas de producto, artículos de blog y landing pages que sí generan tráfico orgánico.

    Pro Tips para tu archivo robots.txt

    • Siempre incluye User-agent: * como base. Sin esta regla, los bots sin instrucciones específicas rastrearán todo sin restricciones.
    • Declara tu sitemap al final del archivo. La directiva Sitemap no pertenece a ningún bloque de User-agent; es global.
    • Usa comodines con cuidado. El asterisco (*) y el signo de peso ($) son potentes pero pueden bloquear más de lo esperado si se usan incorrectamente.
    • Revisa tu robots.txt después de cada migración. Los cambios de dominio, CMS o estructura de URLs son las principales causas de errores en robots.txt.
    • Valida con Google Search Console. La herramienta de inspección de URLs te permite verificar cómo Google interpreta tus reglas de robots.txt.
    • Monitorea el acceso de bots de IA periódicamente. El ecosistema de crawlers de IA cambia rápidamente. Nuevos bots aparecen constantemente y debes actualizar tus reglas según tu estrategia.

    Preguntas Frecuentes

    ¿Qué es un archivo robots.txt y para qué sirve?

    Es un archivo de texto ubicado en la raíz de tu sitio web (tudominio.com/robots.txt) que indica a los crawlers de buscadores qué páginas pueden o no pueden rastrear. Funciona como un portero digital que gestiona el acceso de los bots a tu contenido.

    ¿Google respeta todas las directivas del robots.txt?

    Googlebot respeta las directivas Disallow y Allow, pero ignora la directiva Crawl-delay. Para controlar la velocidad de rastreo de Google, debes usar Google Search Console. Otros bots como Bingbot sí respetan crawl-delay.

    ¿Debo bloquear los bots de IA como GPTBot o ClaudeBot?

    Depende de tu estrategia. Bloquear GPTBot impide que OpenAI use tu contenido para entrenar modelos. ClaudeBot hace lo mismo para Anthropic. Evalúa si el beneficio de la exposición en plataformas de IA supera el riesgo de uso no autorizado de tu contenido.

    ¿Disallow bloquea la indexación de una página?

    No directamente. Disallow evita el rastreo, pero Google puede indexar una URL si encuentra enlaces externos apuntando a ella. Para evitar la indexación de forma definitiva, usa la meta tag noindex en el HTML de la página.

    ¿Cuál es el tamaño máximo permitido del robots.txt?

    Google procesa hasta 500 KB del archivo robots.txt. Cualquier contenido después de ese límite será ignorado. La mayoría de los sitios no se acercan a este límite, pero sitios con miles de reglas deben vigilarlo.

    ¿Cómo afecta el robots.txt al crawl budget?

    Un robots.txt bien configurado optimiza tu presupuesto de rastreo al evitar que los bots desperdicien recursos en páginas sin valor SEO (como /admin/, /cart/, filtros de búsqueda internos). Esto permite que Google dedique más rastreos a tus páginas importantes.

    ¿Es obligatorio tener un archivo robots.txt?

    No es obligatorio. Si no existe el archivo, los crawlers asumen que pueden rastrear todo el sitio sin restricciones. Sin embargo, es una práctica recomendada para gestionar el acceso de los bots, optimizar el crawl budget y declarar la ubicación de tu sitemap.

    ¿Qué pasa si bloqueo CSS o JavaScript en robots.txt?

    Google necesita acceder a tus archivos CSS y JavaScript para renderizar tu página correctamente. Si los bloqueas, Google no podrá ver tu sitio como lo ven los usuarios, lo que puede afectar negativamente tu posicionamiento y la evaluación de Core Web Vitals.

    Acceso anticipado

    Mantente al día con lo último en marketing e IA

    Recibe recursos, frameworks y herramientas antes que nadie. Sin spam.

    My Rank Lab

    🚀 Mantente a la vanguardia del marketing con IA

    La membresía para profesionales de marketing que quieren implementar lo último en IA, SEO y estrategia digital. Trainings nuevos cada mes, herramientas premium y soporte directo.

    Trainings mensuales

    Nuevos entrenamientos cada mes sobre SEO, GEO, IA aplicada al marketing y estrategias de contenido que realmente funcionan.

    9 herramientas premium

    SEO Auditor, Traffic Accelerator, Schema Intelligence Lab, Roast My Website y más. Valoradas en $500+/mes, incluidas en tu membresía.

    Q&A en vivo con Ana

    Sesiones mensuales donde resuelves tus dudas directamente con Ana, consultora SEO de empresas como Reddit, Adobe y startups de Y Combinator.

    Soporte directo

    Acceso a soporte personalizado para tus proyectos, feedback de estrategia y guía paso a paso para implementar lo que aprendes.

    Cancela cuando quieras. Sin contratos.