SEO Técnico

    Robots.txt

    Archivo que indica a los rastreadores web qué páginas pueden o no pueden visitar en tu sitio.

    13 de febrero de 2025Actualizado 20 de marzo de 2025

    Resumen rápido

    Robots.txt se refiere a archivo que indica a los rastreadores web qué páginas pueden o no pueden visitar en tu sitio. Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes, impidiendo que aparezcan en Google. Consejo clave: Después de modificar tu robots.

    ¿Qué es Robots.txt?

    El archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu sitio web (ejemplo.com/robots.txt) que da instrucciones a los rastreadores de motores de búsqueda sobre qué URLs pueden acceder y cuáles no. No es un mecanismo de seguridad ni impide la indexación, sino una guía de rastreo que los bots bien comportados respetan. Funciona mediante directivas como "User-agent" (a qué bot aplica), "Allow" y "Disallow" (qué URLs permitir o bloquear).

    GooglebotSolicita accesoRobots.txtReglas Allow/DisallowPermitidoRastrea la paginaBloqueadoNo rastreaRobots.txt es una sugerencia, no una orden. Algunos bots pueden ignorarlo.

    ¿Por qué importa?

    Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes, impidiendo que aparezcan en Google. Por otro lado, un robots.txt bien optimizado mejora tu crawl budget al evitar que los rastreadores gasten tiempo en URLs sin valor SEO como paneles de administración, páginas de carrito o filtros de búsqueda.

    Cómo aplicar Robots.txt paso a paso

    Crea un archivo robots.txt en la raíz de tu dominio. Usa "Disallow" para bloquear carpetas como /admin/ o /api/, y "Allow" para asegurar acceso a recursos importantes como CSS e imágenes. Incluye la URL de tu sitemap al final del archivo. Siempre prueba los cambios en Google Search Console antes de publicarlos.

    Como configurar robots.txt1. IdentificarURLs que no debenser rastreadas2. EscribirReglas Disallowpara cada ruta3. ValidarTester en SearchConsole4. SubirAl directorio raizdel dominioCrawl budget optimizado, sin rastreo de paginas irrelevantes

    Ejemplo práctico

    Un sitio WordPress bloqueó accidentalmente /wp-content/uploads/ en su robots.txt. Como resultado, ninguna imagen del sitio se indexó en Google Images, perdiendo un 15% de tráfico potencial de búsqueda visual. Al corregirlo con Allow: /wp-content/uploads/ y esperar un ciclo de rastreo, recuperó el tráfico de imágenes en 3 semanas y descubrió que 12 imágenes rankeaban en el top 5 de Google Images.

    Errores comunes

    1

    Usar "Disallow: /" que bloquea TODO el sitio completo (un error catastrófico sorprendentemente común)

    2

    Bloquear archivos CSS y JS que Google necesita para renderizar correctamente la página

    3

    Pensar que robots.txt "protege" contenido sensible (no lo hace, solo guía a rastreadores éticos)

    4

    No incluir la referencia al Sitemap al final del archivo para facilitar el descubrimiento

    Tip pro

    Después de modificar tu robots.txt, usa la herramienta "Probador de robots.txt" en Google Search Console para verificar que no estás bloqueando URLs importantes. Un error aquí puede ser invisible durante meses y causar pérdidas de tráfico significativas. Además, recuerda que bloquear una URL con robots.txt no la des-indexa si ya está indexada: para eso necesitas la etiqueta noindex.

    Preguntas frecuentes

    Herramientas relacionadas

    Términos relacionados

    My Rank Lab

    Aprende a aplicar Robots.txt como un profesional

    Herramientas reales, cursos avanzados y soporte experto. No solo lees, aplicas.

    9 herramientas SEO e IA avanzadas (Auditor, Schema Lab, Traffic Predicter y mas)
    Cursos exclusivos: SEO para AI, Prompts de Visibilidad, Escenarios Inteligentes
    Soporte directo con Ana Fernandez. Resuelve dudas en tiempo real
    Playbooks y frameworks listos para implementar en tu negocio
    Trainings mensuales con estrategias actualizadas de SEO y GEO
    $50/mes
    Cancela cuando quieras