Robots.txt
Archivo que indica a los rastreadores web qué páginas pueden o no pueden visitar en tu sitio.
Resumen rápido
Robots.txt se refiere a archivo que indica a los rastreadores web qué páginas pueden o no pueden visitar en tu sitio. Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes, impidiendo que aparezcan en Google. Consejo clave: Después de modificar tu robots.
¿Qué es Robots.txt?
El archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu sitio web (ejemplo.com/robots.txt) que da instrucciones a los rastreadores de motores de búsqueda sobre qué URLs pueden acceder y cuáles no. No es un mecanismo de seguridad ni impide la indexación, sino una guía de rastreo que los bots bien comportados respetan. Funciona mediante directivas como "User-agent" (a qué bot aplica), "Allow" y "Disallow" (qué URLs permitir o bloquear).
¿Por qué importa?
Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes, impidiendo que aparezcan en Google. Por otro lado, un robots.txt bien optimizado mejora tu crawl budget al evitar que los rastreadores gasten tiempo en URLs sin valor SEO como paneles de administración, páginas de carrito o filtros de búsqueda.
Cómo aplicar Robots.txt paso a paso
Crea un archivo robots.txt en la raíz de tu dominio. Usa "Disallow" para bloquear carpetas como /admin/ o /api/, y "Allow" para asegurar acceso a recursos importantes como CSS e imágenes. Incluye la URL de tu sitemap al final del archivo. Siempre prueba los cambios en Google Search Console antes de publicarlos.
Ejemplo práctico
Un sitio WordPress bloqueó accidentalmente /wp-content/uploads/ en su robots.txt. Como resultado, ninguna imagen del sitio se indexó en Google Images, perdiendo un 15% de tráfico potencial de búsqueda visual. Al corregirlo con Allow: /wp-content/uploads/ y esperar un ciclo de rastreo, recuperó el tráfico de imágenes en 3 semanas y descubrió que 12 imágenes rankeaban en el top 5 de Google Images.
Errores comunes
Usar "Disallow: /" que bloquea TODO el sitio completo (un error catastrófico sorprendentemente común)
Bloquear archivos CSS y JS que Google necesita para renderizar correctamente la página
Pensar que robots.txt "protege" contenido sensible (no lo hace, solo guía a rastreadores éticos)
No incluir la referencia al Sitemap al final del archivo para facilitar el descubrimiento
Tip pro
Después de modificar tu robots.txt, usa la herramienta "Probador de robots.txt" en Google Search Console para verificar que no estás bloqueando URLs importantes. Un error aquí puede ser invisible durante meses y causar pérdidas de tráfico significativas. Además, recuerda que bloquear una URL con robots.txt no la des-indexa si ya está indexada: para eso necesitas la etiqueta noindex.
Preguntas frecuentes
Herramientas relacionadas
Términos relacionados
La cantidad de páginas que un buscador rastreará en tu sitio en un período determinado.
Archivo que lista todas las URLs importantes de tu sitio para facilitar su descubrimiento por buscadores.
El proceso mediante el cual Google agrega una página web a su base de datos de resultados de búsqueda.
My Rank Lab
Aprende a aplicar Robots.txt como un profesional
Herramientas reales, cursos avanzados y soporte experto. No solo lees, aplicas.