Todo lo que necesitas saber de robots.txt: guía completa

Todo lo que necesitas saber de robots.txt- guía completa

Si quieres que Google entienda qué rastrear de tu web (y qué no), el archivo robots.txt es tu primer filtro. No “borra” páginas del índice por arte de magia, pero sí decide a qué URLs podrán entrar los bots. Un robots.txt bien hecho evita gastar presupuesto de rastreo en páginas inútiles, centra la indexación de lo importante y te ahorra sustos en migraciones.

Antes que nada: ¿qué es el robots.txt?

robots.txt es un archivo de texto plano que da instrucciones de rastreo a los bots (Googlebot, Bingbot, Chagtpt, semrush etc.). Sirve para permitir o bloquear el acceso a partes de tu sitio. 

Importante: controla el rastreo, no la indexación directa. El orden natural es: 1) rastreo → 2) indexación → 3) posicionamiento.

Nota: no todos los bots obedecen (algunos de herramientas hacen caso omiso). Pero Google (el que más nos importa) sí lo respeta bien; por eso es importante tenerlo optimizado.

Puedes ampliar información en la documentación oficial de Google sobre robots.txt.

¿Pero para qué sirve el robots.txt?

1. Controlar el rastreo y el crawl budget

Evitar que Google gaste energía en zonas prescindibles (carritos, sesiones, filtros infinitos…). Cuando bloqueas parámetros ruidosos en una tienda, el rastreo se concentra en categorías y fichas; lo que permite que mejore la cobertura y nuevas URLs se indexan así como reciben actualizaciones. 

2. Bloquear URLs que no quieres posicionar

Piénsalo como “no entres aquí, bot”. Clásicos: 

  • /admin/, /cart/, /checkout/, áreas privadas.
  • Rutas temporales de pruebas o staging.
  • Parámetros que generan combinaciones absurdas.

Un ejemplo puede ser un e-commerce. En tiendas con muchas categorías y productos, los parámetros (?color=, ?size=, ?order=, facetas encadenadas…) pueden multiplicar URLs hasta miles. Si no restringes, Google malgasta esfuerzos computacionales en rastrear todo eso y llega tarde a lo que sí te interesa. Yo he visto cómo un simple patrón tipo /*?order= suponía una gran parte importante del presupuesto de rastreo.

Consejo: bloquea todo aquello que no es importante (parámetros de orden, paginaciones absurdas,etc), pero permite CSS/JS para que Google renderice bien.

¿Cómo es la sintaxis del robots.txt?

  • Grupos por bot: cada grupo empieza con User-agent: y le siguen reglas para ese bot.
  • Reglas principales: Disallow: (bloquea), Allow: (permite).
  • Sitemap: puedes listarlo(s) con Sitemap: https://tu-dominio.com/sitemap.xml.
  • Comodines:
    • * = cualquier cosa
    • $ = fin de cadena (útil para extensiones o rutas exactas)
  • Comentarios: # (no los leen los bots).
  • Mayúsculas/minúsculas: las rutas son case-sensitive.
  • Prioridad: gana la regla más específica; a igualdad, suele imponerse la más permisiva.
  • Crawl-delay: Google no lo usa (otros bots sí podrían).

¿Cómo se encuentra y dónde se ubica?

  • Lo ves en cualquier web añadiendo: “/robots.txt” detrás del dominio. Ejemplo: https://tu-dominio.com/robots.txt.
  • Debe estar en la raíz del dominio (y de cada subdominio si los usas).
  • Nombre del archivo: exactamente robots.txt (sin mayúsculas).
  • Formato: texto plano UTF-8, sin BOM ni rarezas.
  • Tamaño práctico: mantenlo ligero; como referencia, Google procesa hasta alrededor de 500 KB del archivo.

Tip: una vez lo has subido, verifica que responde con un código 200.

Plantillas de ejemplo de robots.txt

1. Básico (lo más simplificado posible)

User-agent: *
Disallow: 

Sitemap: https://tu-dominio/sitemap.xml

En este caso, solo incluimos el sitemap, lo cual es una muy buena práctica y un mínimo en cuanto a optimización.

 2. Staging / entorno de pruebas (¡no subir a producción!)

User-agent: *
Disallow: /
# Evita indexación indirecta enlazando desde fuera
# No incluyas sitemap aquí

¡Importante!: dejar un Disallow: / en producción tumba el tráfico en días. Ocurre en migraciones cuando alguien se olvida de quitarlo.

3. E-commerce con parámetros

E-commerce con parámetros

Si quieres usarlo solo tienes que copiar y pegar:

User-agent: *
# Bloques comunes parámetros
Disallow: /*?*session=
Disallow: /*?*utm_
Disallow: /*?*sort=
Disallow: /*?*order=
Disallow: /*?*price=

# Permite assets para un render correcto
Allow: /*.css$
Allow: /*.js$

Sitemap: https://www.tutienda.com/sitemap_index.xml

Validar y monitorizar

  • Spotibo: comprueba sintaxis y coincidencias de patrones.
  • Screaming Frog: simula el rastreo con las reglas de tu robots.txt y detecta bloqueos accidentales (yo lo uso tras cada cambio).
  • Search Console: aunque no tenga el viejo probador, con Inspección de URL y Cobertura ves si Google puede rastrear/mostrar una página.
  • Logs/servicios de monitorización: detecta picos de 403/404, cambios de caché, o si de repente los bots dejan de entrar donde deben.

Si no tienes experiencia previa configurando o interpretando un archivo robots.txt, apoyarte en profesionales especializados como una agencia SEO Barcelona, puede marcar la diferencia para evitar errores muy graves.

Resumen rápido para crear y subir tu robots.txt

1. Audita arquitectura y parámetros

Lista qué secciones importan (categorías, fichas, blog) y qué partes son innecesarias.

2. Define grupos por user-agent

¿Necesitas reglas específicas (p. ej., Googlebot-Image, Googlebot-News)? Si no, un grupo User-agent: * suele bastar.

3. Escribe reglas Allow/Disallow y añade Sitemap

Empieza permisivo y bloquea sólo lo que aporte ruido. Con incluir el índice de sitemaps es suficiente.

4. Guarda como texto plano robots.txt

Nada de Word ni caracteres raros. Mejor UTF-8.

5. Sube a la raíz del dominio/subdominio

/robots.txt exactamente. Evita redirecciones innecesarias.

6. Comprueba respuesta 200 y caché/CDN

Visita en producción lo que ya hemos visto hasta ahora “https://tu-dominio.com/robots.txt.” y revisa que todo esté correcto. Oruga caché si es necesario.

7. Valida con herramientas y corrige

Spotibo para sintaxis y patrones; Screaming Frog para simular rastreo con tus reglas.

8. Monitoriza rastreo, cobertura e incidencias

Revisa Search Console las semanas siguientes. Si cae cobertura de secciones clave, reevalúa bloqueos.

Consecuencias de un mal uso

  • Disallow: / en producción: bloqueo total del rastreo → pérdida de visibilidad e indizada indirecta con el tiempo.
  • Bloquear CSS/JS: Google no renderiza bien; problemas de evaluación de calidad y usabilidad.
  • Contradicciones (Sitemap apunta a URLs bloqueadas): confundes a los bots; pierde eficiencia.
  • Mayúsculas/minúsculas: /Blog/ ≠ /blog/. Un descuido aquí te deja secciones enteras sin rastrear.
  • Parámetros mal gestionados: diluyen el rastreo y pueden “enterrar” páginas importantes.
  • Migraciones: el clásico “me olvidé de quitar el bloqueo del staging”. Yo lo he visto, y duele.

Entradas Recientes

Entradas relacionadas que también te podrían interesar:

Aprende cómo preparar tu web y tus campañas digitales antes de enero para escalar ventas en 2026. Descubre claves de planificación, SEO, automatización y estrategias que permiten iniciar el año con ventaja frente a tu competencia.
Aprende qué es la conversión web, qué tipo de tráfico atraes y cuáles son los errores más comunes que están frenando tus resultados. Incluye consejos prácticos y un diagnóstico gratuito.
¿Sabías que las redes sociales ofrecen múltiples beneficios para las empresas? Desde la creación de comunidades y el aumento de la confianza en la marca hasta su impacto en el SEO y la conversión.
Scroll al inicio