🤖 La Guía Completa de robots.txt

Controla cómo los motores de búsqueda rastrean tu sitio web. Aprende las directivas esenciales, mejores prácticas y errores comunes del Protocolo de Exclusión de Robots.

Protocolo de Exclusión de Robots Optimización SEO Control de Rastreo

🤖 ¿Qué es robots.txt?

El archivo robots.txt es un archivo de texto ubicado en el directorio raíz de un sitio web que instruye a los rastreadores web (bots de motores de búsqueda) qué partes del sitio pueden y no pueden acceder. Es parte del Protocolo de Exclusión de Robots (REP), un estándar utilizado por los sitios web para comunicarse con rastreadores web automatizados. Aunque no es una medida de seguridad (los rastreadores determinados pueden ignorarlo), es una herramienta esencial para SEO y gestión de recursos del servidor. La herramienta Generador de robots.txt de arriba te ayuda a crear un archivo robots.txt correctamente formateado para tu sitio web.

Generador de robots.txt (arriba) crea un archivo robots.txt profesional con user-agents personalizables, rutas disallow, sitemaps y directivas avanzadas. Elige entre plantillas o configura manualmente, luego descarga o copia el resultado.

📜 La Historia de robots.txt

El Protocolo de Exclusión de Robots fue creado en 1994 por Martijn Koster y otros webmasters preocupados por que el tráfico de rastreadores sobrecargara sus servidores. La primera especificación se desarrolló en la lista de correo www-talk. Desde entonces, se ha convertido en un estándar utilizado por todos los principales motores de búsqueda, incluyendo Google, Bing, Yahoo, Yandex y Baidu. El protocolo no es un estándar oficial pero es ampliamente adoptado y respetado.

1994

Año de Creación de robots.txt

RFC 9309

Especificación Oficial (2022)

50+

Rastreadores Soportados

📋 Directivas Esenciales de robots.txt

Directiva	Descripción	Ejemplo
`User-agent`	Especifica a qué robot se aplican las siguientes reglas	`User-agent: *` (todos los bots)
`Disallow`	Rutas que NO deben ser rastreadas	`Disallow: /admin/`
`Allow`	Rutas que SÍ pueden ser rastreadas (sobrescribe Disallow)	`Allow: /public/`
`Sitemap`	Ubicación del/los sitemap(s) XML	`Sitemap: https://site.com/sitemap.xml`
`Crawl-delay`	Retraso entre solicitudes (segundos)	`Crawl-delay: 5`
`Host`	Dominio preferido (no oficial, usado por Yandex)	`Host: www.example.com`

Consejo Profesional: Usa User-agent: * para reglas que se aplican a todos los rastreadores. Para bots específicos como Googlebot, usa User-agent: Googlebot. Las reglas de user-agent más específicas anulan las generales.

🔧 Configuraciones Comunes de robots.txt

Permitir Todo (Predeterminado)

User-agent: * Allow: /

Permite que todos los rastreadores accedan a todo el contenido. Este es el comportamiento predeterminado incluso sin un archivo robots.txt.

Bloquear Todo

User-agent: * Disallow: /

Bloquea que todos los rastreadores accedan a cualquier parte del sitio. Usa con precaución: esto evitará que los motores de búsqueda indexen tu sitio por completo.

Bloquear Directorios Específicos

User-agent: * Disallow: /admin/ Disallow: /privado/ Disallow: /tmp/

Bloquear Rastreadores Específicos

User-agent: BadBot Disallow: / User-agent: * Allow: /

Bloquea un bot específico mientras permite a los demás.

"Un archivo robots.txt correctamente configurado le dice a los motores de búsqueda exactamente qué quieres que vean y qué ignorar. No se trata de ocultar contenido, sino de guiar a los rastreadores hacia lo que más importa."

— Mejores prácticas de SEO

🎯 Por Qué robots.txt es Importante para SEO

Un archivo robots.txt bien configurado proporciona varios beneficios de SEO:

Optimización del Presupuesto de Rastreo: Evita que los motores de búsqueda pierdan tiempo en páginas de bajo valor (áreas de administración, resultados de búsqueda, contenido duplicado).
Control de Indexación: Dirige a los rastreadores lejos de páginas que no quieres en los resultados de búsqueda.
Descubrimiento de Sitemap: Ayuda a los motores de búsqueda a encontrar tu sitemap XML, que contiene todas las páginas importantes.
Gestión de Recursos: Reduce la carga del servidor evitando rastreos innecesarios.

Características del Generador de robots.txt:

Plantillas preconstruidas para blogs, e-commerce, sitios corporativos y configuraciones restrictivas
Selección de user-agent personalizado para los principales motores de búsqueda (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo)
Añade rutas disallow y sitemaps ilimitados
Opciones avanzadas: directivas crawl-delay y host
Vista previa en tiempo real con resaltado de sintaxis
Descarga como archivo .txt o copia al portapapeles

⚠️ Errores Comunes de robots.txt a Evitar

Bloquear CSS y JavaScript: Los motores de búsqueda modernos necesitan estos para renderizar páginas correctamente. Nunca bloquees CSS, JS o archivos de imagen a menos que sea absolutamente necesario.
Usar robots.txt para Seguridad: robots.txt es público. Cualquiera puede ver qué directorios estás tratando de ocultar. Usa autenticación adecuada para contenido sensible.
Falta de Directiva Sitemap: Siempre incluye la URL de tu sitemap para ayudar a los motores de búsqueda a descubrir tu contenido.
Sintaxis Incorrecta: Faltan dos puntos, rutas incorrectas o caracteres inválidos pueden hacer que las directivas sean ignoradas.
Bloquear Todo el Sitio Accidentalmente: Verifica que Disallow: / solo se use cuando realmente quieras bloquear la indexación.

🕷️ User-Agents de los Principales Motores de Búsqueda

Googlebot: Rastreador principal de Google
Bingbot: Rastreador de Microsoft Bing
Slurp: Rastreador de Yahoo
DuckDuckBot: Rastreador de DuckDuckGo
Baiduspider: Rastreador de Baidu (China)
Yandex: Rastreador de Yandex (Rusia)

Usa user-agents específicos para aplicar reglas a motores de búsqueda individuales mientras permites a otros.

Prueba Tu Archivo

Usa el probador de robots.txt de Google Search Console para verificar tu configuración antes de la implementación.

Incluye Tu Sitemap

Siempre añade la directiva Sitemap para ayudar a los rastreadores a encontrar tu contenido eficientemente.

Usa Crawl-delay con Moderación

Crawl-delay puede limitar demasiado el rastreo. Úsalo solo si tu servidor tiene dificultades con el tráfico.

Valida la Sintaxis

Asegúrate de que cada directiva esté en su propia línea, sin espacios antes de los dos puntos.

📁 Dónde Colocar robots.txt

El archivo robots.txt debe colocarse en el directorio raíz de tu sitio web. Por ejemplo:

https://ejemplo.com/robots.txt
https://www.ejemplo.com/robots.txt

El archivo debe ser accesible vía HTTP y debe ser un archivo de texto plano. Es sensible a mayúsculas y minúsculas: usa minúsculas para los nombres de archivo.

🔍 Probando Tu Archivo robots.txt

Después de crear tu archivo robots.txt, pruébalo usando:

Google Search Console: La herramienta probadora de robots.txt muestra exactamente cómo Googlebot ve tu archivo.
Bing Webmaster Tools: Funcionalidad de prueba similar para Bingbot.
curl o wget: Obtén el archivo directamente para verificar que sea accesible.

❓ Preguntas Frecuentes Sobre robots.txt

¿robots.txt evita la indexación?

No. robots.txt evita el rastreo, no la indexación. Si otras páginas enlazan a una página no permitida, aún puede ser indexada. Usa la metaetiqueta noindex o la cabecera X-Robots-Tag para evitar la indexación.

¿Puedo bloquear imágenes o PDFs?

Sí. Puedes especificar rutas a directorios de imágenes o tipos de archivo específicos para evitar que aparezcan en los resultados de búsqueda de imágenes.

¿Cuál es la diferencia entre Disallow y noindex?

Disallow detiene a los rastreadores de acceder a una página. noindex permite el rastreo pero indica a los motores de búsqueda que no incluyan la página en los resultados de búsqueda. Usa noindex para páginas que quieres que sean rastreadas pero no indexadas.

¿Cuánto tiempo tardan en surtir efecto los cambios en robots.txt?

Los motores de búsqueda suelen volver a buscar robots.txt cada pocos días. Puedes acelerar el proceso usando la función "Solicitar indexación" de Google Search Console.

¿Debo tener un archivo robots.txt si no tengo nada que bloquear?

No es necesario, pero incluir una directiva sitemap puede ayudar a los motores de búsqueda a descubrir tu contenido. Un archivo vacío está bien, pero no tener ninguno también es aceptable.

Un archivo robots.txt bien configurado es una parte esencial de cualquier estrategia de SEO. Ayuda a los motores de búsqueda a rastrear tu sitio eficientemente, evita el desperdicio del presupuesto de rastreo y asegura que tu contenido más importante sea descubierto. Usa el Generador de robots.txt para crear tu archivo, pruébalo con las herramientas de consola de búsqueda y monitorea el rendimiento de rastreo de tu sitio con el tiempo.

Generador de robots.txt

Plantillas

Configuración

Previsualización

Generación Rápida

Control Total

Diseño Responsivo

Guía de robots.txt

¿Qué es un archivo robots.txt?

¿Por qué es importante?

Sintaxis básica

Mejores prácticas

🤖 La Guía Completa de robots.txt

🤖 ¿Qué es robots.txt?

📜 La Historia de robots.txt

📋 Directivas Esenciales de robots.txt

🔧 Configuraciones Comunes de robots.txt

Permitir Todo (Predeterminado)

Bloquear Todo

Bloquear Directorios Específicos

Bloquear Rastreadores Específicos

🎯 Por Qué robots.txt es Importante para SEO

⚠️ Errores Comunes de robots.txt a Evitar

🕷️ User-Agents de los Principales Motores de Búsqueda

📁 Dónde Colocar robots.txt

🔍 Probando Tu Archivo robots.txt

❓ Preguntas Frecuentes Sobre robots.txt

¿robots.txt evita la indexación?

¿Puedo bloquear imágenes o PDFs?

¿Cuál es la diferencia entre Disallow y noindex?

¿Cuánto tiempo tardan en surtir efecto los cambios en robots.txt?

¿Debo tener un archivo robots.txt si no tengo nada que bloquear?

Explora Todas Las Herramientas (102+)

Your Privacy Matters

Generador de robots.txt

Plantillas

Configuración

Previsualización

Generación Rápida

Control Total

Diseño Responsivo

Guía de robots.txt

¿Qué es un archivo robots.txt?

¿Por qué es importante?

Sintaxis básica

Mejores prácticas

🤖 La Guía Completa de robots.txt

🤖 ¿Qué es robots.txt?

📜 La Historia de robots.txt

📋 Directivas Esenciales de robots.txt

🔧 Configuraciones Comunes de robots.txt

Permitir Todo (Predeterminado)

Bloquear Todo

Bloquear Directorios Específicos

Bloquear Rastreadores Específicos

🎯 Por Qué robots.txt es Importante para SEO

⚠️ Errores Comunes de robots.txt a Evitar

🕷️ User-Agents de los Principales Motores de Búsqueda

📁 Dónde Colocar robots.txt

🔍 Probando Tu Archivo robots.txt

❓ Preguntas Frecuentes Sobre robots.txt

¿robots.txt evita la indexación?

¿Puedo bloquear imágenes o PDFs?

¿Cuál es la diferencia entre Disallow y noindex?

¿Cuánto tiempo tardan en surtir efecto los cambios en robots.txt?

¿Debo tener un archivo robots.txt si no tengo nada que bloquear?

Explora Todas Las Herramientas (102+)

Your Privacy Matters

Cookie Preferences

Your Data Rights (GDPR)