¿Qué hace el archivo robots.txt?

Robots.txt es un archivo de texto en tudominio.com/robots.txt que le dice a los rastreadores de motores de búsqueda qué partes de tu sitio web tienen permitido visitar. Controla el rastreo — si Google puede leer tus páginas — pero no directamente la indexación. Una página bloqueada en robots.txt aún puede aparecer en los resultados de búsqueda de Google si otros sitios enlazan a ella, solo que sin un fragmento de meta descripción.

¿Cómo sé si robots.txt está bloqueando mi sitio web de Google?

Visita tudominio.com/robots.txt en tu navegador. Si ves 'Disallow: /' sin una ruta específica, todo tu sitio está bloqueado. También verifica el informe de Cobertura de Google Search Console para páginas con estado 'Bloqueada por robots.txt', y usa la herramienta de Inspección de URL para verificar si páginas específicas muestran 'Bloqueada por robots.txt' como estado de indexación.

¿Por qué mi sitio web WordPress tiene Disallow: / en robots.txt?

WordPress tiene una configuración en Ajustes → Lectura llamada 'Solicita a los motores de búsqueda que no indexen este sitio.' Cuando esta casilla está marcada — típicamente durante el desarrollo — agrega 'Disallow: /' a robots.txt, bloqueando a todos los rastreadores de todo el sitio. Si esta configuración nunca se desmarcó cuando el sitio se lanzó, todo tu sitio web es invisible para Google. Desmarca esta casilla y guarda para solucionarlo inmediatamente.

Qué Es Robots.txt y ¿Está Bloqueando a Google de Tu Sitio Web?

Q: ¿Cuál es la diferencia entre robots.txt Disallow y noindex?

Disallow en robots.txt previene el rastreo — Google no puede leer el contenido de la página. Noindex es una etiqueta meta en la página que previene la indexación — Google puede leer la página pero no la mostrará en los resultados. Para eliminar correctamente una página de los resultados de búsqueda, permítele ser rastreada y usa noindex.

Qué Es un Archivo Robots.txt y ¿Está el Tuyo Bloqueando a Google de Tu Sitio Web?

Hay un archivo en tu sitio web ahora mismo que Google lee antes de leer cualquier otra cosa. Antes de mirar tu página de inicio, antes de rastrear tus páginas de servicios, antes de evaluar tu contenido para posicionamiento — lee este archivo y sigue sus instrucciones.

Ese archivo se llama robots.txt. Y para un número significativo de sitios web de negocios dominicanos, ese archivo actualmente le está diciendo a Google que se mantenga alejado.

No porque el dueño del negocio lo haya intentado. No porque un desarrollador tomara una decisión estratégica. A menudo porque una sola línea fue configurada durante el desarrollo del sitio web — cuando no quieres que Google indexe un sitio sin terminar — y nunca se cambió cuando el sitio se lanzó.

El resultado es un sitio web que se ve completo, carga correctamente y ha estado invirtiendo activamente en contenido de SEO — pero es invisible para Google porque la puerta principal tiene un cartel de "no entrar" que nadie se acordó de quitar.

Este artículo explica qué es realmente robots.txt, qué controla (y qué no controla), los cinco errores más comunes que hacen que los sitios web dominicanos bloqueen su propia visibilidad en Google, y cómo verificar si tu archivo tiene un problema en menos de 60 segundos.

Qué Es Realmente Robots.txt

Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu sitio web — siempre en la URL tudominio.com/robots.txt. Es de acceso público, lo que significa que cualquiera (y cualquier rastreador) puede leerlo.

El archivo usa una sintaxis simple para decirle a los bots de los motores de búsqueda — Googlebot, Bingbot y otros — qué partes de tu sitio web tienen permitido rastrear. "Rastrear" significa visitar y leer páginas para que puedan ser consideradas para su inclusión en el índice de búsqueda. Una página que no puede ser rastreada no puede ser indexada correctamente. Una página que no está correctamente indexada no aparece en los resultados de búsqueda de Google.

La sintaxis es mínima. Un archivo robots.txt tiene solo unos pocos tipos de líneas:

User-agent: Especifica a qué rastreador se aplican las siguientes reglas. User-agent: * se aplica a todos los rastreadores. User-agent: Googlebot se aplica solo al rastreador de Google.

Disallow: Especifica qué URLs no debe visitar el rastreador. Disallow: /admin/ significa no rastrear nada en el directorio admin. Disallow: / significa no rastrear nada en todo el sitio web.

Allow: Anula una regla Disallow para páginas específicas dentro de un directorio bloqueado.

Sitemap: Le dice a los rastreadores dónde se encuentra tu sitemap XML — una instrucción positiva útil que garantiza que Google encuentre todas tus páginas importantes.

Un robots.txt mínimo y correcto para la mayoría de los sitios web de turismo dominicanos se ve así:

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Sitemap: https://www.tudominio.com/sitemap.xml

Este archivo le dice a todos los rastreadores: no acceder al área de administración (que de todos modos no debería estar en los resultados de búsqueda), pero todo lo demás está abierto. Y aquí está dónde encontrar todas las páginas que deberías indexar.

Eso es todo lo que necesita la mayoría de los sitios web de negocios dominicanos. El problema surge cuando el archivo dice algo muy diferente a esto.

Lo Que Robots.txt NO Hace (Una Distinción Crítica)

Antes de cubrir los errores comunes, hay una distinción que confunde incluso a desarrolladores experimentados y es la fuente de un malentendido significativo sobre qué controla robots.txt.

Robots.txt controla el rastreo. No controla la indexación.

Estas son cosas diferentes:

Rastreo = Google visitando y leyendo una página
Indexación = Google incluyendo una página en su base de datos buscable

Una página bloqueada por robots.txt no puede ser rastreada correctamente. Pero Google aún puede indexarla — y mostrarla en los resultados de búsqueda — si otros sitios web enlazan a ella. En ese caso, Google sabe que la página existe por el enlace entrante, pero como no puede rastrearla, el resultado de búsqueda mostrará la URL sin meta descripción: una entrada en blanco sin vista previa de contenido.

Esta es la fuente del error "Indexada, aunque bloqueada por robots.txt" en Google Search Console — una página que aparece en los resultados pero no muestra fragmento porque Google no puede leer su contenido.

La implicación práctica: si quieres que una página se elimine completamente de los resultados de búsqueda de Google, Disallow: en robots.txt no es suficiente. Necesitas una etiqueta noindex en la página misma. Pero para que esa etiqueta noindex funcione, Google debe poder rastrear la página — lo que significa que la página no debe estar bloqueada en robots.txt.

El enfoque correcto para páginas que genuinamente quieres fuera de Google:

No las bloquees en robots.txt
Agrega una etiqueta <meta name="robots" content="noindex"> al HTML de la página
Google rastrea la página, ve la instrucción noindex y la elimina de los resultados

Los Cinco Errores de Robots.txt Más Comunes en Sitios Web Dominicanos

Error 1 — El Desastre del Modo de Desarrollo

Este es el problema de robots.txt más común y más dañino en los sitios web de negocios dominicanos — y es casi invisible a menos que sepas buscarlo.

Al construir un sitio web WordPress, los desarrolladores frecuentemente marcan la casilla "Visibilidad del sitio" en Ajustes → Lectura: "Solicita a los motores de búsqueda que no indexen este sitio." Esto agrega lo siguiente al robots.txt del sitio:

User-agent: *
Disallow: /

Esta sola directiva — Disallow: / — le dice a cada rastreador que se mantenga alejado de cada página en todo el sitio web. Es lo correcto durante el desarrollo, cuando no quieres que un sitio sin terminar aparezca en los resultados de búsqueda.

El problema es que cuando el sitio se lanza, este ajuste frecuentemente nunca se cambia. El dueño del negocio ve un sitio web en vivo y funcional y asume que Google lo encontrará. La casilla "Solicita a los motores de búsqueda que no indexen este sitio" permanece marcada. Pasan meses. El negocio se pregunta por qué no aparece en Google. Nadie piensa en verificar robots.txt.

Este escenario exacto es extremadamente común en el mercado dominicano, donde los sitios web frecuentemente se entregan de los desarrolladores a los dueños de negocios sin una lista de verificación técnica de SEO exhaustiva al lanzamiento.

Cómo verificar: Visita tudominio.com/robots.txt en tu navegador. Si ves Disallow: /, todo tu sitio web está bloqueado.

Cómo solucionar para WordPress: Ve a Ajustes → Lectura y desmarca "Solicita a los motores de búsqueda que no indexen este sitio." Guarda. El cambio tiene efecto inmediato.

Error 2 — Bloquear Archivos CSS y JavaScript

Un archivo robots.txt que bloquea hojas de estilo CSS o archivos JavaScript no solo oculta esos archivos de Google — le impide a Google renderizar tus páginas correctamente.

Google renderiza tu sitio web esencialmente como lo haría un navegador: carga el HTML, luego carga el CSS y JavaScript referenciados en ese HTML, y ensambla la página visual completa. Cuando los archivos CSS o JavaScript están bloqueados en robots.txt, Google recibe una renderización de página incompleta. Ve HTML básico sin estilo, sin elementos interactivos, sin el contenido completo que JavaScript podría renderizar.

La consecuencia es que la evaluación de calidad de Google de la página — su contenido, su usabilidad, sus señales de Core Web Vitals — se basa en una versión degradada de lo que los visitantes reales realmente ven. Esto suprime los posicionamientos incluso para páginas que técnicamente no están bloqueadas.

Qué verificar: Busca líneas Disallow: en tu robots.txt que hagan referencia a directorios que contienen archivos .css o .js. Líneas problemáticas comunes:

Disallow: /wp-content/ (bloquea todos los medios, temas y plugins de WordPress incluyendo CSS/JS)
Disallow: /assets/
Disallow: /static/

Ninguna de estas debería estar bloqueada.

Error 3 — Confundir el Bloqueo de Robots.txt con Noindex

Este es el error conceptual que lleva a muchos dueños de sitios web y desarrolladores dominicanos a creer que sus páginas están ocultas de Google cuando no lo están — o a creer que las páginas son accesibles cuando están bloqueadas.

Disallow: en robots.txt: previene el rastreo. Google no puede leer el contenido de la página. Etiqueta noindex en la página: previene la indexación. Google puede leer la página pero no la mostrará en los resultados de búsqueda.

El uso correcto para cada uno:

Usa Disallow: para páginas que nunca deberían ser rastreadas y de las que no te preocupa que aparezcan en los resultados desde señales de enlaces (páginas de inicio de sesión, áreas de administración, páginas de resultados de búsqueda interna, entornos de preparación)
Usa noindex para páginas que no deberían aparecer en los resultados de búsqueda pero donde necesitas que Google rastree la página para ver la instrucción (páginas de agradecimiento, páginas de contenido duplicado, páginas de navegación filtrada)

Error 4 — Reglas del Sitio de Preparación Desplegadas en Producción

Otra fuente extremadamente común de desastres de rastreo en sitios web dominicanos: una configuración de robots.txt construida para un entorno de preparación (staging) que se despliega al sitio de producción.

Durante el desarrollo, es una práctica correcta bloquear los rastreadores en el sitio de preparación para que la versión sin terminar no aparezca en Google junto con la versión en vivo. El robots.txt de preparación contiene correctamente Disallow: /.

Cuando el sitio se despliega a producción, si el archivo robots.txt se despliega junto con el código fuente sin ser actualizado, el sitio de producción hereda el bloqueo de preparación.

Prevención: Incluye la revisión de robots.txt en cada lista de verificación de despliegue. Después de cualquier migración o lanzamiento de sitio, verifica que tudominio.com/robots.txt no contenga Disallow: /.

Error 5 — Comodines que Bloquean Más de lo Previsto

Las configuraciones avanzadas de robots.txt que usan caracteres comodín (*) pueden bloquear accidentalmente patrones que no estaban previstos.

Un ejemplo común en sitios de operadores de tours que usan parámetros de URL para filtrado:

Disallow: /*?*

Esto pretende bloquear todas las URLs con parámetros de consulta. El problema es que el comodín también puede coincidir con URLs legítimas que resultan contener un ?.

Otro ejemplo común:

Disallow: /blog/

Agregado por un desarrollador que quería bloquear una categoría de blog específica, esta regla bloquea todo el directorio del blog — incluyendo cada publicación individual, cada página de categoría y cada página de etiquetas.

Cómo probar reglas de comodines: Usa el verificador de robots.txt de Google Search Console (Configuración → robots.txt en Search Console) o la herramienta de Inspección de URL para verificar si URLs específicas están bloqueadas antes de hacer cambios a tu robots.txt.

Lo Que un Robots.txt Correcto Hace por Tu SEO

Robots.txt no se trata solo de evitar errores. Usado correctamente, ayuda activamente a tu SEO dirigiendo el presupuesto de rastreo de Google hacia tus páginas más importantes.

Para un sitio web de turismo dominicano, las páginas que importan para el SEO son: tu página de inicio, tus páginas de servicios, tus publicaciones de blog, tu página de información y tu página de contacto. Las páginas que no necesitan ser indexadas son: áreas de administración, páginas de inicio de sesión, páginas de agradecimiento después de envíos de formularios, páginas de resultados de búsqueda interna y páginas que existen por razones técnicas pero no tienen valor para el usuario.

Un robots.txt bien configurado para un operador de tours de Punta Cana con WordPress se ve así:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /carrito/
Disallow: /checkout/
Disallow: /mi-cuenta/
Disallow: /gracias/
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Allow: /

Sitemap: https://www.tudominio.com/sitemap.xml

Cómo Verificar Tu Robots.txt Ahora Mismo (Auditoría de 60 Segundos)

Paso 1 — Encuentra y lee el archivo: Abre un navegador y ve a tudominio.com/robots.txt. Léelo. Si ves Disallow: / sin una ruta específica, todo tu sitio está bloqueado.

Paso 2 — Verifica en Google Search Console: En Search Console, navega a Configuración y encuentra el verificador de robots.txt. Esta herramienta te muestra lo que dice tu robots.txt actualmente y te permite probar si URLs específicas están bloqueadas o permitidas.

Paso 3 — Usa la herramienta de Inspección de URL: En Search Console, pega cualquiera de las URLs de tus páginas de servicios importantes en la herramienta de Inspección de URL. Si muestra "URL no está en Google" o "Bloqueada por robots.txt," esa URL no puede ser rastreada ni indexada.

Paso 4 — Verifica el informe de Cobertura: En el informe de Cobertura (o Indexación) de Search Console, filtra por estado "Excluido" y busca "Bloqueada por robots.txt" como razón de exclusión. Si ves páginas importantes aquí, tu robots.txt tiene un bloqueo no intencional.

Paso 5 — Busca el sitio en Google: Busca site:tudominio.com en Google. Esto muestra todas las páginas que Google ha indexado de tu dominio. Si tienes 50 páginas pero solo aparecen 3 en esta búsqueda, hay probablemente un problema de indexación — ya sea bloqueo de robots.txt o etiquetas noindex que impiden que el resto aparezca.

Cómo Next.js y DR Web Studio Manejan Robots.txt

Para los sitios web construidos en Next.js — la base de cada construcción de DR Web Studio — el archivo robots.txt se genera programáticamente desde un archivo robots.ts en el directorio de la aplicación. Esto le da varias ventajas sobre un archivo estático mantenido manualmente:

No puede ser desplegado accidentalmente con reglas de bloqueo del modo de desarrollo, porque la configuración de producción es explícitamente separada de cualquier configuración de desarrollo. La URL del Sitemap siempre está actualizada porque hace referencia al dominio canónico configurado en las variables de entorno del proyecto. Puede actualizarse cambiando un único archivo de configuración en lugar de editar manualmente un archivo de texto que podría ser sobreescrito en el próximo despliegue.

En DR Web Studio, la configuración de robots.txt es parte de nuestra lista de verificación estándar de lanzamiento junto con el envío del sitemap, la verificación de Search Console y las pruebas de datos estructurados. El archivo se revisa y confirma antes de que cualquier sitio entre en funcionamiento.

Si quieres verificar que tu robots.txt actual está correctamente configurado y que ninguna página importante está siendo bloqueada inadvertidamente, solicita una consulta gratuita. Ejecutaremos una auditoría técnica de SEO completa incluyendo revisión de robots.txt, análisis de cobertura de Search Console y estado de indexación para tus páginas clave.

Una línea puede deshacer meses de trabajo de SEO. Dos minutos de verificación pueden confirmar que no ha sucedido.