Bots de IA que Crawlean tu Web: Quiénes Son y Cómo Controlarlos [2026]

Q: ¿GPTBot y ChatGPT-User son el mismo bot?

No. GPTBot descarga contenido para entrenar futuros modelos de OpenAI. ChatGPT-User accede a tu web en tiempo real cuando un usuario de ChatGPT pide buscar algo. Puedes bloquear GPTBot (entrenamiento) y permitir ChatGPT-User (búsqueda) de forma independiente. La mayoría de sitios deberían hacer exactamente esto.

Q: ¿Hay alguna diferencia entre bloquear en robots.txt y bloquear con Cloudflare?

Sí, y es importante. robots.txt es una petición educada: "por favor, no crawlees esto". Un bot puede ignorarlo. Cloudflare (o cualquier WAF) es un bloqueo técnico real: la petición ni siquiera llega a tu servidor. Para bots que respetan robots.txt (OpenAI, Anthropic, Google), ambos métodos funcionan. Para scrapers que lo ignoran, solo el bloqueo a nivel de firewall es efectivo. Lo ideal es usar ambos.

TLDR: En 2026, más de 57 bots de IA diferentes rastrean tu web para alimentar modelos de lenguaje como GPT, Claude, Gemini y Perplexity. The SEO Framework documentó 180.000 peticiones de bots de IA en solo 6 meses. Puedes controlarlos con robots.txt, pero la decisión de bloquear o permitir tiene implicaciones directas en tu visibilidad en los motores de búsqueda generativa (GEO). Esta guía te explica quién es cada bot, cómo identificarlo y qué estrategia seguir.

Por qué te debería importar quién crawlea tu web

Cada vez que publicas contenido en internet, no solo Google lo lee. En 2026, decenas de empresas de inteligencia artificial envían sus propios bots para rastrear, indexar y procesar tu contenido. Ese contenido termina alimentando modelos como GPT-5, Claude Opus, Gemini y los resultados de Perplexity.

Esto tiene tres implicaciones directas:

Consumo de recursos del servidor: Los bots de IA generan tráfico real. Si tu hosting es limitado, 180.000 peticiones extra en 6 meses pueden afectar al rendimiento.
Tu contenido entrena modelos comerciales: El texto que escribiste puede aparecer parafraseado en respuestas de ChatGPT o Claude sin que recibas atribución ni tráfico.
Visibilidad en buscadores de IA: Si bloqueas a todos los bots, tu web desaparece de Perplexity, ChatGPT Search y los AI Overviews de Google.

El estudio de The SEO Framework publicado en 2025 fue el primero en cuantificar el volumen real: 57 bots de IA únicos realizaron más de 180.000 peticiones a un sitio de tamaño medio en apenas 6 meses. Eso es más tráfico del que muchos sitios reciben de usuarios reales.

La pregunta ya no es si te crawlean, sino cómo gestionarlo.

El ecosistema de bots de IA en 2026

Categorías de bots

No todos los bots de IA hacen lo mismo. Se pueden clasificar en cuatro categorías:

Categoría	Qué hacen	Ejemplos
Entrenamiento de modelos	Descargan contenido para entrenar LLMs	GPTBot, CCBot, ClaudeBot
Búsqueda en tiempo real	Rastrean para dar respuestas actualizadas	ChatGPT-User, PerplexityBot
Resúmenes y AI Overviews	Generan resúmenes en buscadores	Google-Extended, Applebot-Extended
Investigación y datos	Recopilan datos para datasets	Common Crawl, Amazonbot

Esta distinción es fundamental porque quizá quieras bloquear el entrenamiento pero permitir la búsqueda en tiempo real. Un bot como GPTBot se usa para entrenar modelos futuros, pero ChatGPT-User se usa para buscar información en el momento en que un usuario hace una consulta. Bloquear el segundo significa que ChatGPT no podrá citar tu web cuando alguien pregunte algo relacionado con tu contenido.

Los jugadores principales

Hay cinco grandes empresas cuyos bots generan el mayor volumen de tráfico IA:

OpenAI: GPTBot (entrenamiento) + ChatGPT-User (búsqueda en tiempo real) + OAI-SearchBot (rastreo de búsqueda)
Anthropic: ClaudeBot (entrenamiento y rastreo general) + anthropic-ai (investigación)
Google: Google-Extended (entrenamiento de Gemini) + Googlebot (búsqueda general, incluye AI Overviews)
Meta: Meta-ExternalAgent (entrenamiento de Llama) + FacebookExternalHit (previsualizaciones)
Perplexity: PerplexityBot (rastreo para su motor de búsqueda IA)

Además, hay decenas de bots de empresas más pequeñas, datasets académicos y scrapers que se hacen pasar por crawlers legítimos.

Tabla completa de bots de IA: User-Agents, empresa y control

Esta es la referencia más completa en español de los bots de IA que crawlean la web en 2026. Para cada uno indicamos su user-agent exacto (el que aparece en tus logs), la empresa detrás, para qué lo usan y la directiva de robots.txt que lo controla.

Bots de OpenAI

User-Agent	Empresa	Propósito	Directiva robots.txt
`GPTBot`	OpenAI	Entrenamiento de modelos GPT	`User-agent: GPTBot`
`ChatGPT-User`	OpenAI	Búsqueda en tiempo real (ChatGPT Search)	`User-agent: ChatGPT-User`
`OAI-SearchBot`	OpenAI	Rastreo web para búsqueda	`User-agent: OAI-SearchBot`

GPTBot es el crawler principal de OpenAI para entrenar modelos futuros. Lo lanzaron en agosto de 2023 y fue el primero en incluir documentación pública sobre cómo bloquearlo. Su user-agent completo es:

code

1Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

ChatGPT-User es diferente: actúa cuando un usuario de ChatGPT pide buscar algo en la web. Si lo bloqueas, ChatGPT no podrá acceder a tu contenido en tiempo real, lo que significa cero posibilidades de aparecer como fuente citada.

Bots de Anthropic

User-Agent	Empresa	Propósito	Directiva robots.txt
`ClaudeBot`	Anthropic	Rastreo general y entrenamiento	`User-agent: ClaudeBot`
`anthropic-ai`	Anthropic	Investigación y rastreo	`User-agent: anthropic-ai`
`Claude-Web`	Anthropic	Acceso web desde Claude	`User-agent: Claude-Web`

ClaudeBot es el crawler principal de Anthropic. Lo identificaron públicamente en 2024 y respeta las directivas de robots.txt. Su user-agent:

code

1Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)

Anthropic ha sido relativamente transparente sobre sus prácticas de crawleo, publicando documentación sobre cómo bloquearlo y comprometiéndose a respetar robots.txt.

Bots de Google

User-Agent	Empresa	Propósito	Directiva robots.txt
`Google-Extended`	Google	Entrenamiento de Gemini y AI Overviews	`User-agent: Google-Extended`
`Googlebot`	Google	Búsqueda general (incluye AI Overviews)	`User-agent: Googlebot`

Cuidado con Google-Extended: Bloquear Google-Extended impide que Google use tu contenido para entrenar Gemini y generar AI Overviews, pero no afecta a tu posicionamiento en búsqueda orgánica. Bloquear Googlebot sí te elimina de los resultados de búsqueda. Son dos cosas diferentes.

Google creó Google-Extended precisamente para dar este control granular. Es la única empresa grande que separó claramente el crawler de IA del crawler de búsqueda.

Bots de Meta

User-Agent	Empresa	Propósito	Directiva robots.txt
`Meta-ExternalAgent`	Meta	Entrenamiento de modelos Llama	`User-agent: Meta-ExternalAgent`
`meta-externalagent`	Meta	Variante del mismo crawler	`User-agent: meta-externalagent`
`FacebookExternalHit`	Meta	Previsualizaciones de enlaces	`User-agent: FacebookExternalHit`

Meta-ExternalAgent apareció en 2024 para alimentar los modelos Llama. Meta se diferencia de OpenAI en que sus modelos son open source, así que el argumento de "entrenas un producto comercial con mi contenido gratis" es más matizado: el modelo entrenado es accesible para todos.

Bots de Perplexity

User-Agent	Empresa	Propósito	Directiva robots.txt
`PerplexityBot`	Perplexity AI	Rastreo para motor de búsqueda IA	`User-agent: PerplexityBot`

PerplexityBot ha sido polémico. En 2024, Forbes y otros medios acusaron a Perplexity de no respetar robots.txt y de plagiar contenido sin atribución. Perplexity respondió mejorando su sistema de citas inline. A día de hoy, en 2026, PerplexityBot respeta robots.txt pero sigue siendo agresivo en el volumen de peticiones.

Si te interesa entender cómo funciona Perplexity como buscador, tenemos una comparativa completa de Perplexity vs ChatGPT vs Google.

Bots de Apple

User-Agent	Empresa	Propósito	Directiva robots.txt
`Applebot-Extended`	Apple	Entrenamiento de Apple Intelligence	`User-agent: Applebot-Extended`
`Applebot`	Apple	Siri y Spotlight	`User-agent: Applebot`

Applebot-Extended se creó para Apple Intelligence, el sistema de IA que Apple integra en sus dispositivos desde iOS 18. Bloquear Applebot-Extended impide que Apple use tu contenido para IA, pero no afecta a Siri básico ni Spotlight.

Otros bots de IA relevantes

User-Agent	Empresa	Propósito	Directiva robots.txt
`CCBot`	Common Crawl	Dataset público de la web	`User-agent: CCBot`
`Amazonbot`	Amazon	Alexa y servicios IA	`User-agent: Amazonbot`
`Bytespider`	ByteDance	Entrenamiento de modelos (TikTok)	`User-agent: Bytespider`
`cohere-ai`	Cohere	Entrenamiento de modelos	`User-agent: cohere-ai`
`Diffbot`	Diffbot	Extracción de datos estructurados	`User-agent: Diffbot`
`YouBot`	You.com	Motor de búsqueda IA	`User-agent: YouBot`
`Timpibot`	Timpi	Búsqueda descentralizada	`User-agent: Timpibot`
`Kangaroo Bot`	Kangaroo LLM	Entrenamiento	`User-agent: Kangaroo Bot`
`img2dataset`	LAION	Datasets de imágenes	`User-agent: img2dataset`
`omgili`	Webz.io	Scraping de datos	`User-agent: omgili`
`Scrapy`	Varios	Framework de scraping	`User-agent: Scrapy`
`PetalBot`	Aspiegel (Huawei)	Motor de búsqueda Petal	`User-agent: PetalBot`
`ISSCyberRiskCrawler`	ISS	Análisis de seguridad	`User-agent: ISSCyberRiskCrawler`
`Ai2Bot`	Allen AI	Investigación académica	`User-agent: Ai2Bot`
`Sidetrade`	Sidetrade	IA financiera	`User-agent: Sidetrade`

CCBot merece mención especial. Common Crawl es una organización sin ánimo de lucro que mantiene un dataset público de la web. Ese dataset es la base de entrenamiento de la mayoría de LLMs, incluidos GPT, Claude y Llama. Bloquear CCBot es probablemente la acción más efectiva si quieres evitar que tu contenido se use para entrenamiento, ya que reduce tu presencia en el dataset más utilizado.

Cómo identificar bots de IA en tus logs del servidor

Acceder a los logs

Dependiendo de tu hosting, los logs de acceso están en diferentes ubicaciones:

bash

1# Apache
2/var/log/apache2/access.log
3 
4# Nginx
5/var/log/nginx/access.log
6 
7# cPanel
8/home/usuario/access-logs/dominio.com
9 
10# Plesk
11/var/www/vhosts/dominio.com/logs/access_ssl_log

Filtrar peticiones de bots de IA

Para encontrar bots de IA en tus logs, busca los user-agents conocidos:

bash

1# Buscar todos los bots de IA principales
2grep -iE "GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|anthropic-ai|Applebot-Extended|OAI-SearchBot|cohere-ai" /var/log/nginx/access.log

Contar peticiones por bot

bash

1# Contar peticiones por cada bot de IA
2grep -oiE "GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|OAI-SearchBot" /var/log/nginx/access.log | sort | uniq -c | sort -rn

Resultado típico en un sitio de tamaño medio:

code

145832  CCBot
2  28471  GPTBot
3  19234  Bytespider
4  14567  ClaudeBot
5   9823  ChatGPT-User
6   8421  PerplexityBot
7   6234  Meta-ExternalAgent
8   4123  Google-Extended
9   3892  Applebot-Extended
10   1456  OAI-SearchBot

Analizar el comportamiento

Los bots de IA tienen patrones de crawleo diferentes a Googlebot:

bash

1# Ver qué páginas crawlea GPTBot con más frecuencia
2grep "GPTBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

Patrones comunes que verás:

GPTBot tiende a crawlear páginas de texto largo (artículos, documentación)
PerplexityBot crawlea de forma más agresiva, con ráfagas de peticiones
ClaudeBot es más moderado en volumen pero consistente
CCBot hace crawleos masivos pero espaciados en el tiempo
Bytespider es el más agresivo en volumen, a menudo sin respetar rate limits

Monitorización continua con un script

Si quieres monitorizar los bots de IA de forma continua, este script genera un informe diario:

bash

1#!/bin/bash
2# ai-bot-monitor.sh - Informe diario de bots de IA
3 
4LOG="/var/log/nginx/access.log"
5DATE=$(date +%Y-%m-%d)
6REPORT="/var/log/ai-bots-report-$DATE.txt"
7 
8echo "=== Informe de Bots de IA - $DATE ===" > $REPORT
9echo "" >> $REPORT
10 
11BOTS="GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|OAI-SearchBot|cohere-ai|anthropic-ai"
12 
13echo "Peticiones por bot:" >> $REPORT
14grep -oiE "$BOTS" $LOG | sort | uniq -c | sort -rn >> $REPORT
15 
16echo "" >> $REPORT
17echo "Páginas más crawleadas por bots IA:" >> $REPORT
18grep -iE "$BOTS" $LOG | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 >> $REPORT
19 
20echo "" >> $REPORT
21echo "Códigos de respuesta:" >> $REPORT
22grep -iE "$BOTS" $LOG | awk '{print $9}' | sort | uniq -c | sort -rn >> $REPORT

Robots.txt: La herramienta principal para controlar bots de IA

Cómo funciona robots.txt para bots de IA

El archivo robots.txt es un estándar de la web que indica a los crawlers qué páginas pueden y cuáles no pueden rastrear. Todos los bots de IA legítimos dicen respetar robots.txt, aunque la realidad es más compleja.

El archivo debe estar en la raíz de tu dominio: https://tudominio.com/robots.txt

La sintaxis básica es:

code

1User-agent: NombreDelBot
2Disallow: /ruta-bloqueada/
3Allow: /ruta-permitida/

Plantilla completa de robots.txt para control de bots de IA

Esta es la plantilla más completa que vas a encontrar en español. Cópiala, adáptala a tu caso y colócala como tu robots.txt:

code

1# ============================================
2# ROBOTS.TXT - Control de Bots de IA
3# Generado: 2026-04-13
4# Más info: https://www.upliora.es/blog/bots-ia-crawlers-gptbot-claudebot-controlar-2026
5# ============================================
6 
7# --- BUSCADORES TRADICIONALES (PERMITIR SIEMPRE) ---
8User-agent: Googlebot
9Allow: /
10 
11User-agent: Bingbot
12Allow: /
13 
14User-agent: Yandex
15Allow: /
16 
17User-agent: DuckDuckBot
18Allow: /
19 
20# --- OPENAI ---
21# GPTBot: Entrenamiento de modelos (bloquear si no quieres entrenar GPT)
22User-agent: GPTBot
23Disallow: /
24 
25# ChatGPT-User: Búsqueda en tiempo real (PERMITIR para aparecer en ChatGPT)
26User-agent: ChatGPT-User
27Allow: /
28 
29# OAI-SearchBot: Rastreo de búsqueda
30User-agent: OAI-SearchBot
31Allow: /
32 
33# --- ANTHROPIC ---
34# ClaudeBot: Entrenamiento y rastreo general
35User-agent: ClaudeBot
36Disallow: /
37 
38# Claude-Web: Acceso web desde Claude
39User-agent: Claude-Web
40Allow: /
41 
42# anthropic-ai: Investigación
43User-agent: anthropic-ai
44Disallow: /
45 
46# --- GOOGLE IA ---
47# Google-Extended: Entrenamiento de Gemini / AI Overviews
48# NOTA: Bloquear esto NO afecta al SEO tradicional
49User-agent: Google-Extended
50Disallow: /
51 
52# --- META ---
53# Meta-ExternalAgent: Entrenamiento de Llama
54User-agent: Meta-ExternalAgent
55Disallow: /
56 
57User-agent: meta-externalagent
58Disallow: /
59 
60# --- PERPLEXITY ---
61# PerplexityBot: Motor de búsqueda IA (PERMITIR para aparecer en Perplexity)
62User-agent: PerplexityBot
63Allow: /
64 
65# --- APPLE ---
66# Applebot-Extended: Apple Intelligence
67User-agent: Applebot-Extended
68Disallow: /
69 
70# --- COMMON CRAWL ---
71# CCBot: Dataset público usado por la mayoría de LLMs
72User-agent: CCBot
73Disallow: /
74 
75# --- BYTEDANCE ---
76# Bytespider: Entrenamiento de modelos (TikTok)
77User-agent: Bytespider
78Disallow: /
79 
80# --- OTROS BOTS DE IA ---
81User-agent: cohere-ai
82Disallow: /
83 
84User-agent: Diffbot
85Disallow: /
86 
87User-agent: YouBot
88Disallow: /
89 
90User-agent: Amazonbot
91Disallow: /
92 
93User-agent: Ai2Bot
94Disallow: /
95 
96User-agent: Timpibot
97Disallow: /
98 
99User-agent: omgili
100Disallow: /
101 
102User-agent: PetalBot
103Disallow: /
104 
105User-agent: img2dataset
106Disallow: /
107 
108# --- SITEMAP ---
109Sitemap: https://tudominio.com/sitemap.xml

Variante: Permitir todo (estrategia GEO agresiva)

Si tu prioridad es maximizar la visibilidad en motores de búsqueda de IA, puedes permitir todos los bots:

code

1# Permitir todos los bots (máxima visibilidad GEO)
2User-agent: *
3Allow: /
4 
5Sitemap: https://tudominio.com/sitemap.xml

Esta es la estrategia que recomiendan especialistas en GEO como Javier Santos de Javadex, ya que el objetivo es que tu contenido aparezca citado en ChatGPT, Claude, Perplexity y los AI Overviews de Google. Si tu modelo de negocio se beneficia de ser fuente citada, bloquear bots es contraproducente.

Variante: Bloquear todo (protección máxima de contenido)

Si tu contenido es premium y no quieres que alimente ningún modelo de IA:

code

1# Bloquear todos los bots de IA conocidos
2User-agent: GPTBot
3Disallow: /
4 
5User-agent: ChatGPT-User
6Disallow: /
7 
8User-agent: OAI-SearchBot
9Disallow: /
10 
11User-agent: ClaudeBot
12Disallow: /
13 
14User-agent: Claude-Web
15Disallow: /
16 
17User-agent: anthropic-ai
18Disallow: /
19 
20User-agent: Google-Extended
21Disallow: /
22 
23User-agent: Meta-ExternalAgent
24Disallow: /
25 
26User-agent: meta-externalagent
27Disallow: /
28 
29User-agent: PerplexityBot
30Disallow: /
31 
32User-agent: Applebot-Extended
33Disallow: /
34 
35User-agent: CCBot
36Disallow: /
37 
38User-agent: Bytespider
39Disallow: /
40 
41User-agent: cohere-ai
42Disallow: /
43 
44User-agent: Diffbot
45Disallow: /
46 
47User-agent: YouBot
48Disallow: /
49 
50User-agent: Amazonbot
51Disallow: /
52 
53# Permitir buscadores tradicionales
54User-agent: Googlebot
55Allow: /
56 
57User-agent: Bingbot
58Allow: /
59 
60Sitemap: https://tudominio.com/sitemap.xml

Estrategias avanzadas: Más allá de robots.txt

La etiqueta meta noai y noml

Algunos editores y plataformas están implementando meta tags específicas para IA:

html

1<!-- Bloquear uso para entrenamiento de IA -->
2<meta name="robots" content="noai, noimageai">
3 
4<!-- Bloquear solo entrenamiento de modelos de lenguaje -->
5<meta name="robots" content="noml">

En 2026, estas etiquetas no son un estándar oficial y no todos los bots las respetan. OpenAI y Google han dicho que las consideran, pero no hay garantía. Es una capa adicional de protección, no un sustituto de robots.txt.

Headers HTTP: X-Robots-Tag

Puedes enviar directivas a nivel de servidor HTTP, útil para archivos que no son HTML (PDFs, imágenes):

nginx

1# Nginx: Bloquear entrenamiento de IA para PDFs
2location ~* \.pdf$ {
3    add_header X-Robots-Tag "noai, noimageai" always;
4}

apache

1# Apache: Bloquear entrenamiento de IA para todo el sitio
2<IfModule mod_headers.c>
3    Header set X-Robots-Tag "noai, noimageai"
4</IfModule>

Rate limiting para bots agresivos

Algunos bots, especialmente Bytespider y ciertos scrapers, no respetan los crawl-delay de robots.txt. Puedes limitar su velocidad a nivel de servidor:

nginx

1# Nginx: Limitar bots de IA a 1 petición por segundo
2map $http_user_agent $is_ai_bot {
3    default 0;
4    ~*GPTBot 1;
5    ~*ClaudeBot 1;
6    ~*Bytespider 1;
7    ~*CCBot 1;
8    ~*PerplexityBot 1;
9    ~*Meta-ExternalAgent 1;
10}
11 
12limit_req_zone $binary_remote_addr zone=ai_bots:10m rate=1r/s;
13 
14server {
15    if ($is_ai_bot) {
16        set $limit_zone ai_bots;
17    }
18 
19    location / {
20        limit_req zone=ai_bots burst=5 nodelay;
21        # ... tu configuración normal
22    }
23}

Cloudflare: Bot Management

Si usas Cloudflare (incluso en el plan gratuito), puedes crear reglas específicas:

Ir a Security > WAF > Custom Rules
Crear regla: "Block AI Training Bots"
Condición: (http.user_agent contains "GPTBot") or (http.user_agent contains "CCBot") or (http.user_agent contains "Bytespider")
Acción: Block (o Challenge para verificar que es legítimo)

Cloudflare también ofrece desde 2025 un toggle específico para bloquear bots de IA en Security > Bots > AI Scrapers and Crawlers. Activarlo bloquea todos los bots de IA conocidos de un golpe.

El debate: Bloquear o permitir bots de IA

Argumentos para bloquear

Protección de la propiedad intelectual: Tu contenido es tuyo. Si las empresas de IA lo usan para entrenar modelos comerciales, deberían compensarte.
Impacto en el tráfico: Si la IA resume tu contenido en su respuesta, el usuario no necesita visitar tu web. Esto afecta directamente a los ingresos por publicidad y conversiones.
Consumo de recursos: Los bots de IA consumen ancho de banda y capacidad de servidor sin generar ningún valor directo.
Precedente legal: Varios demandas contra OpenAI y Meta por uso no autorizado de contenido están en curso. Bloquear bots refuerza tu posición legal.

Argumentos para permitir

Visibilidad en búsqueda IA: Si bloqueas a Perplexity, ChatGPT Search y Google AI Overviews, pierdes visibilidad en los canales de descubrimiento que más crecen.
GEO (Generative Engine Optimization): Aparecer como fuente citada en respuestas de IA genera tráfico cualificado. Según datos de 2026, los clics desde IA convierten un 4,4 veces mejor que los de búsqueda orgánica.
El tren ya pasó: Si tu contenido existía antes de 2024, ya se usó para entrenar modelos. Bloquear ahora solo impide que tu contenido nuevo sea visible en IA.
Estrategia a largo plazo: Los motores de búsqueda generativa están reemplazando a Google para muchas consultas. No estar ahí es como no estar indexado en Google en 2010.

Para profundizar en esta tensión entre SEO clásico y optimización para IA, consulta nuestra guía de SEO vs GEO.

La posición de los grandes medios

Los medios de comunicación están divididos:

Medio	Posición	Acuerdos
The New York Times	Bloquea GPTBot, demanda a OpenAI	Ninguno
Associated Press	Permite	Acuerdo de licencia con OpenAI
Reddit	Permite selectivamente	Acuerdo con Google ($60M/año)
Financial Times	Bloquea la mayoría	Acuerdo con OpenAI
The Guardian	Bloquea entrenamiento	Permite búsqueda
Axel Springer	Permite	Acuerdo con OpenAI (Bild, Politico)
Condé Nast	Bloquea GPTBot	Permite Perplexity (acuerdo)
Forbes	Bloquea Perplexity	Demanda pendiente

La tendencia es clara: los medios grandes negocian acuerdos de licencia con OpenAI y Google, mientras bloquean a los que no pagan. Para sitios pequeños y medianos, esta opción no existe: o bloqueas o permites, sin acuerdo económico.

La estrategia recomendada: Control selectivo

Nuestra recomendación en Upliora, y la que aplican los consultores de GEO especializados como Javadex, es un enfoque selectivo:

Permitir los bots de búsqueda en tiempo real

Estos bots generan visibilidad directa cuando un usuario busca algo:

code

1User-agent: ChatGPT-User
2Allow: /
3 
4User-agent: OAI-SearchBot
5Allow: /
6 
7User-agent: PerplexityBot
8Allow: /
9 
10User-agent: Claude-Web
11Allow: /

Bloquear los bots de entrenamiento puro

Estos bots descargan contenido para entrenar modelos sin darte visibilidad:

code

1User-agent: GPTBot
2Disallow: /
3 
4User-agent: ClaudeBot
5Disallow: /
6 
7User-agent: CCBot
8Disallow: /
9 
10User-agent: Bytespider
11Disallow: /
12 
13User-agent: Meta-ExternalAgent
14Disallow: /

Decisión caso por caso

Para estos bots, la decisión depende de tu estrategia:

Google-Extended: Bloquear si no quieres aparecer en AI Overviews. Permitir si los AI Overviews de Google te generan tráfico (que cada vez generan más).
Applebot-Extended: Permitir si tu audiencia usa dispositivos Apple y quieres aparecer en Siri y Apple Intelligence.
Amazonbot: Permitir si vendes productos y quieres aparecer en Alexa y Amazon.

Implicaciones legales y éticas

El marco legal en 2026

La regulación sobre crawleo de IA avanza rápido:

EU AI Act (en vigor): Exige que los modelos de IA de propósito general (GPAI) documenten qué datos de entrenamiento usaron. Esto incluye contenido web crawleado.
Directiva de Derechos de Autor de la UE: Permite el text mining para investigación pero exige respetar el opt-out de los editores (robots.txt, meta tags).
Demandas en EE.UU.: The New York Times vs OpenAI sigue en curso. Getty Images vs Stability AI se resolvió con un acuerdo parcial. Varios fallos judiciales han reconocido que el fair use no cubre automáticamente el entrenamiento de modelos comerciales.

Robots.txt no es legalmente vinculante

Un punto que muchos desconocen: robots.txt es un estándar técnico, no un contrato legal. Un bot que ignora robots.txt no está cometiendo un delito per se, aunque violar la voluntad expresa del propietario del sitio puede tener implicaciones bajo leyes de acceso no autorizado (CFAA en EE.UU.) y protección de datos (GDPR en la UE).

En la práctica, las empresas grandes (OpenAI, Anthropic, Google) respetan robots.txt porque no hacerlo les expondría a demandas y daño reputacional. Los bots de empresas más pequeñas o scrapers son menos predecibles.

Qué hacer si un bot ignora robots.txt

Verificar que tu robots.txt es correcto: Errores de sintaxis pueden invalidar directivas
Comprobar el user-agent real: Algunos scrapers falsifican user-agents
Bloquear por IP: Si un bot ignora robots.txt, bloquéalo a nivel de firewall
Documentar todo: Guarda logs para posibles acciones legales
Contactar a la empresa: La mayoría tienen canales para reportar crawleo no deseado

bash

1# Encontrar IPs de un bot específico
2grep "Bytespider" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c | sort -rn
3 
4# Bloquear IPs en Nginx
5deny 110.249.201.0/24;  # Ejemplo de rango IP de Bytespider

Monetización: Sacar partido de los bots de IA

Modelo 1: Optimizar para ser fuente citada (GEO)

En lugar de bloquear bots, optimiza tu contenido para que las IA te citen como fuente:

Contenido con datos únicos: Estudios propios, estadísticas, benchmarks
Respuestas directas en H2: Las IA extraen respuestas de secciones bien estructuradas
Tablas y listas: Formato que las IA reproducen con frecuencia
Citas y fuentes: Las IA confían más en contenido que referencia fuentes verificables

Si quieres profundizar en cómo ChatGPT selecciona fuentes para citar, tenemos una guía específica.

Modelo 2: Contenido premium con paywall inteligente

Algunas plataformas implementan paywalls que solo se activan para bots de IA:

nginx

1# Nginx: Servir contenido reducido a bots de IA
2map $http_user_agent $is_ai_training_bot {
3    default 0;
4    ~*GPTBot 1;
5    ~*ClaudeBot 1;
6    ~*CCBot 1;
7}
8 
9location /blog/ {
10    if ($is_ai_training_bot) {
11        return 402;  # Payment Required
12    }
13}

Modelo 3: Licencias de contenido

Si produces contenido de alta calidad, puedes ofrecer licencias directamente:

Associated Press cobra a OpenAI por usar su archivo de noticias
Reddit recibe $60M/año de Google por acceso a sus datos
Stack Overflow tiene acuerdos con Google y OpenAI

Para sitios más pequeños, plataformas como Spawning.ai y Fairly Trained están creando marketplaces donde los creadores pueden licenciar su contenido a empresas de IA.

Modelo 4: Datos estructurados como ventaja

Añadir schema markup detallado hace que las IA procesen mejor tu contenido y te citen con más frecuencia:

html

1<script type="application/ld+json">
2{
3  "@context": "https://schema.org",
4  "@type": "Article",
5  "headline": "Título del artículo",
6  "author": {
7    "@type": "Person",
8    "name": "Tu Nombre"
9  },
10  "publisher": {
11    "@type": "Organization",
12    "name": "Tu Sitio"
13  },
14  "datePublished": "2026-04-13",
15  "description": "Descripción del artículo"
16}
17</script>

Cómo verificar que tu robots.txt funciona

Test con herramientas online

Google Robots Testing Tool: https://www.google.com/webmasters/tools/robots-testing-tool
Merj Robots.txt Tester: Permite probar user-agents personalizados como GPTBot
TechnicalSEO.com Robots.txt Tester: Soporta múltiples bots a la vez

Test manual en terminal

bash

1# Verificar que tu robots.txt es accesible
2curl -s https://tudominio.com/robots.txt
3 
4# Simular una petición como GPTBot
5curl -A "Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.2)" https://tudominio.com/
6 
7# Verificar código de respuesta para un bot bloqueado
8curl -A "GPTBot/1.2" -o /dev/null -w "%{http_code}" https://tudominio.com/

Monitorizar cambios en el comportamiento de los bots

Los bots de IA cambian constantemente. Nuevos user-agents aparecen, los existentes modifican su comportamiento. Recomendamos:

Revisar logs semanalmente: Busca user-agents desconocidos
Suscribirte a actualizaciones: OpenAI, Anthropic y Google publican cambios en sus bots
Seguir a The SEO Framework: Mantienen la lista más actualizada de bots de IA
Actualizar robots.txt trimestralmente: Nuevos bots aparecen cada mes

Errores comunes al gestionar bots de IA

Error 1: Bloquear Googlebot pensando que bloqueas Google IA

Googlebot es el crawler de búsqueda general. Bloquearlo te elimina de los resultados de Google. Para bloquear solo la IA de Google, usa Google-Extended.

Error 2: Robots.txt mal formateado

Un error de sintaxis puede invalidar todo el archivo:

code

1# INCORRECTO (falta línea en blanco entre bloques)
2User-agent: GPTBot
3Disallow: /
4User-agent: ClaudeBot
5Disallow: /
6 
7# CORRECTO
8User-agent: GPTBot
9Disallow: /
10 
11User-agent: ClaudeBot
12Disallow: /

Error 3: Creer que robots.txt bloquea el acceso

robots.txt es una petición, no un bloqueo técnico. Los bots bien educados lo respetan, pero un scraper malicioso lo ignorará. Para bloqueo real necesitas firewall o WAF.

Error 4: No distinguir entre bots de entrenamiento y búsqueda

Bloquear ChatGPT-User porque "es de OpenAI" te elimina de ChatGPT Search sin necesidad. Ese bot solo actúa cuando un usuario pide buscar algo. GPTBot es el que entrena modelos.

Error 5: Olvidar los bots de Common Crawl

Mucha gente bloquea GPTBot y ClaudeBot pero olvida CCBot. El dataset de Common Crawl es la fuente de entrenamiento más utilizada por todas las empresas de IA. Bloquear solo los crawlers directos pero permitir CCBot es como cerrar la puerta principal y dejar la ventana abierta.

Caso práctico: Configuración para un blog de tecnología

Supongamos que tienes un blog de tecnología en español y quieres:

Aparecer en ChatGPT Search, Perplexity y AI Overviews de Google
No entrenar modelos con tu contenido
Proteger contenido premium (detrás de /premium/)

Tu robots.txt sería:

code

1# Buscadores tradicionales
2User-agent: Googlebot
3Allow: /
4 
5User-agent: Bingbot
6Allow: /
7 
8# Búsqueda IA en tiempo real (PERMITIR)
9User-agent: ChatGPT-User
10Allow: /
11Disallow: /premium/
12 
13User-agent: OAI-SearchBot
14Allow: /
15Disallow: /premium/
16 
17User-agent: PerplexityBot
18Allow: /
19Disallow: /premium/
20 
21User-agent: Claude-Web
22Allow: /
23Disallow: /premium/
24 
25# Google AI Overviews (PERMITIR contenido público)
26User-agent: Google-Extended
27Allow: /blog/
28Disallow: /premium/
29 
30# Entrenamiento de modelos (BLOQUEAR)
31User-agent: GPTBot
32Disallow: /
33 
34User-agent: ClaudeBot
35Disallow: /
36 
37User-agent: CCBot
38Disallow: /
39 
40User-agent: Bytespider
41Disallow: /
42 
43User-agent: Meta-ExternalAgent
44Disallow: /
45 
46User-agent: meta-externalagent
47Disallow: /
48 
49User-agent: Applebot-Extended
50Disallow: /
51 
52User-agent: cohere-ai
53Disallow: /
54 
55User-agent: Diffbot
56Disallow: /
57 
58User-agent: Amazonbot
59Disallow: /
60 
61User-agent: img2dataset
62Disallow: /
63 
64Sitemap: https://tublog.com/sitemap.xml

El futuro: Hacia dónde va el crawleo de IA

Tendencias para 2026-2027

Estándar TDM (Text and Data Mining): La UE está impulsando un estándar formal más allá de robots.txt para gestionar el uso de contenido por IA.
Compensación automática: Startups como Spawning y Fairly Trained están creando sistemas de micropagos automáticos por contenido usado en entrenamiento.
AI.txt: Propuesta de un nuevo archivo estándar (similar a robots.txt) específico para controlar el uso de contenido por IA. Varias empresas ya lo implementan experimentalmente.
Verificación criptográfica: Sistemas de watermarking y firma digital para contenido que permiten rastrear su uso en modelos de IA.
Más bots: Cada nueva startup de IA lanza su propio bot. La lista de 57 de 2025 será de 100+ en 2027.

Lo que no va a cambiar

Robots.txt seguirá siendo la base: Es simple, universal y funciona. Cualquier estándar nuevo se construirá sobre él.
Las empresas grandes respetarán el opt-out: El riesgo legal y reputacional es demasiado alto.
El contenido de calidad seguirá siendo valioso: Las IA necesitan contenido humano de calidad para funcionar. Eso da poder de negociación a los creadores.

Preguntas frecuentes

¿GPTBot y ChatGPT-User son el mismo bot?

No. GPTBot descarga contenido para entrenar futuros modelos de OpenAI. ChatGPT-User accede a tu web en tiempo real cuando un usuario de ChatGPT pide buscar algo. Puedes bloquear GPTBot (entrenamiento) y permitir ChatGPT-User (búsqueda) de forma independiente. La mayoría de sitios deberían hacer exactamente esto.

¿Bloquear Google-Extended afecta a mi posicionamiento en Google?

No. Google-Extended solo controla si tu contenido se usa para entrenar Gemini y generar AI Overviews. Tu posicionamiento en los resultados de búsqueda orgánica depende de Googlebot, que es un crawler separado. Puedes bloquear Google-Extended y seguir apareciendo en la primera página de Google sin problemas.

¿Cuánto ancho de banda consumen los bots de IA?

Depende del tamaño de tu sitio, pero el estudio de The SEO Framework mostró 180.000 peticiones en 6 meses de 57 bots diferentes. Para un sitio con páginas de 100KB de media, eso son unos 18GB de tráfico adicional. En un hosting básico puede ser significativo, en un VPS o CDN es irrelevante. Si notas problemas de rendimiento, el rate limiting es más efectivo que el bloqueo total.

¿Los bots de IA respetan robots.txt de verdad?

Los bots de empresas grandes (OpenAI, Anthropic, Google, Meta) sí lo respetan. Se juegan demasiado en términos legales y reputacionales como para ignorarlo. Perplexity tuvo controversia en 2024 por no respetar siempre las directivas, pero mejoró significativamente. Los bots de empresas más pequeñas y los scrapers disfrazados son menos fiables. Para estos, necesitas bloqueo a nivel de firewall o WAF.

¿Cómo sé si mi contenido ya fue usado para entrenar un modelo?

No hay forma segura de saberlo. Puedes hacer pruebas indirectas: si le preguntas a ChatGPT o Claude algo muy específico de tu web y responde con precisión, es probable que tu contenido esté en sus datos de entrenamiento. Herramientas como Have I Been Trained (haveibeentrained.com) permiten buscar en algunos datasets, pero no cubren todos.

¿Merece la pena bloquear bots de IA si mi web es pequeña?

Para sitios pequeños, la ecuación suele favorecer permitir los bots de búsqueda (ChatGPT-User, PerplexityBot) y bloquear los de entrenamiento (GPTBot, ClaudeBot, CCBot). La visibilidad que ganas al aparecer en respuestas de IA suele compensar con creces el contenido que "pierdes" en entrenamiento. Si tu modelo de negocio depende del tráfico orgánico, bloquear los bots de búsqueda IA es como bloquear a Google en 2005.

¿Puedo cobrar a las empresas de IA por crawlear mi web?

No directamente, salvo que seas un medio grande con capacidad de negociación. Sin embargo, la tendencia va hacia la compensación: Associated Press, Reddit y Axel Springer ya tienen acuerdos económicos. Para sitios más pequeños, plataformas como Spawning.ai están creando marketplaces de licencias de contenido. La EU AI Act también empuja hacia la transparencia en el uso de datos de entrenamiento, lo que podría facilitar reclamaciones futuras.

¿Debo actualizar robots.txt cada vez que aparece un nuevo bot?

Idealmente, sí. Nuevos bots de IA aparecen cada pocas semanas. La forma más práctica es revisar tus logs mensualmente, identificar user-agents desconocidos, y actualizar robots.txt trimestralmente. También puedes usar un enfoque de "bloquear por defecto" con un wildcard y permitir solo los bots que quieres, aunque esto puede bloquear crawlers legítimos que no conocías.

¿Hay alguna diferencia entre bloquear en robots.txt y bloquear con Cloudflare?

Sí, y es importante. robots.txt es una petición educada: "por favor, no crawlees esto". Un bot puede ignorarlo. Cloudflare (o cualquier WAF) es un bloqueo técnico real: la petición ni siquiera llega a tu servidor. Para bots que respetan robots.txt (OpenAI, Anthropic, Google), ambos métodos funcionan. Para scrapers que lo ignoran, solo el bloqueo a nivel de firewall es efectivo. Lo ideal es usar ambos.

Bots de IA que Crawlean tu Web: Quiénes Son y Cómo Controlarlos [2026]

Por qué te debería importar quién crawlea tu web

El ecosistema de bots de IA en 2026

Categorías de bots

Los jugadores principales

Tabla completa de bots de IA: User-Agents, empresa y control

Bots de OpenAI

Bots de Anthropic

Bots de Google

Bots de Meta

Bots de Perplexity

Bots de Apple

Otros bots de IA relevantes

Cómo identificar bots de IA en tus logs del servidor

Acceder a los logs

Filtrar peticiones de bots de IA

Contar peticiones por bot

Analizar el comportamiento

Monitorización continua con un script

Robots.txt: La herramienta principal para controlar bots de IA

Cómo funciona robots.txt para bots de IA

Plantilla completa de robots.txt para control de bots de IA

Variante: Permitir todo (estrategia GEO agresiva)

Variante: Bloquear todo (protección máxima de contenido)

Estrategias avanzadas: Más allá de robots.txt

La etiqueta meta noai y noml

Headers HTTP: X-Robots-Tag

Rate limiting para bots agresivos

Cloudflare: Bot Management

El debate: Bloquear o permitir bots de IA

Argumentos para bloquear

Argumentos para permitir

La posición de los grandes medios

La estrategia recomendada: Control selectivo

Permitir los bots de búsqueda en tiempo real

Bloquear los bots de entrenamiento puro

Decisión caso por caso

Implicaciones legales y éticas

El marco legal en 2026

Robots.txt no es legalmente vinculante

Qué hacer si un bot ignora robots.txt

Monetización: Sacar partido de los bots de IA

Modelo 1: Optimizar para ser fuente citada (GEO)

Modelo 2: Contenido premium con paywall inteligente

Modelo 3: Licencias de contenido

Modelo 4: Datos estructurados como ventaja

Cómo verificar que tu robots.txt funciona

Test con herramientas online

Test manual en terminal

Monitorizar cambios en el comportamiento de los bots

Errores comunes al gestionar bots de IA

Error 1: Bloquear Googlebot pensando que bloqueas Google IA

Error 2: Robots.txt mal formateado

Error 3: Creer que robots.txt bloquea el acceso

Error 4: No distinguir entre bots de entrenamiento y búsqueda

Error 5: Olvidar los bots de Common Crawl

Caso práctico: Configuración para un blog de tecnología

El futuro: Hacia dónde va el crawleo de IA

Tendencias para 2026-2027

Lo que no va a cambiar

Preguntas frecuentes

¿GPTBot y ChatGPT-User son el mismo bot?

¿Bloquear Google-Extended afecta a mi posicionamiento en Google?

¿Cuánto ancho de banda consumen los bots de IA?

¿Los bots de IA respetan robots.txt de verdad?

¿Cómo sé si mi contenido ya fue usado para entrenar un modelo?

¿Merece la pena bloquear bots de IA si mi web es pequeña?

¿Puedo cobrar a las empresas de IA por crawlear mi web?

¿Debo actualizar robots.txt cada vez que aparece un nuevo bot?

¿Hay alguna diferencia entre bloquear en robots.txt y bloquear con Cloudflare?

Posts Relacionados

GPT-5 / ChatGPT 5: Review Completa del Modelo Flagship de OpenAI (2026)

Editor de Fotos con IA 2026: Las Mejores Herramientas para Editar Imágenes Automáticamente

Bot de Trading con IA 2026: Cómo Funcionan, los Mejores y Si Realmente Son Rentables

Javier Santos Criado

Lleva tu proyecto a producción

¿Quieres más contenido de IA?

Consultoría y formación en IA para empresas