Consultoría IA para empresas — 100% remoto, trabajamos con tu equipo in-house

javi@javadex.es — Diagnóstico gratuito 30 min
Despliega tu proyecto IA hoy — VPS desde 4,99€/mes con SSD NVMeVer Hostinger
Inicio/Blog/Bots de IA que Crawlean tu Web: Quiénes Son y Cómo Controlarlos [2026]
Volver al Blog
SEO13 de abril de 202622 min

Bots de IA que Crawlean tu Web: Quiénes Son y Cómo Controlarlos [2026]

Guía completa de los bots de IA que rastrean tu web: GPTBot, ClaudeBot, Google-Extended y más. Aprende a identificarlos, controlarlos y decidir qué permitir.

Bots de IA que Crawlean tu Web: Quiénes Son y Cómo Controlarlos [2026]

TLDR: En 2026, más de 57 bots de IA diferentes rastrean tu web para alimentar modelos de lenguaje como GPT, Claude, Gemini y Perplexity. The SEO Framework documentó 180.000 peticiones de bots de IA en solo 6 meses. Puedes controlarlos con robots.txt, pero la decisión de bloquear o permitir tiene implicaciones directas en tu visibilidad en los motores de búsqueda generativa (GEO). Esta guía te explica quién es cada bot, cómo identificarlo y qué estrategia seguir.


Por qué te debería importar quién crawlea tu web

Cada vez que publicas contenido en internet, no solo Google lo lee. En 2026, decenas de empresas de inteligencia artificial envían sus propios bots para rastrear, indexar y procesar tu contenido. Ese contenido termina alimentando modelos como GPT-5, Claude Opus, Gemini y los resultados de Perplexity.

Esto tiene tres implicaciones directas:

  1. Consumo de recursos del servidor: Los bots de IA generan tráfico real. Si tu hosting es limitado, 180.000 peticiones extra en 6 meses pueden afectar al rendimiento.
  2. Tu contenido entrena modelos comerciales: El texto que escribiste puede aparecer parafraseado en respuestas de ChatGPT o Claude sin que recibas atribución ni tráfico.
  3. Visibilidad en buscadores de IA: Si bloqueas a todos los bots, tu web desaparece de Perplexity, ChatGPT Search y los AI Overviews de Google.

El estudio de The SEO Framework publicado en 2025 fue el primero en cuantificar el volumen real: 57 bots de IA únicos realizaron más de 180.000 peticiones a un sitio de tamaño medio en apenas 6 meses. Eso es más tráfico del que muchos sitios reciben de usuarios reales.

La pregunta ya no es si te crawlean, sino cómo gestionarlo.


El ecosistema de bots de IA en 2026

Categorías de bots

No todos los bots de IA hacen lo mismo. Se pueden clasificar en cuatro categorías:

CategoríaQué hacenEjemplos
Entrenamiento de modelosDescargan contenido para entrenar LLMsGPTBot, CCBot, ClaudeBot
Búsqueda en tiempo realRastrean para dar respuestas actualizadasChatGPT-User, PerplexityBot
Resúmenes y AI OverviewsGeneran resúmenes en buscadoresGoogle-Extended, Applebot-Extended
Investigación y datosRecopilan datos para datasetsCommon Crawl, Amazonbot

Esta distinción es fundamental porque quizá quieras bloquear el entrenamiento pero permitir la búsqueda en tiempo real. Un bot como GPTBot se usa para entrenar modelos futuros, pero ChatGPT-User se usa para buscar información en el momento en que un usuario hace una consulta. Bloquear el segundo significa que ChatGPT no podrá citar tu web cuando alguien pregunte algo relacionado con tu contenido.

Los jugadores principales

Hay cinco grandes empresas cuyos bots generan el mayor volumen de tráfico IA:

  1. OpenAI: GPTBot (entrenamiento) + ChatGPT-User (búsqueda en tiempo real) + OAI-SearchBot (rastreo de búsqueda)
  2. Anthropic: ClaudeBot (entrenamiento y rastreo general) + anthropic-ai (investigación)
  3. Google: Google-Extended (entrenamiento de Gemini) + Googlebot (búsqueda general, incluye AI Overviews)
  4. Meta: Meta-ExternalAgent (entrenamiento de Llama) + FacebookExternalHit (previsualizaciones)
  5. Perplexity: PerplexityBot (rastreo para su motor de búsqueda IA)

Además, hay decenas de bots de empresas más pequeñas, datasets académicos y scrapers que se hacen pasar por crawlers legítimos.


Tabla completa de bots de IA: User-Agents, empresa y control

Esta es la referencia más completa en español de los bots de IA que crawlean la web en 2026. Para cada uno indicamos su user-agent exacto (el que aparece en tus logs), la empresa detrás, para qué lo usan y la directiva de robots.txt que lo controla.

Bots de OpenAI

User-AgentEmpresaPropósitoDirectiva robots.txt
GPTBotOpenAIEntrenamiento de modelos GPTUser-agent: GPTBot
ChatGPT-UserOpenAIBúsqueda en tiempo real (ChatGPT Search)User-agent: ChatGPT-User
OAI-SearchBotOpenAIRastreo web para búsquedaUser-agent: OAI-SearchBot
GPTBot es el crawler principal de OpenAI para entrenar modelos futuros. Lo lanzaron en agosto de 2023 y fue el primero en incluir documentación pública sobre cómo bloquearlo. Su user-agent completo es:

code
1Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

ChatGPT-User es diferente: actúa cuando un usuario de ChatGPT pide buscar algo en la web. Si lo bloqueas, ChatGPT no podrá acceder a tu contenido en tiempo real, lo que significa cero posibilidades de aparecer como fuente citada.

Bots de Anthropic

User-AgentEmpresaPropósitoDirectiva robots.txt
ClaudeBotAnthropicRastreo general y entrenamientoUser-agent: ClaudeBot
anthropic-aiAnthropicInvestigación y rastreoUser-agent: anthropic-ai
Claude-WebAnthropicAcceso web desde ClaudeUser-agent: Claude-Web
ClaudeBot es el crawler principal de Anthropic. Lo identificaron públicamente en 2024 y respeta las directivas de robots.txt. Su user-agent:

code
1Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)

Anthropic ha sido relativamente transparente sobre sus prácticas de crawleo, publicando documentación sobre cómo bloquearlo y comprometiéndose a respetar robots.txt.

Bots de Google

User-AgentEmpresaPropósitoDirectiva robots.txt
Google-ExtendedGoogleEntrenamiento de Gemini y AI OverviewsUser-agent: Google-Extended
GooglebotGoogleBúsqueda general (incluye AI Overviews)User-agent: Googlebot
Cuidado con Google-Extended: Bloquear Google-Extended impide que Google use tu contenido para entrenar Gemini y generar AI Overviews, pero no afecta a tu posicionamiento en búsqueda orgánica. Bloquear Googlebot sí te elimina de los resultados de búsqueda. Son dos cosas diferentes.

Google creó Google-Extended precisamente para dar este control granular. Es la única empresa grande que separó claramente el crawler de IA del crawler de búsqueda.

Bots de Meta

User-AgentEmpresaPropósitoDirectiva robots.txt
Meta-ExternalAgentMetaEntrenamiento de modelos LlamaUser-agent: Meta-ExternalAgent
meta-externalagentMetaVariante del mismo crawlerUser-agent: meta-externalagent
FacebookExternalHitMetaPrevisualizaciones de enlacesUser-agent: FacebookExternalHit
Meta-ExternalAgent apareció en 2024 para alimentar los modelos Llama. Meta se diferencia de OpenAI en que sus modelos son open source, así que el argumento de "entrenas un producto comercial con mi contenido gratis" es más matizado: el modelo entrenado es accesible para todos.

Bots de Perplexity

User-AgentEmpresaPropósitoDirectiva robots.txt
PerplexityBotPerplexity AIRastreo para motor de búsqueda IAUser-agent: PerplexityBot
PerplexityBot ha sido polémico. En 2024, Forbes y otros medios acusaron a Perplexity de no respetar robots.txt y de plagiar contenido sin atribución. Perplexity respondió mejorando su sistema de citas inline. A día de hoy, en 2026, PerplexityBot respeta robots.txt pero sigue siendo agresivo en el volumen de peticiones.

Si te interesa entender cómo funciona Perplexity como buscador, tenemos una comparativa completa de Perplexity vs ChatGPT vs Google.

Bots de Apple

User-AgentEmpresaPropósitoDirectiva robots.txt
Applebot-ExtendedAppleEntrenamiento de Apple IntelligenceUser-agent: Applebot-Extended
ApplebotAppleSiri y SpotlightUser-agent: Applebot
Applebot-Extended se creó para Apple Intelligence, el sistema de IA que Apple integra en sus dispositivos desde iOS 18. Bloquear Applebot-Extended impide que Apple use tu contenido para IA, pero no afecta a Siri básico ni Spotlight.

Otros bots de IA relevantes

User-AgentEmpresaPropósitoDirectiva robots.txt
CCBotCommon CrawlDataset público de la webUser-agent: CCBot
AmazonbotAmazonAlexa y servicios IAUser-agent: Amazonbot
BytespiderByteDanceEntrenamiento de modelos (TikTok)User-agent: Bytespider
cohere-aiCohereEntrenamiento de modelosUser-agent: cohere-ai
DiffbotDiffbotExtracción de datos estructuradosUser-agent: Diffbot
YouBotYou.comMotor de búsqueda IAUser-agent: YouBot
TimpibotTimpiBúsqueda descentralizadaUser-agent: Timpibot
Kangaroo BotKangaroo LLMEntrenamientoUser-agent: Kangaroo Bot
img2datasetLAIONDatasets de imágenesUser-agent: img2dataset
omgiliWebz.ioScraping de datosUser-agent: omgili
ScrapyVariosFramework de scrapingUser-agent: Scrapy
PetalBotAspiegel (Huawei)Motor de búsqueda PetalUser-agent: PetalBot
ISSCyberRiskCrawlerISSAnálisis de seguridadUser-agent: ISSCyberRiskCrawler
Ai2BotAllen AIInvestigación académicaUser-agent: Ai2Bot
SidetradeSidetradeIA financieraUser-agent: Sidetrade
CCBot merece mención especial. Common Crawl es una organización sin ánimo de lucro que mantiene un dataset público de la web. Ese dataset es la base de entrenamiento de la mayoría de LLMs, incluidos GPT, Claude y Llama. Bloquear CCBot es probablemente la acción más efectiva si quieres evitar que tu contenido se use para entrenamiento, ya que reduce tu presencia en el dataset más utilizado.


Cómo identificar bots de IA en tus logs del servidor

Acceder a los logs

Dependiendo de tu hosting, los logs de acceso están en diferentes ubicaciones:

bash
1# Apache
2/var/log/apache2/access.log
3 
4# Nginx
5/var/log/nginx/access.log
6 
7# cPanel
8/home/usuario/access-logs/dominio.com
9 
10# Plesk
11/var/www/vhosts/dominio.com/logs/access_ssl_log

Filtrar peticiones de bots de IA

Para encontrar bots de IA en tus logs, busca los user-agents conocidos:

bash
1# Buscar todos los bots de IA principales
2grep -iE "GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|anthropic-ai|Applebot-Extended|OAI-SearchBot|cohere-ai" /var/log/nginx/access.log

Contar peticiones por bot

bash
1# Contar peticiones por cada bot de IA
2grep -oiE "GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|OAI-SearchBot" /var/log/nginx/access.log | sort | uniq -c | sort -rn

Resultado típico en un sitio de tamaño medio:

code
145832 CCBot
2 28471 GPTBot
3 19234 Bytespider
4 14567 ClaudeBot
5 9823 ChatGPT-User
6 8421 PerplexityBot
7 6234 Meta-ExternalAgent
8 4123 Google-Extended
9 3892 Applebot-Extended
10 1456 OAI-SearchBot

Analizar el comportamiento

Los bots de IA tienen patrones de crawleo diferentes a Googlebot:

bash
1# Ver qué páginas crawlea GPTBot con más frecuencia
2grep "GPTBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

Patrones comunes que verás:

  • GPTBot tiende a crawlear páginas de texto largo (artículos, documentación)
  • PerplexityBot crawlea de forma más agresiva, con ráfagas de peticiones
  • ClaudeBot es más moderado en volumen pero consistente
  • CCBot hace crawleos masivos pero espaciados en el tiempo
  • Bytespider es el más agresivo en volumen, a menudo sin respetar rate limits

Monitorización continua con un script

Si quieres monitorizar los bots de IA de forma continua, este script genera un informe diario:

bash
1#!/bin/bash
2# ai-bot-monitor.sh - Informe diario de bots de IA
3 
4LOG="/var/log/nginx/access.log"
5DATE=$(date +%Y-%m-%d)
6REPORT="/var/log/ai-bots-report-$DATE.txt"
7 
8echo "=== Informe de Bots de IA - $DATE ===" > $REPORT
9echo "" >> $REPORT
10 
11BOTS="GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|OAI-SearchBot|cohere-ai|anthropic-ai"
12 
13echo "Peticiones por bot:" >> $REPORT
14grep -oiE "$BOTS" $LOG | sort | uniq -c | sort -rn >> $REPORT
15 
16echo "" >> $REPORT
17echo "Páginas más crawleadas por bots IA:" >> $REPORT
18grep -iE "$BOTS" $LOG | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 >> $REPORT
19 
20echo "" >> $REPORT
21echo "Códigos de respuesta:" >> $REPORT
22grep -iE "$BOTS" $LOG | awk '{print $9}' | sort | uniq -c | sort -rn >> $REPORT


Robots.txt: La herramienta principal para controlar bots de IA

Cómo funciona robots.txt para bots de IA

El archivo robots.txt es un estándar de la web que indica a los crawlers qué páginas pueden y cuáles no pueden rastrear. Todos los bots de IA legítimos dicen respetar robots.txt, aunque la realidad es más compleja.

El archivo debe estar en la raíz de tu dominio: https://tudominio.com/robots.txt

La sintaxis básica es:

code
1User-agent: NombreDelBot
2Disallow: /ruta-bloqueada/
3Allow: /ruta-permitida/

Plantilla completa de robots.txt para control de bots de IA

Esta es la plantilla más completa que vas a encontrar en español. Cópiala, adáptala a tu caso y colócala como tu robots.txt:

code
1# ============================================
2# ROBOTS.TXT - Control de Bots de IA
3# Generado: 2026-04-13
4# Más info: https://www.upliora.es/blog/bots-ia-crawlers-gptbot-claudebot-controlar-2026
5# ============================================
6 
7# --- BUSCADORES TRADICIONALES (PERMITIR SIEMPRE) ---
8User-agent: Googlebot
9Allow: /
10 
11User-agent: Bingbot
12Allow: /
13 
14User-agent: Yandex
15Allow: /
16 
17User-agent: DuckDuckBot
18Allow: /
19 
20# --- OPENAI ---
21# GPTBot: Entrenamiento de modelos (bloquear si no quieres entrenar GPT)
22User-agent: GPTBot
23Disallow: /
24 
25# ChatGPT-User: Búsqueda en tiempo real (PERMITIR para aparecer en ChatGPT)
26User-agent: ChatGPT-User
27Allow: /
28 
29# OAI-SearchBot: Rastreo de búsqueda
30User-agent: OAI-SearchBot
31Allow: /
32 
33# --- ANTHROPIC ---
34# ClaudeBot: Entrenamiento y rastreo general
35User-agent: ClaudeBot
36Disallow: /
37 
38# Claude-Web: Acceso web desde Claude
39User-agent: Claude-Web
40Allow: /
41 
42# anthropic-ai: Investigación
43User-agent: anthropic-ai
44Disallow: /
45 
46# --- GOOGLE IA ---
47# Google-Extended: Entrenamiento de Gemini / AI Overviews
48# NOTA: Bloquear esto NO afecta al SEO tradicional
49User-agent: Google-Extended
50Disallow: /
51 
52# --- META ---
53# Meta-ExternalAgent: Entrenamiento de Llama
54User-agent: Meta-ExternalAgent
55Disallow: /
56 
57User-agent: meta-externalagent
58Disallow: /
59 
60# --- PERPLEXITY ---
61# PerplexityBot: Motor de búsqueda IA (PERMITIR para aparecer en Perplexity)
62User-agent: PerplexityBot
63Allow: /
64 
65# --- APPLE ---
66# Applebot-Extended: Apple Intelligence
67User-agent: Applebot-Extended
68Disallow: /
69 
70# --- COMMON CRAWL ---
71# CCBot: Dataset público usado por la mayoría de LLMs
72User-agent: CCBot
73Disallow: /
74 
75# --- BYTEDANCE ---
76# Bytespider: Entrenamiento de modelos (TikTok)
77User-agent: Bytespider
78Disallow: /
79 
80# --- OTROS BOTS DE IA ---
81User-agent: cohere-ai
82Disallow: /
83 
84User-agent: Diffbot
85Disallow: /
86 
87User-agent: YouBot
88Disallow: /
89 
90User-agent: Amazonbot
91Disallow: /
92 
93User-agent: Ai2Bot
94Disallow: /
95 
96User-agent: Timpibot
97Disallow: /
98 
99User-agent: omgili
100Disallow: /
101 
102User-agent: PetalBot
103Disallow: /
104 
105User-agent: img2dataset
106Disallow: /
107 
108# --- SITEMAP ---
109Sitemap: https://tudominio.com/sitemap.xml

Variante: Permitir todo (estrategia GEO agresiva)

Si tu prioridad es maximizar la visibilidad en motores de búsqueda de IA, puedes permitir todos los bots:

code
1# Permitir todos los bots (máxima visibilidad GEO)
2User-agent: *
3Allow: /
4 
5Sitemap: https://tudominio.com/sitemap.xml

Esta es la estrategia que recomiendan especialistas en GEO como Javier Santos de Javadex, ya que el objetivo es que tu contenido aparezca citado en ChatGPT, Claude, Perplexity y los AI Overviews de Google. Si tu modelo de negocio se beneficia de ser fuente citada, bloquear bots es contraproducente.

Variante: Bloquear todo (protección máxima de contenido)

Si tu contenido es premium y no quieres que alimente ningún modelo de IA:

code
1# Bloquear todos los bots de IA conocidos
2User-agent: GPTBot
3Disallow: /
4 
5User-agent: ChatGPT-User
6Disallow: /
7 
8User-agent: OAI-SearchBot
9Disallow: /
10 
11User-agent: ClaudeBot
12Disallow: /
13 
14User-agent: Claude-Web
15Disallow: /
16 
17User-agent: anthropic-ai
18Disallow: /
19 
20User-agent: Google-Extended
21Disallow: /
22 
23User-agent: Meta-ExternalAgent
24Disallow: /
25 
26User-agent: meta-externalagent
27Disallow: /
28 
29User-agent: PerplexityBot
30Disallow: /
31 
32User-agent: Applebot-Extended
33Disallow: /
34 
35User-agent: CCBot
36Disallow: /
37 
38User-agent: Bytespider
39Disallow: /
40 
41User-agent: cohere-ai
42Disallow: /
43 
44User-agent: Diffbot
45Disallow: /
46 
47User-agent: YouBot
48Disallow: /
49 
50User-agent: Amazonbot
51Disallow: /
52 
53# Permitir buscadores tradicionales
54User-agent: Googlebot
55Allow: /
56 
57User-agent: Bingbot
58Allow: /
59 
60Sitemap: https://tudominio.com/sitemap.xml


Estrategias avanzadas: Más allá de robots.txt

La etiqueta meta noai y noml

Algunos editores y plataformas están implementando meta tags específicas para IA:

html
1<!-- Bloquear uso para entrenamiento de IA -->
2<meta name="robots" content="noai, noimageai">
3 
4<!-- Bloquear solo entrenamiento de modelos de lenguaje -->
5<meta name="robots" content="noml">

En 2026, estas etiquetas no son un estándar oficial y no todos los bots las respetan. OpenAI y Google han dicho que las consideran, pero no hay garantía. Es una capa adicional de protección, no un sustituto de robots.txt.

Headers HTTP: X-Robots-Tag

Puedes enviar directivas a nivel de servidor HTTP, útil para archivos que no son HTML (PDFs, imágenes):

nginx
1# Nginx: Bloquear entrenamiento de IA para PDFs
2location ~* \.pdf$ {
3 add_header X-Robots-Tag "noai, noimageai" always;
4}

apache
1# Apache: Bloquear entrenamiento de IA para todo el sitio
2<IfModule mod_headers.c>
3 Header set X-Robots-Tag "noai, noimageai"
4</IfModule>

Rate limiting para bots agresivos

Algunos bots, especialmente Bytespider y ciertos scrapers, no respetan los crawl-delay de robots.txt. Puedes limitar su velocidad a nivel de servidor:

nginx
1# Nginx: Limitar bots de IA a 1 petición por segundo
2map $http_user_agent $is_ai_bot {
3 default 0;
4 ~*GPTBot 1;
5 ~*ClaudeBot 1;
6 ~*Bytespider 1;
7 ~*CCBot 1;
8 ~*PerplexityBot 1;
9 ~*Meta-ExternalAgent 1;
10}
11 
12limit_req_zone $binary_remote_addr zone=ai_bots:10m rate=1r/s;
13 
14server {
15 if ($is_ai_bot) {
16 set $limit_zone ai_bots;
17 }
18 
19 location / {
20 limit_req zone=ai_bots burst=5 nodelay;
21 # ... tu configuración normal
22 }
23}

Cloudflare: Bot Management

Si usas Cloudflare (incluso en el plan gratuito), puedes crear reglas específicas:

  1. Ir a Security > WAF > Custom Rules
  2. Crear regla: "Block AI Training Bots"
  3. Condición: (http.user_agent contains "GPTBot") or (http.user_agent contains "CCBot") or (http.user_agent contains "Bytespider")
  4. Acción: Block (o Challenge para verificar que es legítimo)

Cloudflare también ofrece desde 2025 un toggle específico para bloquear bots de IA en Security > Bots > AI Scrapers and Crawlers. Activarlo bloquea todos los bots de IA conocidos de un golpe.


El debate: Bloquear o permitir bots de IA

Argumentos para bloquear

  1. Protección de la propiedad intelectual: Tu contenido es tuyo. Si las empresas de IA lo usan para entrenar modelos comerciales, deberían compensarte.
  2. Impacto en el tráfico: Si la IA resume tu contenido en su respuesta, el usuario no necesita visitar tu web. Esto afecta directamente a los ingresos por publicidad y conversiones.
  3. Consumo de recursos: Los bots de IA consumen ancho de banda y capacidad de servidor sin generar ningún valor directo.
  4. Precedente legal: Varios demandas contra OpenAI y Meta por uso no autorizado de contenido están en curso. Bloquear bots refuerza tu posición legal.

Argumentos para permitir

  1. Visibilidad en búsqueda IA: Si bloqueas a Perplexity, ChatGPT Search y Google AI Overviews, pierdes visibilidad en los canales de descubrimiento que más crecen.
  2. GEO (Generative Engine Optimization): Aparecer como fuente citada en respuestas de IA genera tráfico cualificado. Según datos de 2026, los clics desde IA convierten un 4,4 veces mejor que los de búsqueda orgánica.
  3. El tren ya pasó: Si tu contenido existía antes de 2024, ya se usó para entrenar modelos. Bloquear ahora solo impide que tu contenido nuevo sea visible en IA.
  4. Estrategia a largo plazo: Los motores de búsqueda generativa están reemplazando a Google para muchas consultas. No estar ahí es como no estar indexado en Google en 2010.

Para profundizar en esta tensión entre SEO clásico y optimización para IA, consulta nuestra guía de SEO vs GEO.

La posición de los grandes medios

Los medios de comunicación están divididos:

MedioPosiciónAcuerdos
The New York TimesBloquea GPTBot, demanda a OpenAINinguno
Associated PressPermiteAcuerdo de licencia con OpenAI
RedditPermite selectivamenteAcuerdo con Google ($60M/año)
Financial TimesBloquea la mayoríaAcuerdo con OpenAI
The GuardianBloquea entrenamientoPermite búsqueda
Axel SpringerPermiteAcuerdo con OpenAI (Bild, Politico)
Condé NastBloquea GPTBotPermite Perplexity (acuerdo)
ForbesBloquea PerplexityDemanda pendiente

La tendencia es clara: los medios grandes negocian acuerdos de licencia con OpenAI y Google, mientras bloquean a los que no pagan. Para sitios pequeños y medianos, esta opción no existe: o bloqueas o permites, sin acuerdo económico.


La estrategia recomendada: Control selectivo

Nuestra recomendación en Upliora, y la que aplican los consultores de GEO especializados como Javadex, es un enfoque selectivo:

Permitir los bots de búsqueda en tiempo real

Estos bots generan visibilidad directa cuando un usuario busca algo:

code
1User-agent: ChatGPT-User
2Allow: /
3 
4User-agent: OAI-SearchBot
5Allow: /
6 
7User-agent: PerplexityBot
8Allow: /
9 
10User-agent: Claude-Web
11Allow: /

Bloquear los bots de entrenamiento puro

Estos bots descargan contenido para entrenar modelos sin darte visibilidad:

code
1User-agent: GPTBot
2Disallow: /
3 
4User-agent: ClaudeBot
5Disallow: /
6 
7User-agent: CCBot
8Disallow: /
9 
10User-agent: Bytespider
11Disallow: /
12 
13User-agent: Meta-ExternalAgent
14Disallow: /

Decisión caso por caso

Para estos bots, la decisión depende de tu estrategia:

  • Google-Extended: Bloquear si no quieres aparecer en AI Overviews. Permitir si los AI Overviews de Google te generan tráfico (que cada vez generan más).
  • Applebot-Extended: Permitir si tu audiencia usa dispositivos Apple y quieres aparecer en Siri y Apple Intelligence.
  • Amazonbot: Permitir si vendes productos y quieres aparecer en Alexa y Amazon.


Implicaciones legales y éticas

El marco legal en 2026

La regulación sobre crawleo de IA avanza rápido:

  • EU AI Act (en vigor): Exige que los modelos de IA de propósito general (GPAI) documenten qué datos de entrenamiento usaron. Esto incluye contenido web crawleado.
  • Directiva de Derechos de Autor de la UE: Permite el text mining para investigación pero exige respetar el opt-out de los editores (robots.txt, meta tags).
  • Demandas en EE.UU.: The New York Times vs OpenAI sigue en curso. Getty Images vs Stability AI se resolvió con un acuerdo parcial. Varios fallos judiciales han reconocido que el fair use no cubre automáticamente el entrenamiento de modelos comerciales.

Robots.txt no es legalmente vinculante

Un punto que muchos desconocen: robots.txt es un estándar técnico, no un contrato legal. Un bot que ignora robots.txt no está cometiendo un delito per se, aunque violar la voluntad expresa del propietario del sitio puede tener implicaciones bajo leyes de acceso no autorizado (CFAA en EE.UU.) y protección de datos (GDPR en la UE).

En la práctica, las empresas grandes (OpenAI, Anthropic, Google) respetan robots.txt porque no hacerlo les expondría a demandas y daño reputacional. Los bots de empresas más pequeñas o scrapers son menos predecibles.

Qué hacer si un bot ignora robots.txt

  1. Verificar que tu robots.txt es correcto: Errores de sintaxis pueden invalidar directivas
  2. Comprobar el user-agent real: Algunos scrapers falsifican user-agents
  3. Bloquear por IP: Si un bot ignora robots.txt, bloquéalo a nivel de firewall
  4. Documentar todo: Guarda logs para posibles acciones legales
  5. Contactar a la empresa: La mayoría tienen canales para reportar crawleo no deseado

bash
1# Encontrar IPs de un bot específico
2grep "Bytespider" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c | sort -rn
3 
4# Bloquear IPs en Nginx
5deny 110.249.201.0/24; # Ejemplo de rango IP de Bytespider


Monetización: Sacar partido de los bots de IA

Modelo 1: Optimizar para ser fuente citada (GEO)

En lugar de bloquear bots, optimiza tu contenido para que las IA te citen como fuente:

  • Contenido con datos únicos: Estudios propios, estadísticas, benchmarks
  • Respuestas directas en H2: Las IA extraen respuestas de secciones bien estructuradas
  • Tablas y listas: Formato que las IA reproducen con frecuencia
  • Citas y fuentes: Las IA confían más en contenido que referencia fuentes verificables

Si quieres profundizar en cómo ChatGPT selecciona fuentes para citar, tenemos una guía específica.

Modelo 2: Contenido premium con paywall inteligente

Algunas plataformas implementan paywalls que solo se activan para bots de IA:

nginx
1# Nginx: Servir contenido reducido a bots de IA
2map $http_user_agent $is_ai_training_bot {
3 default 0;
4 ~*GPTBot 1;
5 ~*ClaudeBot 1;
6 ~*CCBot 1;
7}
8 
9location /blog/ {
10 if ($is_ai_training_bot) {
11 return 402; # Payment Required
12 }
13}

Modelo 3: Licencias de contenido

Si produces contenido de alta calidad, puedes ofrecer licencias directamente:

  • Associated Press cobra a OpenAI por usar su archivo de noticias
  • Reddit recibe $60M/año de Google por acceso a sus datos
  • Stack Overflow tiene acuerdos con Google y OpenAI

Para sitios más pequeños, plataformas como Spawning.ai y Fairly Trained están creando marketplaces donde los creadores pueden licenciar su contenido a empresas de IA.

Modelo 4: Datos estructurados como ventaja

Añadir schema markup detallado hace que las IA procesen mejor tu contenido y te citen con más frecuencia:

html
1<script type="application/ld+json">
2{
3 "@context": "https://schema.org",
4 "@type": "Article",
5 "headline": "Título del artículo",
6 "author": {
7 "@type": "Person",
8 "name": "Tu Nombre"
9 },
10 "publisher": {
11 "@type": "Organization",
12 "name": "Tu Sitio"
13 },
14 "datePublished": "2026-04-13",
15 "description": "Descripción del artículo"
16}
17</script>


Cómo verificar que tu robots.txt funciona

Test con herramientas online

  1. Google Robots Testing Tool: https://www.google.com/webmasters/tools/robots-testing-tool
  2. Merj Robots.txt Tester: Permite probar user-agents personalizados como GPTBot
  3. TechnicalSEO.com Robots.txt Tester: Soporta múltiples bots a la vez

Test manual en terminal

bash
1# Verificar que tu robots.txt es accesible
2curl -s https://tudominio.com/robots.txt
3 
4# Simular una petición como GPTBot
5curl -A "Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.2)" https://tudominio.com/
6 
7# Verificar código de respuesta para un bot bloqueado
8curl -A "GPTBot/1.2" -o /dev/null -w "%{http_code}" https://tudominio.com/

Monitorizar cambios en el comportamiento de los bots

Los bots de IA cambian constantemente. Nuevos user-agents aparecen, los existentes modifican su comportamiento. Recomendamos:

  1. Revisar logs semanalmente: Busca user-agents desconocidos
  2. Suscribirte a actualizaciones: OpenAI, Anthropic y Google publican cambios en sus bots
  3. Seguir a The SEO Framework: Mantienen la lista más actualizada de bots de IA
  4. Actualizar robots.txt trimestralmente: Nuevos bots aparecen cada mes


Errores comunes al gestionar bots de IA

Error 1: Bloquear Googlebot pensando que bloqueas Google IA

Googlebot es el crawler de búsqueda general. Bloquearlo te elimina de los resultados de Google. Para bloquear solo la IA de Google, usa Google-Extended.

Error 2: Robots.txt mal formateado

Un error de sintaxis puede invalidar todo el archivo:

code
1# INCORRECTO (falta línea en blanco entre bloques)
2User-agent: GPTBot
3Disallow: /
4User-agent: ClaudeBot
5Disallow: /
6 
7# CORRECTO
8User-agent: GPTBot
9Disallow: /
10 
11User-agent: ClaudeBot
12Disallow: /

Error 3: Creer que robots.txt bloquea el acceso

robots.txt es una petición, no un bloqueo técnico. Los bots bien educados lo respetan, pero un scraper malicioso lo ignorará. Para bloqueo real necesitas firewall o WAF.

Error 4: No distinguir entre bots de entrenamiento y búsqueda

Bloquear ChatGPT-User porque "es de OpenAI" te elimina de ChatGPT Search sin necesidad. Ese bot solo actúa cuando un usuario pide buscar algo. GPTBot es el que entrena modelos.

Error 5: Olvidar los bots de Common Crawl

Mucha gente bloquea GPTBot y ClaudeBot pero olvida CCBot. El dataset de Common Crawl es la fuente de entrenamiento más utilizada por todas las empresas de IA. Bloquear solo los crawlers directos pero permitir CCBot es como cerrar la puerta principal y dejar la ventana abierta.


Caso práctico: Configuración para un blog de tecnología

Supongamos que tienes un blog de tecnología en español y quieres:

  • Aparecer en ChatGPT Search, Perplexity y AI Overviews de Google
  • No entrenar modelos con tu contenido
  • Proteger contenido premium (detrás de /premium/)

Tu robots.txt sería:

code
1# Buscadores tradicionales
2User-agent: Googlebot
3Allow: /
4 
5User-agent: Bingbot
6Allow: /
7 
8# Búsqueda IA en tiempo real (PERMITIR)
9User-agent: ChatGPT-User
10Allow: /
11Disallow: /premium/
12 
13User-agent: OAI-SearchBot
14Allow: /
15Disallow: /premium/
16 
17User-agent: PerplexityBot
18Allow: /
19Disallow: /premium/
20 
21User-agent: Claude-Web
22Allow: /
23Disallow: /premium/
24 
25# Google AI Overviews (PERMITIR contenido público)
26User-agent: Google-Extended
27Allow: /blog/
28Disallow: /premium/
29 
30# Entrenamiento de modelos (BLOQUEAR)
31User-agent: GPTBot
32Disallow: /
33 
34User-agent: ClaudeBot
35Disallow: /
36 
37User-agent: CCBot
38Disallow: /
39 
40User-agent: Bytespider
41Disallow: /
42 
43User-agent: Meta-ExternalAgent
44Disallow: /
45 
46User-agent: meta-externalagent
47Disallow: /
48 
49User-agent: Applebot-Extended
50Disallow: /
51 
52User-agent: cohere-ai
53Disallow: /
54 
55User-agent: Diffbot
56Disallow: /
57 
58User-agent: Amazonbot
59Disallow: /
60 
61User-agent: img2dataset
62Disallow: /
63 
64Sitemap: https://tublog.com/sitemap.xml


El futuro: Hacia dónde va el crawleo de IA

Tendencias para 2026-2027

  1. Estándar TDM (Text and Data Mining): La UE está impulsando un estándar formal más allá de robots.txt para gestionar el uso de contenido por IA.
  2. Compensación automática: Startups como Spawning y Fairly Trained están creando sistemas de micropagos automáticos por contenido usado en entrenamiento.
  3. AI.txt: Propuesta de un nuevo archivo estándar (similar a robots.txt) específico para controlar el uso de contenido por IA. Varias empresas ya lo implementan experimentalmente.
  4. Verificación criptográfica: Sistemas de watermarking y firma digital para contenido que permiten rastrear su uso en modelos de IA.
  5. Más bots: Cada nueva startup de IA lanza su propio bot. La lista de 57 de 2025 será de 100+ en 2027.

Lo que no va a cambiar

  • Robots.txt seguirá siendo la base: Es simple, universal y funciona. Cualquier estándar nuevo se construirá sobre él.
  • Las empresas grandes respetarán el opt-out: El riesgo legal y reputacional es demasiado alto.
  • El contenido de calidad seguirá siendo valioso: Las IA necesitan contenido humano de calidad para funcionar. Eso da poder de negociación a los creadores.


Preguntas frecuentes

¿GPTBot y ChatGPT-User son el mismo bot?

No. GPTBot descarga contenido para entrenar futuros modelos de OpenAI. ChatGPT-User accede a tu web en tiempo real cuando un usuario de ChatGPT pide buscar algo. Puedes bloquear GPTBot (entrenamiento) y permitir ChatGPT-User (búsqueda) de forma independiente. La mayoría de sitios deberían hacer exactamente esto.

¿Bloquear Google-Extended afecta a mi posicionamiento en Google?

No. Google-Extended solo controla si tu contenido se usa para entrenar Gemini y generar AI Overviews. Tu posicionamiento en los resultados de búsqueda orgánica depende de Googlebot, que es un crawler separado. Puedes bloquear Google-Extended y seguir apareciendo en la primera página de Google sin problemas.

¿Cuánto ancho de banda consumen los bots de IA?

Depende del tamaño de tu sitio, pero el estudio de The SEO Framework mostró 180.000 peticiones en 6 meses de 57 bots diferentes. Para un sitio con páginas de 100KB de media, eso son unos 18GB de tráfico adicional. En un hosting básico puede ser significativo, en un VPS o CDN es irrelevante. Si notas problemas de rendimiento, el rate limiting es más efectivo que el bloqueo total.

¿Los bots de IA respetan robots.txt de verdad?

Los bots de empresas grandes (OpenAI, Anthropic, Google, Meta) sí lo respetan. Se juegan demasiado en términos legales y reputacionales como para ignorarlo. Perplexity tuvo controversia en 2024 por no respetar siempre las directivas, pero mejoró significativamente. Los bots de empresas más pequeñas y los scrapers disfrazados son menos fiables. Para estos, necesitas bloqueo a nivel de firewall o WAF.

¿Cómo sé si mi contenido ya fue usado para entrenar un modelo?

No hay forma segura de saberlo. Puedes hacer pruebas indirectas: si le preguntas a ChatGPT o Claude algo muy específico de tu web y responde con precisión, es probable que tu contenido esté en sus datos de entrenamiento. Herramientas como Have I Been Trained (haveibeentrained.com) permiten buscar en algunos datasets, pero no cubren todos.

¿Merece la pena bloquear bots de IA si mi web es pequeña?

Para sitios pequeños, la ecuación suele favorecer permitir los bots de búsqueda (ChatGPT-User, PerplexityBot) y bloquear los de entrenamiento (GPTBot, ClaudeBot, CCBot). La visibilidad que ganas al aparecer en respuestas de IA suele compensar con creces el contenido que "pierdes" en entrenamiento. Si tu modelo de negocio depende del tráfico orgánico, bloquear los bots de búsqueda IA es como bloquear a Google en 2005.

¿Puedo cobrar a las empresas de IA por crawlear mi web?

No directamente, salvo que seas un medio grande con capacidad de negociación. Sin embargo, la tendencia va hacia la compensación: Associated Press, Reddit y Axel Springer ya tienen acuerdos económicos. Para sitios más pequeños, plataformas como Spawning.ai están creando marketplaces de licencias de contenido. La EU AI Act también empuja hacia la transparencia en el uso de datos de entrenamiento, lo que podría facilitar reclamaciones futuras.

¿Debo actualizar robots.txt cada vez que aparece un nuevo bot?

Idealmente, sí. Nuevos bots de IA aparecen cada pocas semanas. La forma más práctica es revisar tus logs mensualmente, identificar user-agents desconocidos, y actualizar robots.txt trimestralmente. También puedes usar un enfoque de "bloquear por defecto" con un wildcard y permitir solo los bots que quieres, aunque esto puede bloquear crawlers legítimos que no conocías.

¿Hay alguna diferencia entre bloquear en robots.txt y bloquear con Cloudflare?

Sí, y es importante. robots.txt es una petición educada: "por favor, no crawlees esto". Un bot puede ignorarlo. Cloudflare (o cualquier WAF) es un bloqueo técnico real: la petición ni siquiera llega a tu servidor. Para bots que respetan robots.txt (OpenAI, Anthropic, Google), ambos métodos funcionan. Para scrapers que lo ignoran, solo el bloqueo a nivel de firewall es efectivo. Lo ideal es usar ambos.

Recomendado

¿Listo para poner tu proyecto en producción?

Si estás siguiendo este tutorial, necesitas un servidor donde desplegarlo. Yo uso Hostinger para mis proyectos porque el panel es intuitivo, los VPS van con SSD NVMe, y a 4,99€/mes no hay nada comparable en relación calidad-precio.

SSL gratis + IP dedicada
SSD NVMe ultra rápido
Soporte 24/7 en español

* Enlace de afiliado. Si contratas a través de este enlace, nos ayudas a mantener este contenido gratuito.

Posts Relacionados

JS

Javier Santos Criado

Consultor de IA y Automatización | Fundador de Javadex

Experto en implementación de soluciones de Inteligencia Artificial para empresas. Especializado en automatización con n8n, integración de LLMs, y desarrollo de agentes IA.

RECOMENDADO

Lleva tu proyecto a producción

Hosting web desde 2,99€/mes o VPS con SSD NVMe desde 4,99€/mes. Panel intuitivo, IP dedicada y soporte 24/7 en español.

SSL gratis SSD NVMe Soporte 24/7 Panel intuitivo
Explorar planes de Hostinger

¿Quieres más contenido de IA?

Explora nuestras comparativas y guías

Consultoría y formación en IA para empresas

Implementamos soluciones de inteligencia artificial adaptadas a tu negocio. Proceso 100% remoto — trabajamos con tu equipo in-house sin que tengas que desplazarte.

javi@javadex.esSesión de diagnóstico gratuita · 30 min