Directorios SEO con 9 IAs en paralelo: cómo escribimos 200 fichas al día sin tocar una
Cómo orquestamos 9 modelos de lenguaje en paralelo para investigar, redactar y validar fichas de directorio SEO. Caso real, arquitectura y métricas.
Resumen
- El caso real: 8 sitios de directorio (USA + España), cada uno entre 5.000 y 50.000 fichas. Sin redactores humanos. Solo IA orquestada.
- El stack: 9 proveedores LLM en pool rotativo (Cerebras Qwen3, Groq GPT-OSS, SiliconFlow GLM-4.7, Mistral, Gemini Flash, Cohere, Cloudflare Workers AI + 2 modelos Ollama locales).
- El throughput: ~200 fichas al día por sitio, con calidad media 7.6/10 medida ficha a ficha por un evaluator LLM-as-judge.
- El truco: adaptive concurrency + fail-over chain — si un proveedor satura, el sistema rota al siguiente sin perder ficha.
- El beneficio SEO: schema JSON-LD automático en cada ficha + reescritura conectada a Search Console + IndexNow para Bing.
- Lo que aprendimos: la calidad no la pone el modelo más caro, sino la pipeline (investigación → primer borrador → evaluación → corrección).
Llevamos 14 meses gestionando 8 sitios de directorio sin un solo redactor humano en plantilla. Entre todos suman más de 45.000 fichas publicadas. Y la calidad media —medida ficha a ficha— es 7.6/10. Este post explica cómo está montado por dentro, qué proveedores LLM (los modelos de lenguaje, las “IAs”) usamos y por qué nueve a la vez en lugar de uno.
Si vienes pensando que esto va a ser “metemos GPT-4 y a correr”, spoiler: el modelo es lo de menos. Lo que mueve la aguja es la pipeline y la orquestación.
La cifra que importa
200 fichas por día, por sitio. Si lo escalas mentalmente: 8 sitios × 200 fichas/día × 30 días = 48.000 fichas al mes. Para hacer eso con humanos necesitarías unos 20 redactores a jornada completa (asumiendo 10 fichas/día por persona). En Madrid, eso son ~50.000 € al mes solo en nóminas.
Nuestra factura LLM mensual: entre 40 € y 90 € según el mes. El resto es Cloudflare gratis, hosting compartido y una GPU NVIDIA RTX 5060 Ti que compramos en abril por 573 €.
Por qué 9 modelos y no 1
Cuando arrancamos hace 14 meses, lo intentamos con GPT-4 turbo y nada más. Tres problemas en la primera semana:
- Rate limits agresivos. Tier 1 te da ~3.500 tokens/min. Para una ficha de directorio (1.500 palabras = 2.000 tokens) que incluye research previo + escritura + corrección, son ~8.000 tokens. Te quedas en 25 fichas/día con suerte.
- Coste. GPT-4 turbo a $10/MTok input + $30/MTok output. Una ficha completa cuesta ~$0,15. 200 fichas/día × $0,15 = $30/día = $900/mes. Insostenible.
- Cero resiliencia. Si la API de OpenAI tiene incidente (les pasa cada 3-4 semanas), tu pipeline se para. No queda otra que esperar.
La solución fue obvia pero costosa de implementar: pool rotativo de proveedores. La aplicación tiene una lista priorizada de modelos. Si el primero falla o satura, salta al siguiente sin que se pierda la ficha.
El stack de 9 proveedores
A día de hoy (junio 2026), nuestra cadena por defecto está formada por:
- Cerebras Qwen3-235B-A22B — el rey en calidad/velocidad. Inferencia a 1.500 tokens/segundo (sí, 1.500). El Dev Tier de Cerebras cuesta $10 prepago.
- Groq GPT-OSS-120B — modelo open-source de Meta, muy bueno en reasoning. Free tier generoso.
- SiliconFlow GLM-4.7 — modelo chino de Zhipu, brutal para research y extracción de datos. Crédito inicial gratis.
- Mistral Medium — solo si los tres anteriores fallan. Free tier estricto.
- Google Gemini 2.5 Flash — sólido para tareas creativas.
- Cohere Command R+ — bueno para clasificación y resúmenes.
- Cloudflare Workers AI — modelos pequeños (Llama 3.1 8B) en el edge, muy baratos.
- Ollama Qwen3:14b Q6_K (local) — corre en nuestra GPU. 8-12 fichas/hora, gratis.
- Ollama Qwen2.5:7b (local) — para tareas de extracción rápida (research).
Los modelos locales (Ollama es un runtime que corre LLMs en tu propia máquina) son el seguro de vida. Si todos los cloud se caen a la vez (nos ha pasado dos veces), los locales siguen produciendo. Coste por ficha: 0 € (luz aparte).
La pipeline: 4 fases por ficha
Una ficha no se escribe en una sola llamada al LLM. Se compone:
Fase 1 — Research
El sistema busca información real sobre la entidad (negocio, lugar, producto) en motores como Brave Search API y Firecrawl. Saca 3-5 fuentes contrastadas, las extrae con un modelo pequeño (GLM-4.7 o NuExtract) y devuelve JSON estructurado: nombre, dirección, horarios, servicios, reviews.
Tiempo: ~6 segundos. Tokens: ~3.000 input + ~500 output.
Fase 2 — Primer borrador
Un modelo grande (Qwen3-235B vía Cerebras, normalmente) toma el JSON de research + un prompt de plantilla SEO + las directrices del nicho del directorio, y escribe la ficha completa con H1, H2, H3 (los encabezados HTML que estructuran un documento), bullets, párrafos cortos y CTA.
Tiempo: ~3 segundos (Cerebras es muy rápido). Tokens: ~4.000 input + ~2.500 output.
Fase 3 — Evaluación
Otro LLM, distinto del que escribió, actúa de judge (juez). Lee la ficha, contrasta con la fuente, mira H1 longitud, presencia de negrita, internal linking, alt en imágenes, longitud total, y devuelve un score 0-10 + lista de fallos.
Si el score < 6.5 → vuelve a fase 2 con feedback. Si el score ≥ 6.5 → pasa a fase 4.
Tiempo: ~2 segundos. Tokens: ~5.000 input + ~300 output.
Fase 4 — Publicación
La ficha se publica vía la REST API de WordPress con autenticación por Application Passwords (guía aquí), se generan los schemas JSON-LD (los datos estructurados que Google lee para entender de qué va la página) y se notifica a Bing y Google vía IndexNow (explicación aquí).
Tiempo total ficha completa: ~15 segundos.
El secreto: adaptive concurrency
El problema gordo es que los proveedores se saturan. Si lanzas 50 fichas a Cerebras a la vez en su Dev Tier, te empieza a tirar 429 (Too Many Requests).
Nuestro scheduler (el componente que decide qué se ejecuta cuando) ajusta la concurrencia en vivo:
- Empieza con 4 workers paralelos.
- Si el ratio de 429 sube del 5 %, baja a 2.
- Si todo va fino durante 5 minutos, sube a 6.
- Si el modelo local Ollama empieza a swappear (la GPU se queda sin memoria), baja a 1 worker local.
Esto es lo que separa un script casero de un sistema de producción.
¿Por qué importa el schema JSON-LD?
Una ficha sin schema JSON-LD (los datos estructurados de Schema.org, que Google usa para entender el contenido) es invisible para AI Overviews, ChatGPT search, Perplexity y Bing Generative. El schema le dice a la IA: “esto es un negocio local, está en esta dirección, abre estos horarios, tiene esta valoración”.
Nuestro sistema mete schema automático en cada ficha según el tipo de directorio:
- Directorio de negocios →
LocalBusiness+PostalAddress+OpeningHoursSpecification+AggregateRating - Directorio de productos →
Product+Offer+AggregateRating - Directorio de eventos →
Event+Place+Offer
Schema bien metido es lo que mete tu ficha en las respuestas AI sin tener autoridad de marca todavía.
Lo que aprendimos por las malas
Tres lecciones que nos costaron caras:
1. La calidad no la pone el modelo más caro. Probamos GPT-4o, Claude 3.7 Sonnet, Qwen3-235B, GLM-4.7. La diferencia en calidad media del output era de 0.3 puntos sobre 10. La diferencia de coste, de 20× a 50×. Conclusión: la pipeline pesa más que el modelo.
2. El fail-over tiene que ser silencioso. Si una ficha tarda 12 segundos en vez de 5 porque el primer proveedor se cayó, no pasa nada. Si el sistema se planta y devuelve un 500 al usuario, sí pasa. La cadena de modelos debe ser invisible.
3. Free tier ≠ producción. Probamos Mistral free + Cloudflare free como primarios durante una semana. Throughput → 30 % del esperado. Volvimos a pin Cerebras/SiliconFlow como primarios. Free tier es bueno como fallback, no como cabeza de cadena.
Lo que viene en SeoNova
Todo esto que acabas de leer es lo que estamos empaquetando dentro de SeoNova. La idea es que cualquiera con una WordPress instalada pueda conectar su sitio, elegir nicho, y empezar a generar fichas con la misma pipeline que llevamos 14 meses afinando.
Sin tener que montar Ollama, sin gestionar 9 API keys, sin escribir el scheduler. Solo apuntar al WordPress, marcar el tipo de directorio y esperar.
Si te interesa, únete a la waitlist con 50 % de descuento durante los 3 primeros meses. Lanzamos en otoño 2026.
Preguntas frecuentes
Las dudas que más nos llegan sobre este tema
¿Por qué 9 modelos y no uno solo?
¿No saca el contenido peor que un redactor humano?
¿Cómo evitáis que Google considere esto 'spam de contenido IA'?
¿Por qué meter Ollama local si los cloud son rápidos?
¿Cuánto cuesta montar algo similar?
Sigue leyendo
Más posts del blog que te pueden interesar
- IA aplicada al SEO
Comparativa LLMs para SEO: 7 modelos cloud y local medidos en 168 fichas reales
Benchmark real de 7 modelos LLM escribiendo fichas SEO. Quality score, tokens/seg, coste por ficha. Ganador y por qué.
8 min de lectura - SEO Técnico
En 2026, Bing nos trae casi 3 veces más tráfico que Google. Aquí están los datos.
8 sitios reales: Bing aporta el 74,5% del tráfico SEO total. Por qué Bing rinde más que Google en 2026 y qué hacer en tu web.
6 min de lectura - WPO WordPress
El orden de invalidación de cachés en WordPress + Cloudflare que NO te explican
Cómo purgar 5 capas de caché en WordPress (OPcache, Object Cache, WP Rocket, LiteSpeed, Cloudflare) sin servir contenido viejo. Orden exacto.
9 min de lectura