Extracción de contenido
Configura cómo ChattyBox rastrea tu sitio web e indexa el contenido para las respuestas de IA.
Modos de scraping
ChattyBox admite tres modos de scraping:
1. Solo la página de inicio
Extrae solo la página de inicio de tu sitio. Ideal para páginas de destino sencillas o si quieres indexar la menor cantidad de contenido posible.
2. Modo sitemap (Recomendado)
Proporciona la URL de un mapa del sitio y ChattyBox extraerá todas las páginas que figuren en él. Esta es la forma más fiable de garantizar que todas tus páginas se indexen.
https://example.com/sitemap.xml
3. URLs manuales
Especifica las URL exactas que quieres extraer, una por línea. Usa esto cuando quieras tener un control preciso sobre qué páginas se indexan.
https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq
Límites de páginas
El número de páginas que puedes extraer depende de tu plan:
| Plan | Páginas por sitio |
|---|---|
| Free | 10 |
| Starter | 50 |
| Pro | 500 |
| Business | 2,000 |
Extracción de contenido
ChattyBox extrae:
- Título de la página - La etiqueta
<title> - Contenido principal - Texto de
<main>,<article>o<body> - Encabezados - Todas las etiquetas, de
<h1>a<h6> - Párrafos - Todo el contenido de
<p> - Listas - Elementos de
<ul>y<ol>
Contenido ignorado
ChattyBox ignora automáticamente:
- menús de navegación
- contenido del pie de página
- scripts y estilos
- elementos ocultos
- banners de cookies
Solución de problemas
¿No se extraen las páginas?
- Comprueba que la URL sea accesible públicamente
- Asegúrate de que tu
robots.txtpermita nuestro rastreador - Verifica que la página no requiera autenticación
¿Falta contenido en las respuestas?
- Vuelve a extraer la página para obtener el contenido más reciente
- Comprueba que el contenido no se cargue mediante JavaScript (renderizamos JS)
- Asegúrate de que el contenido esté en la parte principal de la página, no en iframes
¿Necesitas más control?
Si necesitas opciones avanzadas de extracción (autenticación, contenido dinámico, etc.), contáctanos en [email protected].