Raspagem de conteúdo
Configure como o ChattyBox rastreia seu site e indexa o conteúdo para respostas de IA.
Modos de raspagem
O ChattyBox oferece três modos de raspagem:
1. Apenas a página inicial
Raspa apenas sua página inicial. Ideal para landing pages simples ou quando você quer indexar o mínimo de conteúdo.
2. Modo sitemap (Recomendado)
Forneça a URL do mapa do site e o ChattyBox raspará todas as páginas listadas nele. Esta é a forma mais confiável de garantir que todas as suas páginas sejam indexadas.
https://example.com/sitemap.xml
3. URLs manuais
Especifique as URLs exatas para raspar, uma por linha. Use isso quando quiser ter controle preciso sobre quais páginas são indexadas.
https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq
Limites de páginas
O número de páginas que você pode raspar depende do seu plano:
| Plano | páginas por site |
|---|---|
| Free | 10 |
| Starter | 50 |
| Pro | 500 |
| Business | 2,000 |
Extração de conteúdo
ChattyBox extrai:
- Título da página - A tag
<title> - Conteúdo principal - Texto de
<main>,<article>ou<body> - Títulos - Todas as tags
<h1>a<h6> - Parágrafos - Todo o conteúdo de
<p> - Listas - Itens de
<ul>e<ol>
Conteúdo ignorado
ChattyBox ignora automaticamente:
- Menus de navegação
- Conteúdo do rodapé
- Scripts e estilos
- Elementos ocultos
- Banners de cookies
Resolução de problemas
As páginas não estão sendo raspadas?
- Verifique se a URL está publicamente acessível
- Certifique-se de que seu
robots.txtpermite o nosso rastreador - Verifique se a página não exige autenticação
Conteúdo ausente nas respostas?
- Raspe a página novamente para obter o conteúdo mais recente
- Verifique se o conteúdo não é carregado via JavaScript (renderizamos JS)
- Certifique-se de que o conteúdo esteja no corpo principal, não em iframes
Precisa de mais controle?
Para necessidades avançadas de raspagem (autenticação, conteúdo dinâmico etc.), entre em contato pelo [email protected].