Estrazione dei contenuti
Configura il modo in cui ChattyBox esegue la scansione del tuo sito web e indicizza i contenuti per le risposte dell'AI.
Modalità di scraping
ChattyBox supporta tre modalità di scraping:
1. Solo la homepage
Estrae solo la tua homepage. Ideale per landing page semplici o quando vuoi indicizzare il minimo indispensabile di contenuti.
2. Modalità sitemap (consigliata)
Inserisci l'URL della mappa del sito e ChattyBox estrarrà tutte le pagine elencate. Questo è il modo più affidabile per garantire che tutte le tue pagine siano indicizzate.
https://example.com/sitemap.xml
3. URL manuali
Specifica gli URL esatti da estrarre, uno per riga. Usa questa opzione quando vuoi avere un controllo preciso su quali pagine vengono indicizzate.
https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq
Limiti di pagine
Il numero di pagine che puoi estrarre dipende dal tuo piano:
| Piano | Pagine per sito |
|---|---|
| Free | 10 |
| Starter | 50 |
| Pro | 500 |
| Business | 2,000 |
Estrazione del contenuto
ChattyBox estrae:
- Titolo della pagina - Il tag
<title> - Contenuto principale - Testo da
<main>,<article>o<body> - Intestazioni - Tutti i tag da
<h1>a<h6> - Paragrafi - Testo dei tag
<p> - Elenchi - Elementi di
<ul>e<ol>
Contenuti ignorati
ChattyBox ignora automaticamente:
- Menu di navigazione
- Contenuti del piè di pagina
- Script e stili
- Elementi nascosti
- Banner dei cookie
Risoluzione dei problemi
Le pagine non vengono estratte?
- Controlla che l'URL sia accessibile pubblicamente
- Assicurati che il tuo
robots.txtconsenta il nostro crawler - Verifica che la pagina non richieda autenticazione
Contenuto mancante nelle risposte?
- Estrai di nuovo la pagina per ottenere il contenuto più recente
- Controlla che il contenuto non venga caricato tramite JavaScript (eseguiamo il rendering di JS)
- Assicurati che il contenuto sia nel corpo principale della pagina, non negli iframe
Hai bisogno di un maggiore controllo?
Per esigenze avanzate di estrazione (autenticazione, contenuti dinamici, ecc.), contattaci all'indirizzo [email protected].