Passa al contenuto principale

Estrazione dei contenuti

Configura il modo in cui ChattyBox esegue la scansione del tuo sito web e indicizza i contenuti per le risposte dell'AI.

Modalità di scraping

ChattyBox supporta tre modalità di scraping:

1. Solo la homepage

Estrae solo la tua homepage. Ideale per landing page semplici o quando vuoi indicizzare il minimo indispensabile di contenuti.

2. Modalità sitemap (consigliata)

Inserisci l'URL della mappa del sito e ChattyBox estrarrà tutte le pagine elencate. Questo è il modo più affidabile per garantire che tutte le tue pagine siano indicizzate.

https://example.com/sitemap.xml

3. URL manuali

Specifica gli URL esatti da estrarre, uno per riga. Usa questa opzione quando vuoi avere un controllo preciso su quali pagine vengono indicizzate.

https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq

Limiti di pagine

Il numero di pagine che puoi estrarre dipende dal tuo piano:

PianoPagine per sito
Free10
Starter50
Pro500
Business2,000

Estrazione del contenuto

ChattyBox estrae:

  • Titolo della pagina - Il tag <title>
  • Contenuto principale - Testo da <main>, <article> o <body>
  • Intestazioni - Tutti i tag da <h1> a <h6>
  • Paragrafi - Testo dei tag <p>
  • Elenchi - Elementi di <ul> e <ol>

Contenuti ignorati

ChattyBox ignora automaticamente:

  • Menu di navigazione
  • Contenuti del piè di pagina
  • Script e stili
  • Elementi nascosti
  • Banner dei cookie

Risoluzione dei problemi

Le pagine non vengono estratte?

  • Controlla che l'URL sia accessibile pubblicamente
  • Assicurati che il tuo robots.txt consenta il nostro crawler
  • Verifica che la pagina non richieda autenticazione

Contenuto mancante nelle risposte?

  • Estrai di nuovo la pagina per ottenere il contenuto più recente
  • Controlla che il contenuto non venga caricato tramite JavaScript (eseguiamo il rendering di JS)
  • Assicurati che il contenuto sia nel corpo principale della pagina, non negli iframe

Hai bisogno di un maggiore controllo?

Per esigenze avanzate di estrazione (autenticazione, contenuti dinamici, ecc.), contattaci all'indirizzo [email protected].