Zum Hauptinhalt springen

Content Scraping

Konfigurieren Sie, wie ChattyBox Ihre Website crawlt und Inhalte für AI-Antworten indexiert.

Scraping-Modi

ChattyBox unterstützt drei Scraping-Modi:

1. Nur die Homepage

Scrapt nur Ihre Homepage. Ideal für einfache Landingpages oder wenn Sie nur minimale Inhalte indexieren möchten.

2. Sitemap-Modus (Empfohlen)

Geben Sie eine Sitemap-URL an, und ChattyBox wird alle darin aufgeführten Seiten scrapen. Das ist die zuverlässigste Methode, um sicherzustellen, dass alle Ihre Seiten indexiert werden.

https://example.com/sitemap.xml

3. Manuelle URLs

Geben Sie die genauen URLs zum Scrapen an, eine pro Zeile. Nutzen Sie dies, wenn Sie genau steuern möchten, welche Seiten indexiert werden.

https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq

Seitenlimits

Wie viele Seiten Sie scrapen können, hängt von Ihrem Tarif ab:

TarifSeiten pro Website
Free10
Starter50
Pro500
Business2,000

Inhaltsextraktion

ChattyBox extrahiert:

  • Seitentitel - Das <title>-Tag
  • Hauptinhalt - Text aus <main>, <article> oder <body>
  • Überschriften - Alle <h1>- bis <h6>-Tags
  • Absätze - Alle Inhalte in <p>-Tags
  • Listen - <ul>- und <ol>-Elemente

Ignorierte Inhalte

ChattyBox ignoriert automatisch:

  • Navigationsmenüs
  • Inhalte im Footer
  • Skripte und Styles
  • versteckte Elemente
  • Cookie-Banner

Fehlerbehebung

Seiten werden nicht gescraped?

  • Prüfen Sie, ob die URL öffentlich zugänglich ist
  • Stellen Sie sicher, dass Ihre robots.txt unseren Crawler zulässt
  • Prüfen Sie, ob die Seite nicht durch eine Anmeldung geschützt ist

Fehlt Inhalt in den Antworten?

  • Scrapen Sie die Seite erneut, um die neuesten Inhalte abzurufen
  • Prüfen Sie, ob die Inhalte nicht über JavaScript geladen werden (wir rendern JS)
  • Stellen Sie sicher, dass sich die Inhalte im Hauptinhalt befinden, nicht in iframes

Mehr Kontrolle gewünscht?

Für erweiterte Scraping-Anforderungen (Authentifizierung, dynamische Inhalte usw.) kontaktieren Sie uns unter [email protected].