Inhalts-Scraping

Konfigurieren Sie, wie ChattyBox Ihre Website crawlt und Inhalte für AI-Antworten indexiert.

Scraping-Modi

ChattyBox unterstützt drei Scraping-Modi:

1. Nur die Homepage

Scrapt nur Ihre Homepage. Ideal für einfache Landingpages oder wenn Sie nur minimale Inhalte indexieren möchten.

2. Sitemap-Modus (Empfohlen)

Geben Sie eine Sitemap-URL an, und ChattyBox wird alle darin aufgeführten Seiten scrapen. Das ist die zuverlässigste Methode, um sicherzustellen, dass alle Ihre Seiten indexiert werden.

https://example.com/sitemap.xml

3. Manuelle URLs

Geben Sie die genauen URLs zum Scrapen an, eine pro Zeile. Nutzen Sie dies, wenn Sie genau steuern möchten, welche Seiten indexiert werden.

https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq

Seitenlimits

Wie viele Seiten Sie scrapen können, hängt von Ihrem Tarif ab:

Tarif	Seiten pro Website
Free	10
Starter	150
Pro	5,000
Business	25,000

Inhaltsextraktion

ChattyBox extrahiert:

Seitentitel - Das <title>-Tag
Hauptinhalt - Text aus <main>, <article> oder <body>
Überschriften - Alle <h1>- bis <h6>-Tags
Absätze - Alle Inhalte in <p>-Tags
Listen - <ul>- und <ol>-Elemente

Ignorierte Inhalte

ChattyBox ignoriert automatisch:

Navigationsmenüs
Inhalte im Footer
Skripte und Styles
versteckte Elemente
Cookie-Banner

Fehlerbehebung

Seiten werden nicht gescraped?

Prüfen Sie, ob die URL öffentlich zugänglich ist
Stellen Sie sicher, dass Ihre robots.txt unseren Crawler zulässt
Prüfen Sie, ob die Seite nicht durch eine Anmeldung geschützt ist

Fehlt Inhalt in den Antworten?

Scrapen Sie die Seite erneut, um die neuesten Inhalte abzurufen
Prüfen Sie, ob die Inhalte nicht über JavaScript geladen werden (wir rendern JS)
Stellen Sie sicher, dass sich die Inhalte im Hauptinhalt befinden, nicht in iframes

Mehr Kontrolle gewünscht?

Für erweiterte Scraping-Anforderungen (Authentifizierung, dynamische Inhalte usw.) kontaktieren Sie uns unter [email protected].

Scraping-Modi​

1. Nur die Homepage​

2. Sitemap-Modus (Empfohlen)​

3. Manuelle URLs​

Seitenlimits​

Inhaltsextraktion​

Ignorierte Inhalte​

Fehlerbehebung​

Seiten werden nicht gescraped?​

Fehlt Inhalt in den Antworten?​

Mehr Kontrolle gewünscht?​