Grundsätzlich gibt es zur Löschung von Seiten aus dem Google Index zwei Szenarien:
- Die Webseite befindet sich auf dem eigenen Webauftritt
- Die Webseite befindet sich auf einem fremden Webauftritt
In diesem Artikel geht es um die Entfernung von eigenen Websites aus dem Google Index. Um Seiten von „fremden“ Webauftritten zu löschen, ist dieser Hilfeartikel die richtige Anlaufstelle.
Inhaltsverzeichnis
So geht’s: Indexierte Seiten der eigenen Website aus dem Google Index entfernen
Innerhalb des eigenen Webauftritts hast du (idealerweise) alles unter Kontrolle. Von daher ist es grundsätzlich ein leichtes, die Grundvoraussetzung für eine De-Indexierung einer Seite zu erfüllen.
Grundsätzlich indexiert Google nur Seiten, die a) bekannt sind, b) gecrawlt werden dürfen, c) erfolgreich abgerufen werden können und d) zur Indexierung freigegeben sind. Der Crawling- und Indexierungsprozess wird im verlinkten Artikel genauer beleuchtet.
Um eine Seite aus dem Google Index zu löschen, muss folglich wahlweise:
- Das Crawling unterbunden werden (via robots.txt)
- Die Seite einen Statuscode ungleich 200 zurückliefern (z.B. 404 für nicht gefunden oder 301 für permanent weitergeleitet)
- Oder erfolgreich abrufbar sein (Statuscode 200), aber per Noindex von der Indexierung ausgeschlossen sein, oder per Canonical-Tag auf eine andere URL verweisen.
Die besten Optionen sind die Löschung einer Seite (oder deren Weiterleitung), sowie bei Inhalten, die online bleiben, aber nicht im Google Index sein sollen, die Verwendung der Noindex-Angabe als Meta Robots oder X-Robots-Angabe.
Das Canonical-Tag ist nur bedingt für die Indexierungssteuerung geeignet, da es nur ein Hinweis ist. Google kann diese Angabe ignorieren. Darüber wirst du dann im Indexierungsbericht der Google Search Console, oder über die URL Prüfung informiert. Sind die Seiten in den Augen von Google nicht ähnlich genug, dann wird die Canonical-Angabe ignoriert – und die eigentlich „kanonisierte“ Seite kann indexiert sein.
Damit bereits indexierte Seiten aus dem Google Index entfernt werden, muss Google eine Veränderung an der Seite erstmal erfassen, die Seite also erneut crawlen. Alternativ kann aber über die Google Search Console eine Entfernung beantragt werden.
Besonders dann, wenn eine Seite zunächst indexierbar war und anschließend auf Noindex umgestellt wurde, kann es dauern, bis Google die Seite erneut crawlt. Und ein erneutes Crawling ist häufig der Knackpunkt, um eine Seite „auf dem natürlichen Weg“ aus dem Index zu bekommen.
So kannst du das Crawling beschleunigen
Google weist einzelnen Seiten eine Crawling-Priorität zu. Diese ist unter anderem von der (historischen) Änderungsfrequenz abhängig. Seiten, die sich in den letzten Wochen / Monaten oder gar Jahren gar nicht oder selten geändert haben, werden von Google selten gecrawlt.
Um ein Re-Crawling zu forcieren, hast du folgende Möglichkeiten:
- Neue Verweise zur Seite setzen
- <lastmod>-Datum in der XML-Sitemap aktualisieren
- Crawling über die Google Search Console anstoßen
- getIndexed.io nutzen
Die zuverlässigste Möglichkeit ist die Nutzung der Google Indexing API. Diese ist Grundlage von getIndexed und sorgt für ein sehr zeitnahes erneutes Crawling samt anschließender (De-)Indexierung von Seiten.
So kannst du Seiten (vorübergehend) mit „URL entfernen“ aus dem Google Index löschen
Wenn es darum geht, ohne ein erneutes Crawling eine Seite aus dem Google Index zu entfernen, dann ist die Google Search Console die erste Anlaufstelle. Unter „Indexierung“ => „Entfernen“ steht nämlich für eigene Websites die „URL entfernen“-Funktion zur Verfügung.
Streng genommen handelt es sich hierbei nicht um eine Entfernung, sondern nur um eine „Nicht-Anzeige“ der gemeldeten URLs oder URL-Strukturen für die nächsten circa 6 Monate. Denn die Funktion kann auch genutzt werden, wenn Seiten weiterhin zum Crawling- und zur Indexierung freigegeben sind. Erst durch eine der oben genannten Varianten zur Crawling- oder Indexierungsblockierung kann eine dauerhafte Entfernung der Webseite(n) sichergestellt werden.
Bei der Nutzung von URL entfernen wird kein erneutes Crawling angestoßen, sondern die Seiten aus den Suchergebnissen ausgeblendet. Wenn dein Ziel der De-Indexierung das Thema „Indexmanagement“ ist, dann ist eine Entfernung der Seite durch einen Re-Crawl die bessere Option. Hierbei kann dir getIndexed zur Seite stehen.