Webseiteninhalte von der Googleindexierung ausschließen – so geht’s richtig

von Torsten Maue
| Lesedauer 3 Minuten |

Nicht alle Inhalte einer Webseite sollen, dürfen oder müssen in den Suchmaschinen gefunden werden. Auch in Sachen Indexierung gilt: weniger ist manchmal mehr. Wie man solche Inhalte vor den Suchmaschinencrawlern versteckt und wie man bereits indexierte Inhalte wieder aus Google entfernt, soll dieser Beitrag näherbringen.

Welche Seiten sollte man nicht indexieren lassen?

Grundsätzlich erst einmal alle Seiten, die dem Suchmaschinennutzer an dieser Stelle keinen echten Mehrwert bieten. Das fängt bei AGB und Datenschutzerklärung an und geht natürlich weiter zu Benutzerprofilen, Seitenkopien mit Session-IDs bis hin zu den Warenkörben von Onlineshops. Auch hier gilt: weniger ist mehr. Nicht alles muss im Googleindex zu finden sein, sondern nur die Seiten, die dem Nutzer tatsächlich weiterhelfen. Den Rest sollte man ausschließen. Es kann also durchaus sein, dass es auf einer Webseite 1.000 einzelne Unterseiten gibt, allerdings nur 500 davon indexiert sind. Das muss kein Fehler sein, sondern kann tatsächlich sinnvoll sein. Auch hier kann man im Rahmen einer SEO-Analyse ermitteln, welche Seiten für den Suchmaschinenindex, und damit für den Suchmaschinennutzer, wichtig sind und welche nicht. Alles was nicht relevant ist, hat auch nichts im Index verloren. Wichtig ist, dass die tatsächlich relevanten Inhalte indexiert werden und der Suchmaschinennutzer gleich das findet, wonach er sucht. Ansonsten besteht die Gefahr, dass der Nutzer abspringt und verloren ist.

Wie wählt man aus welche Inhalte indexiert werden soll und welche nicht?

Zu einer SEO-Analyse gehört als Teilbereich auch immer eine Keywordanalyse. Im Rahmen dieser Keywordanalyse werden relevante Keywords analysiert, die also nicht nur für zahlreiche Besucher sorgen, sondern auch Umsätze generieren. Mit diesen Daten kann man dann prüfen welche vorhandenen Unterseiten entsprechende Inhalte besitzen, die dazu führen, dass die Webseitenbesucher zu Kunden werden, weil sie genau das finden wonach sie gesucht haben. Nicht alle Inhalte helfen dem Webseitenbesucher an dieser Stelle aber bereits weiter. Seiteninhalte, die es bereits an anderen relevanteren Stellen gibt oder die erst zu einem Zeitpunkt beim Seitenbesuch wichtig sind, wenn andere Sachverhalte vorab geklärt sind, sollten ggf. von der Indexierung ausgeschlossen werden. Auch Inhalte, die nur aus rechtlichen Gründen vorhanden sein müssen, für die Kaufentscheidung aber keine Relevanz haben, sollten von der Indexierung ausgeschlossen werden.

Bestehende Webseiteninhalte aus dem Googleindex entfernen

Was tun wenn Google Inhalte indexiert hat, die gar nicht dazu bestimmt waren indexiert zu werden oder aus anderen Gründen aus den Suchergebnissen entfernt werden sollen? Die Antwort lautet: noindex. Mit diesem Metatag könnt ihr dem Googlebot mitteilen, dass er die betreffende Seite nicht indexieren soll. Er wird daraufhin auch bereits indexierte Inhalte wieder aus dem Googleindex entfernen, sodass sie in den Suchergebnissen nicht mehr auftauchen. Das kann allerdings einige Tage dauern.

Das betreffende Metatag sieht so aus und sollte im Head-Bereich des Quelltextes zu finden sein:

<meta name="robots" content="noindex" />

Sind die Inhalte aus dem Googleindex entfernt, sollte das Metatag aber dennoch so erhalten bleiben, denn ansonsten crawlt der Googlebot die Seite beim nächsten Mal doch und indexiert sie wieder.

Stellt auch sicher, dass die betreffenden Seiten NICHT in der XML-Sitemap aufgeführt werden. Nach der Deindexierung kann es auch Sinn machen die eingehenden Links auf diese Seiten mit dem nofollow-Tag zu versehen.

Neue Inhalte von der Indexierung ausschließen

Natürlich kann man neu zu erstellende Inhalte auch gleich vorweg von der Indexierung ausschließen. Auch hier kann das o.g. Metatag zum Einsatz kommen. Sollen z.B. ganze Verzeichnisse und die darin enthaltenen Inhalte von einer Indexierung ausgeschlossen werden, so kann hier auch die robots.txt zum Einsatz kommen.

In der robots.txt kann man Inhalte ebenfalls sperren. Dies macht aber nur Sinn, wenn die Inhalte noch nicht indexiert sind. Würde man eine indexierte Seite mittels robots.txt sperren, würde der Robot die Seite lediglich nicht mehr besuchen, sie würde aber im Index bleiben. Sollten sich im betreffenden Verzeichnis auch Inhalte befinden, die indexiert werden sollen, sollte man auf eine Verzeichnissperrung durch die robots.txt sowieso verzichten. Natürlich kann man auch Inhalte, die deindexiert wurden, mittels robots.txt für den Bot sperren. Dies sollte aber erst geschehen, nachdem die Inhalte aus dem Index entfernt sind.

Ganz wichtig:

Google respektiert die Angaben in der robots.txt sowie die entsprechenden Metatags. Wenn man diese Werkzeuge sinnvoll einsetzt, hilft das nicht nur dem Googlebot, sondern letztlich auch den Rankings der Seite.

Über das Thema Indexierung bzw. Nichtindexierung von Inhalten sollte man sich bereits so früh wie möglich klar werden. Häufig lassen sich dadurch nämlich auch schlechtere Rankings durch internen duplicate Content vermeiden.

Auch wird das für jede Webseite von Google bereitgestellte Crawlbudget geschont und kann für die wirklich wichtigen Inhalte genutzt werden. Und auch Google selbst dürfte sich freuen, wenn Webseitenbetreiber nicht relevante Inhalte sperren. So ist es einfacher die relevanten Inhalte zu analysieren und einzuordnen. Nicht auszudenken was an Speicherplatz, Energie und Zeit gespart werden könnte, würde man alle nicht relevanten und doppelten Inhalte aus dem Index entfernen. Da liegt ein riesiges Potential, dass von den Webseitenbetreibern nur aktiviert werden muss. Letztlich ist das gar nicht so schwer, man muss sich nur die Zeit dafür nehmen. Und hat man sich dem Thema Deindexierung einmal umfänglich gewidmet, wird man auch bald sehen, dass Google dies zu honorieren weiß. Der Aufwand lohnt sich also.

Weitere Artikel zum Thema