Black Hat SEO - Content Scraping
Content Scraping - fast schon ein Modebegriff in Zeiten von Web 2.0.
Hinter der Begrifflichkeit verbirgt sich schlicht und einfach der (zumeist) automatisierte Inhaltsklau auf Internetseiten, um diese Inhalte später auf Spam-Domains zu veröffentlichen.
Vorwiegend sind Opfer von Scraping-Attacken populäre Webseiten, die für umkämpfte Suchbegriffe gute Positionen erzielen. Aber auch "kleine" Webseiten mit guten Inhalten werden immer häufiger Opfer von Content Scrapern. Die Gefahr liegt für die kleineren Seiten darin, dass die Scraper Seite schon stark genug sein kann, um die kleine Seite selbst wegen "doppelter Inhalte" aus besseren Positionen in den Suchergebnissen ins Google Nirvana für den Suchbegriff zu beförden.
Um Inhalte automatisch aus Webseiten auszulesen, wurden im Laufe der Jahre einige Lösungen entwickelt. Es gibt sowohl kostenfreie Tools, wie RSSGM, sowie auch kommerzielle Software wie den Nichecreator. Man kann allerdings davon ausgehen, dass "erfolgreiche" Spammer eine stets an die eigenen Bedürfnisse angepasste individuelle Lösung verwenden, da sie sich so gesehen in einem Rüstungswettlauf mit den Suchmaschinen befinden.
Abhilfe kann man hier durch geschickten Einsatz von
IP Delivery schaffen. Bei diesem Lösungsansatz wird die IP Adresse des "Angreifers", also des Content Scrapers, nachdem sie einmal ermittelt ist permanent auf einen nutzlosen oder kompromittierenden Inhalt weitergeleitet. Die permanente Weiterleitung lässt sich per .htaccess realisieren, indem man folgende Zeilen in der .htaccess Datei im Root Verzeichnis des Webservers einfügt:
RewriteEngine on
RewriteCond %{REMOTE_ADDR} ^123.456.789.0
RewriteRule ^(.*)$ http://neueurl.de/
In der zweiten Zeile muss natürlich die IP Adresse des jeweiligen Angreifers eingetragen werden.
Automatisierte Zugriffe von bestimmten IP Adressen, die nur darauf abzielen Inhalte zu stehlen, werden auf diese Weise elegant "um die Seite herum" geleitet und der Content-Dieb schaut in den Ofen.
Mehr Infos dazu findet Ihr auf meinem
SEO Blog.