Zoekmachines en het NIET gevonden worden » Jeroen van de Wiel

Tijdschrift voor webwerkers » Artikel #46

De rollen worden vandaag omgedraaid. Het is leuk dagelijks artikelen en plannen te schrijven over hoe je zo goed mogelijk door de zoekmachines kunt worden gevonden, maar heel soms wil je toch dat je files veilig staan en juist NIET gevonden worden. Hoe houd je de zoekmachines buiten de deur?

De werking van de zoekmachinespiders

Allereerst de basics: als je een zoekopdracht intypt in een zoekmachine, dan is het niet zo dat de zoekmachine op dat moment het Web af gaat zoeken. De zoekmachines beschikken allemaal over databases met daarin kopieën van de sites die de zoekmachine kent. Geef je een zoekopdracht, dan gaat de zoekmachine in de database kijken welke sites bij de zoekopdracht passen. Iedere zoekmachine heeft daarvoor zijn eigen methodiek. Vandaar dat de uitkomsten nog wel eens flink kunnen verschillen.

Maar hoe vult een zoekmachine die database? Dat gebeurt door zogenaamde “spiders”. Een spider is een stuk software, een programma dat sites “bezoekt” en de benodigde informatie opslaat in de database van de zoekmachines. Dit proces noemt men het “indexeren” van websites.

Een spider kan bijvoorbeeld de volgende data opslaan:

De naam van de files
De inhoud van metatags
De inhoud van de pagina zelf
Laatste Update datum
Links binnen de pagina’s
Uitgaande links op de pagina
Links naar die pagina
Etc.etc.etc.

Er zijn drie manieren waarop een spider je site kan vinden en bij je langs kan komen:

Door dat de spider links volgt van site naar site
Doordat een site in de databases van bijvoorbeeld DMOZ, Yahoo of Startpagina voorkomt.
Doordat een spider een speciale opdracht krijgt langs te komen, bijvoorbeeld omdat je een site hebt aanmeld bij de zoekmachines.

Wanneer een spider langs is geweest kun je dat vaak zien in je logfiles. Er staat dan bijvoorbeeld “crawler11.googlebot.com” (Google) of “drone7.sv.av.com” (Altavista) en ook kun je het zien aan het aantal keren dat de robot.txt is bekeken of in ieder geval opgevraagd is. We komen zo terug op wat een “robot.txt” is.

Maar hoe voorkom je dat je site door een spider geïndexeerd wordt?
Er zijn grofweg vijf methodes om de spiders – en dus ook de zoekmachines – buiten de deur te houden:

Robots.txt
Metatags: noindex nofollow
Niet linken en niet aanmelden
Files buiten de “root” plaatsen
Achter een wachtwoord plaatsen

1. Robots.txt

De belangrijkste en meest gangbare methode is de “robots.txt”. Dit is een eenvoudige textfile die je op je server kunt zetten en die door de zoekmachinespiders over het algemeen wordt bekeken om te zien welke directories en files hij niet mag indexeren. Als je in logfiles kijkt, zul je zien dat deze textfile regelmatig door zoekmachinespiders bekeken wordt.

In je robots.txt kun je bijvoorbeeld de volgende regels zetten:

User-agent: * Disallow:/prive/

Dit betekent dat de directory “prive” door de spiders (user agent) niet geïndexeerd mag worden.

Disallow:/prive/password.htm

Dit betekent dat de file “password.htm” niet toegevoegd mag worden.

Wees hier wel voorzichtig mee. Als je bijvoorbeeld geen directories maar alleen Disallow:/ aangeeft betekent het dat je hele site niet toegevoegd zal worden!

Ook is deze methode niet helemaal waterdicht. Je bent van de zoekmachine afhankelijk of ze zich er ook aan houden en het gebeurt soms dat zoekmachines (niet de grote en bekende) de files toch indexeren.

Meer over de robots.txt kun je op de volgende site vinden:
http://www.robotstxt.org/wc/norobots.html

2. Metatags: noindex nofollow

Een andere mogelijkheid is om in de “head” van de pagina een speciale metatag voor de zoekmachines toe te voegen. De head van een pagina is het eerste gedeelte van een HTML-bestand wat je normaal gesproken niet te zien krijgt in je browser wanneer je een pagina opvraagt.

In je head kun je bijvoorbeeld de volgende codes plaatsen:

<head> <meta name="robots" content="noindex, nofollow" /> </head>

robots = Dit is een metatag voor de zoekmachine robots
noindex = Deze pagina niet toevoegen aan de database
nofollow = De links op deze pagina niet verder volgen

Mogelijke Variaties:

index = Deze pagina WEL toevoegen aan de database
follow = De links op deze pagina WEL verder volgen

Zo kun je bijvoorbeeld een pagina niet laten indexeren, maar wel de links op een pagina laten volgen door dit te plaatsen:

<meta name="robots" content="noindex, follow" />

Wees ook met de robots-metatags erg voorzichtig. Ik heb wel eens meegemaakt dat een klant per ongeluk de regel met “noindex, nofollow” in alle pagina‘s van de site had geplakt, waardoor de gehele site niet werd toegevoegd. Oeps.

Overigens is het ook mogelijk om bijvoorbeeld alleen Google buiten de deur te houden door een boodschap toe te voegen die alleen door de “Googlebot” gebruikt wordt:

<meta name="googlebot" content="noindex, nofollow" />

3. Niet linken en niet aanmelden

Een andere mogelijkheid om buiten de zoekmachines te blijven is simpelweg je site bij wijze van spreken te verstoppen op het Internet.

Vrienden van mij houden hun portfolio bij op het Internet. Ze hebben een eigen domein, maar willen niet in de zoekmachines komen. Als ze naar potentiële opdrachten gaan mailen ze het adres wel. Tot dusver is ze het ook gelukt om buiten de zoekmachines te blijven, simpelweg door niet aan te melden en door te voorkomen dat er links naar ze geplaatst worden. Het werkt, tot dusver, maar geeft natuurlijk veel minder zekerheid. Bovendien geldt dit meteen ook voor een gehele site, wat niet altijd gewenst is.

4. Files buiten de “root” plaatsen

Passwordfiles, adresbestanden, et cetera: je wilt niet dat ze gevonden worden. Ik beheer een eigen nieuwsbrief en heb dus ook een directory die heet /nieuwsbrief/. Ik zie regelmatig dat mensen “/nieuwsbrief/adres.txt” in typen om te proberen of ik zo stom was dat bestand daar te plaatsen. Worldonline heeft ooit nog eens de voorpagina‘s gehaald door wel zo stom te zijn. Ook zijn er virussen die net als een soort van zoekmachinespider werken en op alle sites op het net kijken of er een file op staat dat bijvoorbeeld “mailform.pl” heet.

Ter beveiliging voor mensen die op goed geluk adressen intypen om te kijken of ze er zo bij kunnen komen en ter beveiliging voor sommige virus spiders kan het dus handig zijn deze files of een niet voor de hand liggende naam te geven, of ze buiten de root te plaatsen. De files zijn zo wel toegankelijk via bijvoorbeeld FTP, maar niet voor “gewone” mensen.

5. Achter een wachtwoord plaatsen

De enige echt werkende methode tegen toevoeging door de zoekmachines is de files achter een wachtwoord te plaatsen. Spiders hebben zo geen toegang tot files en ook ongewenste bezoekers kun je op deze manier enigszins buiten de deur houden. Het enige wat dan nog meer zekerheid biedt is files eenvoudigweg helemaal niet op het Internet te plaatsen... En soms is dat ook gewoon slimmer.

De voorgaande methodes geven namelijk geen enkele garantie dat zoekmachines files echt niet toevoegen of dat hackers zich geen toegang verschaffen tot files die je liever voor jezelf houdt. De meeste zoekmachines en vooral ook alle grote en bekende zoekmachines kun je wel eenvoudigweg met een robots.txt buiten de deur houden, maar het gebeurt gewoon dat er spiders langskomen die pagina’s indexeren waarvan je niet wilt dat ze gevonden worden. Het blijft dus oppassen.

Files verwijderen uit de zoekmachines

Sta je toch met files in de zoekmachines die er niet horen? Dan zijn er een aantal manieren om ze er uit te krijgen. Eigenlijk betekent dit eenvoudigweg de voorgaande zaken door te lopen. Met name door de robots.txt en/of de robots-metatags toe te voegen of aan te passen. Na verloop van tijd zullen je files dan vanzelf uit de zoekmachines verdwijnen.

Google geeft onder andere verder ook nog de volgende tips:

Pas het adres / URL van je website aan
Verwijder je Website
Verwijder losse pagina’s

Het kan soms wel even duren voordat documenten daadwerkelijk verwijderd worden uit de zoekmachine. Bij Google kan het zelfs zes tot acht weken duren, en bijvoorbeeld Google heeft als functie ook nog een “Cache” waar je reeds van sites verwijderde pagina’s toch kunt bekijken. Vandaar dat Google een speciale “Automatic URL Removal System” heeft die files sneller verwijdert. Je moet dan wel eerst je robots.txt aanpassen.

Tot slot: Andere filetypes?

Ik krijg wel eens vragen of dynamische files eindigend op .asp of eindigend op .php wel geïndexeerd worden door de zoekmachines. Je kunt hier eenvoudig achter komen door bijvoorbeeld in Google de volgende zoekopdracht in te typen:

"asp"

Je krijgt na eerst 10 domeinen vervolgens ruim 121 miljoen pagina’s met .asp.

Een kleine test: op nummer 11 staat dan “Welcome to Network Advertising Initiative” vermeld. In hun ASP pagina staat de tekst “Empowering Consumers with Knowledge and Choice” Als je die tekst in Google als opdracht plaatst wordt de pagina netjes gevonden.
Conclusie: ASP is in principe geen probleem.

Houd er ook rekening mee dat Google bijvoorbeeld ook .doc en .pdf files toevoegt. Het is dus niet zo dat je alleen met HTML-files het risico loopt dat ze in de zoekmachines belanden.

Meer lezen over de werking van zoekmachines kan onder andere op:

Jeroen van de Wiel

is Internet Marketeer met liefde voor zoekmachines, linkstrategieën, Viral Marketing en Virtual Communities.

Zijn dagelijks gegoogle en gefroogle vind je op www.Jeroen.com

Publicatiedatum: 24 april 2003

Naar Voren is op 18 juli 2010 gestopt met publiceren. De artikelen staan als een soort archief online. Het kan dus zijn dat de informatie verouderd is en dat er inmiddels veel betere of makkelijkere manieren zijn om je doel te bereiken.