Spider

Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.

De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze een voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden.

Spiders dienen zich tijdens hun rondgang correct te gedragen omdat ze pagina's sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt.

Robots.txt

Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van spiders te beïnvloeden. Zo kan in de hoofdmap van de website een tekstbestandje genaamd 'robots.txt' worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven.^[1]

Sommige spiders negeren robots.txt. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver de IP-adressen van de betreffende spiders blokkeren. Robots die zich goed gedragen houden zich aan de regels die in robots.txt staan.

Meta-tags

Het is mogelijk in de header van individuele webpagina's meta-tags op te nemen voor robots. Als deze meta-tag niet aanwezig is, gaat de robot uit van de standaardwaarde:

<meta name="robots" content="index,follow">

Het content-element kent de volgende variaties:

index / noindex – wel of niet indexeren van de pagina^[2]
follow / nofollow – wel of niet volgen van hyperlinks op de pagina
noarchive – de pagina niet lokaal archiveren
Unavailable_after - Na een bepaalde periode mag de pagina niet meer geïndexeerd worden
Noimageindex - De afbeeldingen op de pagina mogen niet geïndexeerd worden
Notranslate - De zoekmachine mag geen vertaalde versie van de pagina weergeven in de zoekresultaten
Nosnippet - Er mogen geen fragmenten in de zoekresultaten weergeven worden voor deze pagina
Indexifembedded: Met deze tag, kan content worden geïndexeerd wanneer het in een Iframe of andere HTML tags staat. Zelfs als het een noindex tag heeft.

Index en Follow hebben niet direct effect, standaard wordt een pagina geïndexeerd en worden de hyperlinks op een pagina gevolgd.

Useragent

Een spider meldt zich aan met een bepaalde useragent. Bijvoorbeeld, de spiders van Google melden zich met useragent Googlebot of om compleet te zijn 'Googlebot/2.X (+http://www.googlebot.com/bot.html)'. Bedrijven die spiders inzetten doen er goed aan om uit te leggen wat ze beogen met de spider en welk gedrag deze vertonen. De grotere zoekmachines doen dat al.

Spiders worden niet alleen ingezet om data te verzamelen voor zoekmachines. Er zijn spiders actief die op soortgelijke wijze het internet afstruinen op zoek naar e-mailadressen. Een e-mailadres heeft een standaard opmaak en is daardoor goed herkenbaar. De verzamelde e-mailadressen worden vervolgens verkocht om er spam naar te verzenden.

Noot

↑ Zie bijvoorbeeld het tekstbestand robots.txt van Wikipedia.
↑ MediaWiki biedt de mogelijkheid om een pagina voor dit doel te voorzien van een magic word.

[1] Zie bijvoorbeeld het tekstbestand robots.txt van Wikipedia.

[2] MediaWiki biedt de mogelijkheid om een pagina voor dit doel te voorzien van een magic word.

[1]

[2]