HOME » BLOG » SEO » Hoe werkt een zoekmachine?

Hoe werkt een zoekmachine? 


 

Geschreven door Robin de Groot

Op maart zondag 22 maart 2020

Categorie: SEO

 

1. Crawlen
  1.1 Googlebot
  1.2 Hoe kan Google jouw pagina vinden?

2. Indexeren 
  2.1 Hoe indexeert de Googlebot jouw webpagina?
  
3. Het presenteren van resultaten 

 

In dit artikel lees je hoe een zoekmachine werkt. Hierbij behandel ik het proces van crawlen en indexeren - hetgeen waar een zoekmachine continu mee bezig is om te bepalen in hoeverre zoekresultaten relevant zijn voor een zoekopdracht. Tijdens het crawlen scant de Goolgebot voor de zoekmachine naar alle beschikbare informatie op webpagina's en websites en voegt dit toe tot een online catalogus waar de informatie wordt opgeslagen. Dit noemt met: Google-index.

In de Google-index wordt de informatie opgeslagen en en wordt opgeslagen waar de informatie over gaat. Dit proces wordt het indexeren genoemd. Tijdens dit proces wordt er bijvoorbeeld gekeken naar de zoekwoorden in de title tag, meta-omschrijving  en bepaalt Google of er sprake is van duplicate content of dat het om een canonieke pagina betreft. 

Wanneer Google deze informatie heeft verwerkt en beoordeeld, wordt het gepresenteerd in de zoekresultaten. Het bepalen van relevantie voor de zoekopdracht gebeurt tijdens dit proces waarbij Google meer dan 200 factoren in beschouwing neemt om de relevantie te bepalen voor een zoekresultaat. 

 

Crawlen


Als je wilt lezen wat een zoekmachine is, dan raden wij je aan om eerst dit artikel door te nemen. In dit artikel wordt er namelijk meer de diepte ingegaan met betrekking tot de werking van een zoekmachine. Wij zullen met name refereren aan de werking van Google, aangezien Google verreweg de meest gebruikte zoekmachine in Nederland en over de hele wereld.

Google werkt doorgaans volgens een vast stramien. Google heeft toegang tot een hele oceaan aan informatie dat bestaat uit webteksten, verschillende webpagina’s, NAW-gegevens van bedrijven, Pdf-bestanden, gescande boeken, openbare databases en nog veel meer andere bronnen. In dit artikel schenken wij met name aandacht aan de webpagina’s die Google scant en indexeert.

De eerste stap van Google is het crawlen van verschillende webpagina’s. De zoekmachine kan namelijk onmogelijk weten wat een relevante webpagina zou zijn voor de bezoeker, als Google niet weet wat er op een webpagina staat. Om erachter te komen wat er op een webpagina staat – is Google constant bezig met crawlen. Er is geen centraal register waarin alle webpagina’s staan, dus moet Google constant zoeken naar splinternieuwe pagina’s om deze toe te voegen aan een lijst met bekende pagina’s.

Veel pagina’s zijn al bekend bij Google, omdat Google al een keer de website heeft bezocht en gecrawld. Google blijft webpagina’s ook crawlen om te achterhalen of zij nieuwe content hebben bijvoorbeeld.

Wanneer Google op een bekende pagina merkt, dat deze pagina linkt naar een onbekende pagina, dan zal Google het opnemen in de database.

Googlebot


Het gehele crawlproces wordt uitgevoerd door Googlebot (ofwel: spider, robot of bot). Dit is de naam die de webcrawler van Google heeft gekregen. Googlebot is een webcrawler dat actief kan zijn op twee verschillende manieren. Namelijk: de desktopvariant en de mobiele variant.

De Googlebot Desktop stimuleert de ervaring die een bezoeker zou hebben op een desktop. De Googlebot Smartphone doet hetzelfde dus, alleen dan op een stimulatie van een mobiele smartphone.  Wanneer Googlebot een nieuwe of geüpdatete webpagina heeft gecrawld, wordt het toegevoegd aan de index van Google.  

Wat Google zelf te zeggen heeft over dit proces? Lees mee:

‘Het crawlproces van Google begint met een lijst van URL's van webpagina's, die wordt gegenereerd aan de hand van vorige crawlprocessen en die wordt uitgebreid met sitemapgegevens die worden geleverd door webmasters. Googlebot bezoekt al deze websites. Links die op elke pagina worden aangetroffen, worden toegevoegd aan de lijst van pagina's die moeten worden gecrawld. Nieuwe sites, wijzigingen in bestaande sites en verbroken links worden allemaal geregistreerd en worden gebruikt om de index van Google te updaten.’

 

Hoe kan Google jouw pagina vinden?


Het crawlproces is dus over het algemeen een geautomatiseerd systeem dat wordt uitgevoerd door een aantal computers van Google om miljarden pagina’s op het internet te doorzoeken. Google volgt bijvoorbeeld links vanaf andere sites of andere pagina’s naar nieuwe pagina’s en slaat het op in hun eigen index.

Stel: je hebt een algemene informatieve webpagina over pizza’s dat al vrij uitgebreid is en veel verkeer krijgt vanuit Google. Het is dus een webpagina dat al gecrawld is door Googlebot, want het krijgt verkeer vanuit Google. Op een gegeven moment besluit je een apart webpagina aan te maken dat gaat over de Pizza Napoletana.

Het zou Google enorm helpen om deze nieuwe webpagina over de Pizza Napoletana te crawlen, wanneer deze gelinkt wordt aan de algemene webpagina dat over pizza’s gaat. Deze pagina krijgt namelijk al verkeer vanuit Google en is ook bekend bij Google. Het zal de zoekmachine dan opvallen dat er een nieuwe pagina is dat over de Pizza Napoletana gaat – en Google zal deze pagina dan ook aan hun index toevoegen.

Maar je kunt ook Google een handje helpen door een sitemap in te dienen. Dit is een bestand waarin jij Google informatie verstrekt over de pagina’s, video’s en andere bestanden op jouw website en de onderlinge relaties tussen de pagina’s, video’s en andere bestanden. Hoe je een sitemap indient, lees je hier.

Indexeren



Het indexeren van een pagina begint wanneer Google een webpagina heeft ontdekt. Dus als Google opeens ziet dat jij een nieuwe webpagina hebt over de Pizza Napoletana, dan probeert Google te begrijpen waar de pagina inhoudelijk over gaat. De zoekmachine kijkt bijvoorbeeld naar de zoekwoorden die jij gebruikt in de webtekst van de pagina, de afbeeldingen die jij hebt gebruikt ter ondersteuning en eventuele video’s.

Wanneer Google alles heeft geanalyseerd, dan wordt het opgeslagen in de catalogus van Google. Nu probeert de zoekmachine om er één geheel van te maken en te begrijpen waar het over gaat. De catalogus is dus de Google-index waar wij het net over hadden. Je kunt de Google-index het beste beschrijven als een online database die wordt opgeslagen op belachelijk veel computers.

Hoe indexeert de Googlebot jouw webpagina?


Oké, de Googlebot heeft dus jouw webpagina bezocht, gecrawld en de data ervan in de Google-index geplaatst. Wat gebeurt er nu met alle data en hoe wordt het geïndexeerd? Er wordt nu gekeken naar alle woorden die de tekst bevat en waar deze woorden gelokaliseerd zijn.

Bijvoorbeeld het vermelden van zoekwoorden in de title tags of in de meta-beschrijving weegt zwaarder mee, dan het vermelden van zoekwoorden aan het einde van jouw webtekst. Dit komt omdat Googlebot in veel gevallen, niet alle content scant en verwerkt. Daarom help je Google enorm door zoekwoorden te vermelden op de meest belangrijke plekken.

Tijdens het proces van crawlen en indexeren, bepaalt de Googlebot of er sprake is van duplicate content of een canonieke pagina. Wanneer Google vindt dat een webpagina duplicaat is, dan wordt deze pagina veel minder vaak gecrawld.

Wanneer er sprake is van duplicate content, dan is één pagina toegankelijk via meerdere URL’s. Of er is sprake van verschillende pagina’s met heel vergelijkbare content. Wanneer Googlebot een pagina indexeert, dan kijkt het naar de primaire content van een pagina.

Als Googlebot een site aantreft met meerdere pagina’s die op elkaar lijken qua content, dan zal er ééntje aangewezen worden die volgens Googlebot het meest compleet en nuttig is. Deze pagina zal dan aangemerkt worden als een canonieke pagina. Canonieke pagina’s worden het vaakst gecrawld. Als je wilt controleren welke URL wordt beschouwd als een canonieke URL, dan kun je het beste de URL-inspectietool gebruiken van Google.

Het presenteren van resultaten 

 


Uiteindelijk draait het er grotendeels om waar jouw pagina gepositioneerd wordt in de zoekresultaten (SERP). Een gebruiker typt een zoekopdracht in de zoekmachine van Google. Bijvoorbeeld: ‘Pizza Napoletana’ en op basis van de zoekopdracht zal Google bepalen op basis van allerlei factoren en aspecten, welke zoekresultaat het meest relevant is voor de zoekopdracht.

Google zal voor de bezoeker graven in de Google-index en bepalen wat de meest geschikte zoekresultaten zijn om de bezoeker het beste te helpen. Google overweegt door middel van een algoritme wat de beste zoekresultaten zullen zijn voor de bezoeker.

De locatie van de gebruiker, of de gebruiker op een telefoon zoekt of op een desktop, de taal van de gebruiker spelen allemaal een rol bij het bepalen van een relevant antwoord. Wanneer iemand in Italie bijvoorbeeld zoekt op Pizza Napoletana dan zal de bezoeker andere resultaten krijgen, dan wanneer iemand in Enschede zoekt op Pizza Napoletana.

Google houdt ervan als een webpagina op orde is en snel wordt geladen. Als jij wilt weten of jouw webpagina aan de richtlijnen van Google voldoet, dan kun je het controleren op PadeSpeed Insights. Daarnaast vindt Google het belangrijk dat bezoekers een fijne gebruikerservaring hebben wanneer ze jouw website bezoeken en dat jouw website ook geschikt is voor mobiele apparaten. 

Als jouw webpagina voldoet aan de meeste criteria die Google stelt, dan maak je een kans om bij één van de bovenste zoekresultaten te verschijnen.

Reactie plaatsen

Reacties

Er zijn geen reacties geplaatst.