Google SMITH algoritme presteert beter dan BERT
26 januari 2021 
in SEO
3 min. leestijd

Google SMITH algoritme presteert beter dan BERT

Een tijdje terug bracht Google een onderzoeksrapport uit over het SMITH algoritme dat voor lange zoekopdrachten beter presteert dan het BERT algoritme. Het nieuwe algoritme begrijpt passages in documenten op dezelfde manier waarop BERT woorden en zinnen begrijpt. Hierdoor is het algoritme in staat om langere documenten te begrijpen.

Gebruikt Google het SMITH algoritme?

Over het algemeen zegt Google niet welk specifieke algoritme wordt gebruikt. Onderzoekers zeggen dat SMITH beter werkt dan BERT. Maar totdat Google officieel bevestigt dat SMITH wordt gebruikt om passages van websites te begrijpen, is het nog speculeren of het algoritme al gebruikt wordt.

Wat is het SMITH algoritme?

SMITH is een nieuw model van Google om te proberen volledige documenten te begrijpen. Modellen als BERT zijn getraind om woorden te begrijpen binnen de context van zinnen.

Heel simpel gezegd is het SMITH model getraind om passages binnen de context van een document te begrijpen.

Algoritmes zoals BERT zijn getraind op datasets om random verborgen woorden te raden op basis van de context van een zin. Het SMITH algoritme is getraind om te voorspellen wat de volgende alinea wordt.

Volgens onderzoekers helpt deze training het algoritme om grotere documenten beter te begrijpen dan het BERT algoritme kon. Het BERT algoritme beperkt zich tot het begrijpen van korte documenten.

Langere input tekst

BERT kan documenten met een beperkte lengte begrijpen. SMITH presteert juist beter wanneer een document langer is. Doordat het SMITH algoritme iets kan wat BERT niet kan, is het een interessant model. Het nieuwe model gaat BERT niet zomaar vervangen. Het SMITH model is juist een aanvulling op het BERT model. SMITH kan worden gebruikt voor de documenten die te lang zijn voor BERT.

Lange zoekopdrachten gematcht aan lange content

Tot nu toe was er nog een kloof in het onderzoek naar manieren om lange zoekopdrachten te matchen met lange documenten. Dat probleem kunnen de onderzoekers dankzij het SMITH algoritme oplossen.

Details van Google’s SMITH algoritme

In het onderzoek naar het SMITH algoritme wordt een pre-training model gebruikt dat vergelijkbaar is met BERT en vele andere algoritmes.

Pre-training gebeurt wanneer een algoritme wordt getraind met een dataset. Bij het pre-trainen van dit soort algoritmes verbergen de onderzoekers random woorden in een zin. Het algoritme probeert te voorspellen wat er onder de verborgen woorden staat.

Wanneer een zin wordt geschreven als “Old McDonald had a___”, voorspelt een volledig getraind algoritme ‘farm’ als het ontbrekende woord.

Wanneer het algoritme leert, gaat het na verloop van tijd minder fouten maken met de training data.

Blokken met zinnen worden verborgen in pre-training

Voor de SMITH pre-training verborgen onderzoekers niet slechts woorden, maar langere stukken tekst. Dat is een belangrijk deel van het SMITH algoritme. De relaties tussen blokken met zinnen worden gebruikt om te begrijpen waar een document over gaat.

“Wanneer de input tekst lang is, zijn zowel relaties tussen woorden in een blok als relaties tussen verschillende blokken met zinnen in een document belangrijk, om te begrijpen waar de content over gaat”, schrijven de onderzoekers in hun verslag.

“Daarom verbergen we random geselecteerde woorden en alinea’s tijdens de pre-training van het model.”

Het SMITH algoritme leert de relatie tussen woorden en gaat vervolgens een stap verder om de context van blokken met zinnen te begrijpen en inzicht te krijgen in hoe ze met elkaar in verband staan in een langer document.

Waarom het SMITH onderzoeksverslag belangrijk is

Het voordeel van het lezen van onderzoekspapers in plaats van patenten, is dat onderzoeksrapporten meer details geven over of een voorgesteld model beter presteert dan bestaande modellen.

Veel onderzoekers concluderen hun verslag met de boodschap dat er meer onderzoek nodig is. Vaak houdt het in dat de experimenten met het algoritme veelbelovend zijn, maar dat ze nog niet klaar zijn om in de praktijk toe te passen.

Een kleiner percentage onderzoeksrapporten beweert dat de resultaten beter zijn dat de nieuwste technieken die momenteel gebruikt worden. Het is de moeite waard om naar dit soort rapporten te kijken, omdat de kans groot is dat ze onderdeel worden van het Google algoritme.

Totdat Google uitdrukkelijk bevestigt dat het SMITH algoritme in gebruik is, weten we niet zeker of het model al gebruik wordt. Doordat de onderzoekers duidelijk bevestigen dat het SMITH model beter presteert dan BERT en de onderzoekers niet aangeven dat er eerst meer onderzoek nodig is, is het te verwachten dat het SMITH model in de toekomst (of nu al) deel uitmaakt van het Google algoritme.

Bron: Search Engine Journal

Over de schrijver
Wij van de IMU zijn er om jou als ondernemer te helpen groeien via het internet. Dat doen we door de beste tips en nieuwste trends te delen via onze e-books, blogs, video’s, cursussen, podcast en evenementen. Daarnaast is het onze missie om gelijkgestemde ondernemers te verbinden binnen onze IMU Community. Ook faciliteren we je - middels onze software - om je website bezoekers, conversie, funnels, automatisering en daarmee je vrijheid als ondernemer te vergroten.
Reactie plaatsen