Squawka en Whoscored vergeleken

Gepubliceerd op 25 oktober 2014 | Door Redactie | Overige

header-whoscored-en-squawka
Het is nog niet zo lang geleden dat ik als een kloostermonnik voetbalwedstrijden aan het turven was op passingscombinaties, schoten op doel en andere spelvariabelen. De invoer en uitdraai van deze informatie in statistische programma`s was een weekendbesteding. Tegenwoordig is veel voetbaldata gewoon via websites als Squawka en Whoscored vrij beschikbaar. In de dataverzameling bespaar je hierdoor met een plak en knip optie ongelooflijk veel tijd. Uurtjes die je kwijt was aan dataverzameling kunnen nu weer gereserveerd worden voor het ouderwets analyseren van data.

Squawka en Whoscored worden door hun verscheidenheid aan beschrijvende data en grafieken wel eens vaker geraadpleegd. Zij hebben een eigen ratingsysteem voor spelers. Squawka maakt gebruik van een performance score waarin spelers die een uitmuntende wedstrijd spelen rond de 140 ratingspunten krijgen terwijl spelers die een slechte prestatie afleveren uitkomen op een bodem van rond de -120 ratingspunten. Whoscored hanteert daarentegen een wat meer overzichtelijk rapportcijfer op een schaal van 1 tot en met 10.

Hoewel ze hetzelfde proberen te meten (uitkomst is speler-prestatie) is de berekening van deze rating onder de motorkap van beide sites wat verschillend. Toch zou je op zich mogen verwachten dat het eindconstruct ‘prestatierating’ in de berekening niet te veel verschilt (ze willen tenslotte hetzelfde meten nietwaar?). Vanuit dit perspectief is het interessant om te kijken naar de opbouw en samenhang in ratings van deze twee sites. De centrale onderzoeksvraag luidt dan ook:

`In hoeverre is er een samenhang in rating tussen Squawka en Whoscored?’

Onderzoekseenheden

In totaal zijn er 921 voetballers (N=921) onder de loep genomen. Het gaat in dit onderzoek om 42 wedstrijden van Eredivisieclub NAC en zijn directe tegenstanders. Er is bewust gekozen om alleen basisspelers mee te nemen in het onderzoek, omdat deze meer speelminuten maken.

Analyse

Een vraag die ik eerst wil beantwoorden is hoe de ratings zijn opgebouwd. Het komt erop neer dat de vele spelvariabelen (schoten, goals, voorzetten, etc) uiteindelijk in interactie tot elkaar een bepaald gewicht toegewezen krijgen. Daarbij is het logisch dat een doelpunt een groter gewicht heeft in het onderliggende algoritme dan bijvoorbeeld een interceptie. Een voetballer die scoort, wordt dus beloond met extra ratingpunten.

Een gele of rode kaart voor een voetballer zijn in de berekening weer minpunten. Al die spelvariabelen op een interactieve hoop zorgen voor een eindrating per speler.

Een eerste stap in de analyse is het beschrijven hoe vaak een bepaalde rating voorkomt. Als we kijken naar de onderstaande frequentiegegevens van beide ratings dan vallen vooral een aantal zaken op. Het gemiddelde van Whoscored is met 6,95 (M=6,95, STD= 0,782) echt hoog. In dit ratingsysteem moet je dus als voetballer behoorlijk wat moeite verrichten om bijvoorbeeld onder een 6 gemiddeld terecht te komen.
Een kleine 8 procent van de 921 spelers kregen een onvoldoende van deze website. Aan de andere kant van het spectrum scoort maar 9 procent een cijfer hoger dan een 8. De rating laat in vaktermen een duidelijke gepiekte (lepto) vorm zien in plaats van een normale verdeling. Het gemiddelde van Squawka ligt in dit onderzoek op 12,39. De frequentieverdeling heeft op zich een zelfde opbouw als Whoscored.

diagram 1 rating whoscored

Diagram 1: Rating Whoscored.com

diagram 2 Rating Squawka.com

Diagram 2: Rating Squawka.com

In beantwoording van de centrale vraagstelling kijken we naar de onderlinge correlatie van de ratings van beide sites: hoe zit het met de samenhang tussen de Squawka performance-score en de rating die Whoscored gebruikt? De correlatie tussen beide ratings is met 0,814 sterk te noemen (r=.814, p < .01). De onderstaande figuur noemt men ook wel een spreidingsdiagram. Op de horizontale as staan de ratings `Whoscored` en op de verticale as de ratings van `Squawka`. Elke cirkel in deze puntenwolk stelt een voetballer voor gemeten op beide ratings.[caption id="attachment_6144" align="aligncenter" width="599"]diagram 3 rating whoscored en squawka Diagram 3: Onderlinge correlatie Whoscored en Squawka[/caption]

Hoe meer zo`n puntenwolk op een rechte lijn lijkt, des te sterker de overeenkomst (correlatie) tussen de ratings. Als de punten exact op een rechte lijn zouden liggen dan zouden Squawka en Whoscored precies dezelfde eindrating uitdelen. Daar hebben we in desbetreffende spreidingsdiagram niet mee te maken. Er zit een grote overlap, maar er blijft nog steeds 34 procent onverklaarde variantie over.

Ik kan me voorstellen dat de echte data crunchers ook wel geïnteresseerd zijn in waar de significante verschillen zitten tussen Squawka en Whoscored. Met een multiple regressie is deels (omdat er geen beschikking is over volledige data) antwoord te geven op deze vraag. In de onderstaande output staan de significante spelvariabele weergegeven geordend van belangrijk (boven) naar minder belangrijk (beneden). De niet significante spelvariabelen zijn buiten beschouwing gelaten.

In de onderstaande output kunnen we bij de B waarden aflezen wat de invloed is van bijvoorbeeld een schot op doel. Bij Whoscored krijg je voor elk schot op doel 0,384 ratingpunten extra terwijl Squawka 13,950 bijtikt op de teller. Dat er bij Squawka zoveel meer bij komt heeft ook te maken dat zij een rating gebruiken van ongeveer -120 tot 140. Blijkbaar is schot op doel bij beide websites een belangrijke spelvariabele. Ook balcontact van spelers en sleutelpasses zijn zaken die positief geëvalueerd worden. 2 sleutelpasses en een goal geeft bij Whoscored 1,142 extra. Bij Squawka krijg je voor hetzelfde 31,21 punten op de bonuskaart. Een voetballer die in de wedstrijd een fout maakt met een goal als gevolg levert bij Whoscored -1,057 in. In andere woorden: ‘wat doet een stijging van 1 eenheid in de spelvariabele met de afhankelijke variabele rating?’.

tabel 1 variabele ratings

Tabel 1: Variabele ratings Whoscored en Squawka

In tabel 1 zijn de gegevens van de verschilanalyse terug te vinden. Uiteindelijk zijn er van 24 onderzochte spelvariabelen er 8 waarop Squawka en Whoscored (waarschijnlijk) verschillen. Het probleem wat eerst opgelost moest worden was dat beide een verschillende standaard neerzetten qua rating. Squawka heeft een range van -120 tot ongeveer +140 terwijl Whoscored een 1 tot en met 10 schaal gebruikt. Door een statistische trucje (Z scores) maken we beide ratings gelijk, zodat het mogelijk is om ze te vergelijken.

In tabel 2 staan de verschilscores (Z score Whoscored – Z score Squawka) weergegeven. Spelers krijgen na een goal, balcontact, overtreding en een goede voorzet bij Whoscored significant meer punten in vergelijking tot Squawka. Squawka beloont de passes, totaal aantal voorzetten, overtredingen tegen en intercepties weer significant positiever.

tabel 2 z scores

Tabel 2: Verschilscores ( Z score Whoscored – Z score Squawka)

Conclusie

De verdeling van Whoscored is redelijk gepiekt! Met als gevolg dat 83% van de voetballers een score heeft tussen de 6 en de 8. De Squawka rating kampt (doch wel ietsje minder) naar mijn inzien met hetzelfde probleem. Samengevat: de frequentieverdelingen hebben te weinig spreiding en zijn gepiekt. De ratings worden eigenlijk tegen elkaar aan gepropt. In antwoord op de centrale onderzoeksvraag kan het volgende gezegd worden. De correlatie (0,81) tussen beiden is op zich goed te noemen. Hoewel ze hetzelfde proberen te meten is er in het onderliggend algoritme wel sprake van een verschil. In de regressieanalyse is een best mogelijk voorspelling van de onderliggende spelvariabele waar te nemen. Het is een ruime indicatie welke weging beide websites gebruiken.

Over de auteur

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *