Data trainees voorspellen winnaar Champions League via machine learning [Update April 2022]
Enkele weken geleden werd de aftrap voor het grootste voetbalfeest van het jaar gegeven: de Champions League. Toevallig schoot rond hetzelfde moment ook het gloednieuwe data traineeship van Ormit Talent uit de startblokken. Wij grepen deze kans aan om onze passie voor data en voetbal te combineren in een ambitieus dataproject: voorspel de winnaar van de Champions League 2021-2022. Wij? Data trainees Jonathan Kemel en Tom Martens, nice to meet you!
Update [April 2022]
Volgende maand is de finale van de Champions League dus het leek ons een goed moment om eens te kijken naar onze voorspellingen.
Als we de groepsfases vergelijken zien we dat we 12 van de 16 teams die doorgingen naar de knock out fase correct hebben voorspeld. Als we kijken naar de rangschikking binnen de groepsfase zien we dat we de ranking van 18 van de in totaal 32 ploegen juist hadden ingeschat.
Maar zegt dit iets over welke ploeg gaat winnen?
De volgende fase van het toernooi bestaat uit de knock-outfase. Op het moment van dit artikel wisten we niet wie er door zou gaan en wat de loting van elk team zou zijn. Daarom hebben we zelf een willekeurige loting opgesteld met de teams waarvan we voorspelden dat ze zouden doorgaan. We slaagden erin 5 van de 8 teams die doorgingen naar de kwartfinales correct te bepalen. In de halve finales 2 van de 4, waarbij Villareal de grootste verrassing is omdat zij er in slaagden Bayern München in de kwartfinale uit te schakelen. Maar we moeten nog uitvinden of we erin geslaagd zijn om de winnaar van de Champions League 2022 juist te voorspellen. Aangezien Manchester City nog steeds in de running is, is dit nog steeds mogelijk!
Onze opdracht
Wint Chelsea voor de tweede keer op rij, maakt Manchester City zijn titelambitie eindelijk waar of krijgen we een verrassing van formaat? De volgende Champions League-winnaar voorspellen, doe je niet met de natte vinger. Het succes van een ploeg hangt af van meerdere factoren zoals hun eerdere prestaties, marktwaarde en ratings. Maar ook de bevolkingsgrootte en rijkdom van het land waarin de ploeg speelt, heeft haar impact. Daarom kozen we voor twee benaderingen: Jonathan baseerde zich op de recente resultaten, Tom ontwikkelde twee modellen op basis van het ploegprofiel. Voor onze data-analyses maakten we gebruik van verschillende machine learning technieken.
Jonathan’s model: data prediction op basis van recente ploegresultaten
Toms model: data prediction op basis van ploegprofiel
Wie zijn wij?
Jonathan Kemel
Ik ben… een datageek met een groot hart voor de mens achter de data. Ik hecht veel waarde aan de input van collega’s en geloof dat het geheel altijd meer is dan de som van de delen.
Mijn sterkste dataskill is… het visualiseren van data waardoor de resultaten in één oogopslag helder worden voor anderen.
Andere assets zijn… mijn analytische geest en datadriven mindset. Cijfers en data naar begrijpelijke modellen en inzichten vertalen? Daar krijg ik een kick van!
Daarnaast… ben ik een echte sportfreak, op én naast het veld. Tom verslaan tijdens een spelletje FIFA? Been there, done that, nailed it.