Random forest
Random forest is een statistisch algoritme dat wordt gebruikt om gegevenspunten te clusteren in functionele groepen. Wanneer de gegevensverzameling groot is en/of er veel variabelen zijn, wordt het moeilijk de gegevens te clusteren omdat niet alle variabelen in aanmerking kunnen worden genomen; daarom kan het algoritme ook een zekere kans geven dat een gegevenspunt in een bepaalde groep thuishoort.
Stappen van het algoritme
Zo vindt de clustering plaats.
- Van alle gegevens wordt een subset genomen (trainingsset).
- Het algoritme clustert de gegevens in groepen en subgroepen. Als u lijnen zou trekken tussen de gegevenspunten in een subgroep, en lijnen die subgroepen verbinden tot groep enz. zou de structuur enigszins lijken op een boom. Dit wordt een beslisboom genoemd.
- Bij elke splitsing of knooppunt in dit cluster/boom/dendrogram worden door het programma willekeurig variabelen gekozen om te beoordelen of datapunten een nauwe relatie hebben of niet.
- Het programma maakt meerdere bomen a.k.a. een bos. Elke boom is anders omdat voor elke splitsing in een boom, variabelen willekeurig worden gekozen.
- Vervolgens wordt de rest van de dataset (niet de trainingsset) gebruikt om te voorspellen welke boom in de bossen de beste classificatie maakt van de datapunten (in de dataset is de juiste classificatie bekend).
- De boom met de meeste voorspellende kracht wordt door het algoritme als output getoond.
Met behulp van het algoritme
In een random forest-algoritme kan het aantal gegroeide bomen (ntree) en het aantal variabelen dat bij elke splitsing wordt gebruikt (mtry) met de hand worden gekozen; voorbeeldinstellingen zijn 500 bomen, 71 variabelen.