Steekproef

In de statistiek maakt een steekproef deel uit van een populatie. De steekproef wordt zorgvuldig gekozen. Ze moet de hele populatie eerlijk vertegenwoordigen, zonder vooringenomenheid. De reden dat er steekproeven nodig zijn, is dat de populaties zo groot kunnen zijn dat het tellen van alle individuen niet mogelijk of praktisch is.

Daarom begint het oplossen van een probleem in de statistiek meestal met het nemen van steekproeven. Bij het nemen van steekproeven gaat het erom te kiezen welke gegevens voor latere analyse moeten worden gebruikt. Stel bijvoorbeeld dat de vervuiling van een meer moet worden geanalyseerd voor een studie. Afhankelijk van de plaats waar de watermonsters zijn genomen, kunnen de studies verschillende resultaten hebben. Als algemene regel geldt dat de monsters willekeurig moeten worden genomen. Dit betekent dat de kans of waarschijnlijkheid van het selecteren van een individu gelijk is aan de kans van het selecteren van een ander individu.

In de praktijk worden er altijd steekproeven genomen door middel van een welomschreven procedure. Een procedure is een set regels, een opeenvolging van stappen die op papier worden opgeschreven en tot op de letter worden gevolgd. Toch kan er een zekere vertekening in de steekproef blijven bestaan. Denk aan het probleem van het ontwerpen van een steekproef om de uitslag van een verkiezing te voorspellen. Alle bekende methoden hebben hun problemen, en de resultaten van een verkiezing zijn vaak anders dan voorspellingen op basis van een steekproef. Als u meningen verzamelt met behulp van telefoons of door mensen op straat te ontmoeten, heeft de steekproef altijd een vooroordeel. Daarom is in dit soort gevallen nooit een volledig neutrale steekproef mogelijk. In zulke gevallen zal een statisticus nadenken over hoe de hoeveelheid bias te meten, en er zijn manieren om dit in te schatten.

Een soortgelijke situatie doet zich voor wanneer wetenschappers een fysieke eigenschap meten, bijvoorbeeld het gewicht van een stuk metaal, of de snelheid van het licht. Als we een voorwerp met gevoelige apparatuur wegen, krijgen we minutieus andere resultaten. Geen enkel meetsysteem is ooit perfect. We krijgen een reeks schattingen, die elk een meting zijn. Dit zijn monsters, met een zekere mate van fout. Statistieken zijn bedoeld om fouten te beschrijven, en analyses uit te voeren op dit soort gegevens.

Er zijn verschillende soorten monsters:

Grenspolitie op zoek naar illegale drugs met een speciaal getrainde hond: Als ze elke tiende auto controleren, nemen ze een onbevooroordeeld monster.
Grenspolitie op zoek naar illegale drugs met een speciaal getrainde hond: Als ze elke tiende auto controleren, nemen ze een onbevooroordeeld monster.

Gestratificeerde bemonstering

Als een populatie duidelijke subpopulaties heeft, dan moet elk van de subpopulaties worden bemonsterd. Dit wordt gelaagde bemonstering genoemd. Gestratificeerde bemonstering wordt ook wel gestratificeerde aselecte steekproef genoemd. Gestratificeerde bemonstering wordt vaak weergegeven als percentage, zoals percentage (%).

Stel dat er een experiment wordt opgezet om de inkomens van volwassenen te bemonsteren. Het is duidelijk dat het inkomen van afgestudeerden kan verschillen van dat van niet-gegradueerden. Stel nu dat het aantal mannelijke afgestudeerden 30% van het totale aantal mannelijke volwassenen bedraagt (denkbeeldige cijfers). Dan zou je ervoor zorgen dat 30% van de totale steekproef bestaat uit willekeurig gekozen mannelijke afgestudeerden, en 70% van het totaal uit mannelijke niet-graduaten. Herhaal dit proces voor vrouwen, want het percentage vrouwelijke afgestudeerden is anders dan dat van mannen. Dat geeft een steekproef van de volwassen bevolking, gestratificeerd naar geslacht en opleiding. De volgende stap zou zijn om elk van je subpopulaties te verdelen naar leeftijdsgroep, omdat (bijvoorbeeld) afgestudeerden meer inkomen zouden kunnen krijgen ten opzichte van niet-gegradueerden op middelbare leeftijd.

Een ander type gelaagd monster gaat over variatie. Hier worden grotere steekproeven genomen uit de meer variabele subpopulaties, zodat de samenvattende statistieken zoals de gemiddelden en standaardafwijkingen betrouwbaarder zijn.


AlegsaOnline.com - 2020 / 2021 - License CC3