Steekproef (statistiek): betekenis, soorten, representativiteit & fouten

Alles over steekproeven in statistiek: betekenis, typen, representativiteit en veelvoorkomende fouten — leer hoe je betrouwbare, bias‑vrije steekproeven ontwerpt.

Schrijver: Leandro Alegsa

In de statistiek is een steekproef een deel van een populatie dat geselecteerd wordt om eigenschappen van die populatie te onderzoeken. De steekproef wordt zorgvuldig gekozen: zij moet de hele populatie zo eerlijk mogelijk vertegenwoordigen, zonder systematische vertekening. Steekproeven zijn nodig omdat populaties zo groot kunnen zijn dat het onderzoeken van alle individuen (een volledige telling of census) vaak niet mogelijk of praktisch is.

Wanneer een steekproef wordt behandeld als een gegevensverzameling, wordt deze vaak weergegeven met hoofdletters zoals {\displaystyle X} en {\displaystyle Y}, waarbij de elementen worden weergegeven met kleine letters (bijvoorbeeld {\displaystyle x_{3}}), en de steekproefgrootte wordt weergegeven met de letter n.

Waarom steekproeven?

Steekproeven maken het mogelijk om op efficiënte wijze conclusies te trekken over een grote populatie. In veel toepassingen, van het onderzoeken van de vervuiling van een meer tot opiniepeilingen, is het bekijken of meten van elk individueel element onhaalbaar. De keuze van waar en hoe de gegevens worden verzameld heeft grote invloed op de uitkomst: watermonsters uit verschillende delen van een meer kunnen bijvoorbeeld tot verschillende conclusies leiden over de kwaliteit van het water.

Algemene principes

Als algemene regel geldt dat steekproeven willekeurig of op zijn minst systematisch moeten zijn. Dit betekent idealiter dat de kans of waarschijnlijkheid om een individu te selecteren gelijk is aan de kans om een ander individu te selecteren. In de praktijk worden steekproeven echter volgens een welomschreven procedure genomen: een reeks regels of stappen die nauwkeurig worden gevolgd om reproduceerbaarheid en transparantie te waarborgen. Toch kan er altijd enige vertekening overblijven; bijvoorbeeld bij telefonische enquêtes worden mensen die niet opnemen niet bereikt, wat neutrale steekproeven bemoeilijkt. Een statisticus kan dan nadenken over het meten of schatten van die vertekening en manieren bedenken om haar te corrigeren.

Soorten steekproeven

  • Volledige steekproef (census): omvat alle elementen die aan de onderzoekscriteria voldoen (zoals vermeld in de oorspronkelijke tekst).
  • Onbevooroordeelde of representatieve steekproef: wordt geproduceerd door uit een volledige steekproef elementen te selecteren op een manier die niet afhankelijk is van eigenschappen van de elementen (zoals in de oorspronkelijke tekst genoemd).
  • Eenvoudige aselecte steekproef: elk element van de populatie heeft dezelfde kans om geselecteerd te worden; selectie gebeurt willekeurig zonder verdere indeling.
  • Gesystematiseerde steekproef: elementen worden geselecteerd volgens een vaste regel (bijv. elke 10e naam op een lijst), vaak gebruikt bij grote lijsten als een praktisch alternatief voor volledig willekeurige selectie.
  • Gelaagde (stratified) steekproef: de populatie wordt in strata (groepen) verdeeld op basis van relevante kenmerken (leeftijd, regio, opleiding) en binnen elk stratum wordt aselect getrokken. Dit verhoogt de representativiteit voor belangrijke subgroepen.
  • Cluster- en meertrapssteekproef: de populatie wordt eerst verdeeld in clusters (bijv. scholen, buurten), clusters worden willekeurig gekozen en binnen clusters worden vervolgens elementen geselecteerd. Efficiënt bij verspreide populaties.
  • Quotasteekproef: onderzoekers vullen vooraf bepaalde quota voor subgroepen in (niet volledig aselect), vaak gebruikt in marktonderzoek.
  • Convenience (gemaks) steekproef: selectie van makkelijk bereikbare respondenten (bijv. passanten op straat). Snel en goedkoop, maar vatbaar voor zware vertekening.
  • Snowball sampling: gebruikt bij moeilijk bereikbare groepen; respondenten verwijzen andere deelnemers. Handig voor kwalitatief onderzoek maar moeilijk generaliseerbaar.

Representativiteit en vertekening

Representativiteit betekent dat de steekproef dezelfde kenmerkenverdeling heeft als de populatie voor de vragen die je wilt beantwoorden. Gebrek aan representativiteit leidt tot bias (systematische fout). Veelvoorkomende bronnen van vertekening zijn:

  • Non-response bias: bepaalde groepen antwoorden minder vaak, waardoor ze ondervertegenwoordigd zijn.
  • Coverage bias: delen van de populatie ontbreken in het steekproefkader (bijv. iedereen zonder internetadres bij een online enquête).
  • Measurement error: onjuiste metingen of slecht geformuleerde vragen die resultaten vertekenen.
  • Sampling bias: fouten in de selectiemethode die sommige individuen systematisch meer kans geven om geselecteerd te worden.

Methoden om vertekening te verminderen of te corrigeren omvatten stratificatie, weging (post-stratification), respons-opvolging en het zorgvuldig ontwerpen van vragenlijsten. Soms worden meerdere methoden gecombineerd, bijvoorbeeld een gelaagde steekproef met weging achteraf.

Fouten en onzekerheid

Statistiek maakt onderscheid tussen samplingfouten en niet-samplingfouten:

  • Samplingfout: de variatie die ontstaat doordat je slechts een deel van de populatie observeert. Deze fout kan worden gekwantificeerd met concepten als de standaardfout en de marge van onzekerheid (margin of error). In het algemeen geldt: grotere steekproeven verkleinen de samplingfout.
  • Niet-samplingfout: omvat alle andere fouten, zoals meetfouten, non-response en verwerkingsfouten. Deze zijn vaak moeilijker te kwantificeren en kunnen systeemfouten veroorzaken die niet verdwijnen met een grotere steekproefgrootte.

Bij peilingen wordt de onnauwkeurigheid vaak weergegeven als een marge bij een bepaald betrouwbaarheidsniveau (bijv. 95%). Daarnaast wordt in complexe steekproefdesigns de design effect gebruikt om de efficiëntie van het ontwerp te vergelijken met een eenvoudige aselecte steekproef; dit beïnvloedt de effectieve steekproefgrootte.

Grootte van de steekproef

De keuze van de steekproefgrootte n hangt af van:

  • de gewenste precisie (marge van fout),
  • het gekozen betrouwbaarheidsniveau (bijv. 95%),
  • de verwachte variabiliteit in de populatie (bij dichotome uitkomsten: p(1−p)),
  • praktische beperkingen (tijd, kosten) en designfactoren (bijv. clustering verhoogt benodigde n).

Voor grote populaties geldt vaak dat na een bepaald punt extra respondenten weinig extra precisie opleveren. Bij kleine populaties wordt soms de finite population correction toegepast.

Praktische overwegingen en tips

  • Randomisatie is cruciaal waar mogelijk: het voorkomt veel vormen van systematische vertekening.
  • Voer, indien mogelijk, een pilotstudie uit om vragen, meetinstrumenten en logistica te testen.
  • Zorg voor goede documentatie van de procedures zodat andere onderzoekers de steekproef kunnen reproduceren of beoordelen.
  • Registratie van responspercentages en vergelijking van respondenten met de populatie helpt bij het beoordelen van representativiteit.
  • Gebruik weging of imputatie om bekende verschillen tussen de steekproef en populatie te corrigeren, maar wees voorzichtig: zulke correcties kunnen de variantie vergroten en aannames introduceren.
  • Bij metingen met instrumenten (bv. het meten van de snelheid van het licht of het wegen van metalen) is het belangrijk het meetsysteem te kalibreren en de meetonzekerheid te karakteriseren; herhaalde metingen vormen dan zelf een steekproef en dragen bij aan de inschatting van de foutmarge.

Voorbeelden

Een paar illustratieve voorbeelden:

  • Als men de vervuiling van een meer wil onderzoeken, bepaalt de keuze van locaties en dieptes waar watermonsters worden genomen de representativiteit van de resultaten; stratificatie naar gebied (oevers, midden, diepte) kan helpen een betere schatting van de gemiddeldes en extremen te krijgen.
  • Bij verkiezingspeilingen moet men rekening houden met non-response, veranderende opkomst, en het feit dat sommige groepen moeilijk telefonisch of online te bereiken zijn. Weighting en post-stratificatie op demografische variabelen zijn standaardpraktijken om resultaten te corrigeren, maar ze kunnen geen ontbrekende informatie volledig compenseren als responssystemen sterk verschillen.
  • Laboratoriummetingen (bv. het wegen van een metalen staafje) resulteren in een reeks licht verschillende waarden door instrumentale en omgevingsinvloeden; statistische analyse van die steekproef geeft een schatting van de werkelijke waarde en de meetonzekerheid.

Samenvatting

Een goede steekproef is fundamenteel voor betrouwbare statistische conclusies. Belangrijke aspecten zijn een helder steekproefkader, een passende selectiemethode, voldoende steekproefgrootte, en aandacht voor mogelijke bronnen van vertekening. Waar perfect representatieve steekproeven niet haalbaar zijn, moeten onderzoekers transparant zijn over beperkingen en, waar mogelijk, maatregelen nemen (zoals weging of aanvullende dataverzameling) om de kwaliteit van de inferenties te verbeteren.

 

Grenspolitie op zoek naar illegale drugs met een speciaal getrainde hond: Als ze elke tiende auto controleren, nemen ze een onbevooroordeelde steekproef.  Zoom
Grenspolitie op zoek naar illegale drugs met een speciaal getrainde hond: Als ze elke tiende auto controleren, nemen ze een onbevooroordeelde steekproef.  

Gestratificeerde bemonstering

Als een populatie duidelijke subpopulaties heeft, moet elk van de subpopulaties worden bemonsterd. Dit wordt gestratificeerde steekproeftrekking genoemd. Gestratificeerde steekproeftrekking wordt ook wel gestratificeerde aselecte steekproef genoemd. Gestratificeerde steekproeven worden vaak weergegeven als proporties, zoals procenten (%).

Stel dat een experiment is opgezet om de inkomens van volwassenen te bemonsteren. Uiteraard kan het inkomen van afgestudeerden verschillen van dat van niet-afgestudeerden. Stel nu dat het aantal mannelijke afgestudeerden 30% bedraagt van het totale aantal mannelijke volwassenen (denkbeeldige cijfers). Dan zou u ervoor zorgen dat 30% van de totale steekproef bestaat uit willekeurig gekozen mannelijke afgestudeerden, en 70% van het totaal uit mannelijke niet-afgestudeerden. Herhaal dit proces voor vrouwen, omdat het percentage vrouwelijke afgestudeerden verschilt van dat van mannen. Dat levert een steekproef op van de volwassen bevolking gestratificeerd naar geslacht en opleiding. De volgende stap is het verdelen van elk van uw deelpopulaties naar leeftijdsgroep, omdat (bijvoorbeeld) afgestudeerden op middelbare leeftijd meer inkomen kunnen verwerven dan niet-afgestudeerden.

Een ander type gestratificeerde steekproef heeft betrekking op variatie. Hier worden grotere steekproeven genomen uit de meer variabele subpopulaties, zodat de samenvattende statistieken, zoals de gemiddelden en standaardafwijkingen, betrouwbaarder zijn.


 

Gerelateerde pagina's



 

Vragen en antwoorden

V: Wat is een steekproef in de statistiek?


A: In de statistiek is een steekproef een deel van een populatie die zorgvuldig is gekozen om de hele populatie eerlijk en zonder vooringenomenheid te vertegenwoordigen.

V: Waarom zijn steekproeven nodig?


A: Steekproeven zijn nodig omdat populaties zo groot kunnen zijn dat het tellen van alle individuen niet mogelijk of praktisch is. Daarom begint het oplossen van een probleem in de statistiek gewoonlijk met een steekproef.

V: Hoe wordt een steekproef voorgesteld?


A: Wanneer een steekproef wordt behandeld als een gegevensverzameling, wordt hij vaak weergegeven met hoofdletters zoals X en Y, waarbij de elementen ervan worden weergegeven met kleine letters (bijv. x3) en de steekproefgrootte wordt weergegeven met de letter n.

V: Wat moeten steekproeven zijn?


A: Als algemene regel geldt dat steekproeven aselect moeten zijn, wat betekent dat de kans of waarschijnlijkheid om een individu te selecteren gelijk is aan de kans om een ander individu te selecteren. In de praktijk worden willekeurige steekproeven altijd genomen volgens een welomschreven procedure.

V: Kan er in steekproeven een vertekening blijven bestaan?


A: Zelfs bij gebruik van welomschreven procedures voor steekproeven kan er enige bias in de steekproef achterblijven als gevolg van factoren zoals wie telefoontjes beantwoordt of wie in bepaalde straten loopt bij het verzamelen van meningen voor een voorspelling van een verkiezingspeiling. In dergelijke gevallen kan het moeilijk zijn om volledig neutrale steekproeven te verkrijgen, maar statistici kunnen meten hoeveel vooringenomenheid aanwezig blijft.

V: Zijn er verschillende soorten steekproeven?


A: Ja, er zijn verschillende soorten steekproeven, waaronder volledige steekproeven die alle elementen bevatten die bepaalde eigenschappen hebben, en onvertekende/representatieve steekproeven waarbij elementen uit volledige steekproeven worden geselecteerd zonder afhankelijk te zijn van hun eigenschappen. De manier waarop steekproeven worden verkregen, samen met de grootte ervan, zal een invloed hebben op de manier waarop gegevens worden bekeken.


Zoek in de encyclopedie
AlegsaOnline.com - 2020 / 2025 - License CC3