Statistiek

Statistiek is een tak van de toegepaste wiskunde die zich bezighoudt met het verzamelen, ordenen, analyseren, interpreteren en presenteren van gegevens. Beschrijvende statistieken vatten gegevens samen. Inferentiële statistieken doen voorspellingen. Statistiek helpt bij het bestuderen van vele andere gebieden, zoals wetenschap, geneeskunde, economie, psychologie, politiek en marketing. Iemand die in de statistiek werkt, wordt een statisticus genoemd. Het woord "statistiek" is niet alleen de naam van een studiegebied, maar verwijst ook naar getallen die worden gebruikt om gegevens of verbanden te beschrijven.

Geschiedenis

De eerste bekende statistieken zijn volkstellingsgegevens. De Babyloniërs hielden een volkstelling rond 3500 v.Chr., de Egyptenaren rond 2500 v.Chr. en de oude Chinezen rond 1000 v.Chr.

Vanaf de 16e eeuw ontwikkelden wiskundigen zoals Gerolamo Cardano de waarschijnlijkheidstheorie, waardoor statistiek een wetenschap werd. Sindsdien hebben mensen statistieken verzameld en bestudeerd over vele dingen. Bomen, zeesterren, sterren, rotsen, woorden, bijna alles wat geteld kan worden is onderwerp geweest van statistiek.

Verzamelen van gegevens

Voordat we de wereld kunnen beschrijven met statistieken, moeten we gegevens verzamelen. De gegevens die wij in de statistiek verzamelen, worden metingen genoemd. Nadat we gegevens hebben verzameld, gebruiken we een of meer getallen om elke waarneming of meting te beschrijven. Stel bijvoorbeeld dat we willen weten hoe populair een bepaald tv-programma is. We kunnen een groep mensen (een steekproef genoemd) kiezen uit de totale populatie van kijkers. Dan vragen we elke kijker in de steekproef hoe vaak hij naar de show kijkt. De steekproef is een gegeven dat je kunt zien, en de populatie is een gegeven dat je niet kunt zien (omdat je het niet aan elke kijker in de populatie hebt gevraagd). Een ander voorbeeld: als we willen weten of een bepaald geneesmiddel kan helpen de bloeddruk te verlagen, kunnen we het geneesmiddel een tijdje aan mensen geven en hun bloeddruk ervoor en erna meten.

Beschrijvende en inferentiële statistieken

Getallen die gegevens beschrijven die je kunt zien, worden beschrijvende statistieken genoemd. Getallen die voorspellingen doen over gegevens die je niet kunt zien, worden inferentiële statistieken genoemd.

Beschrijvende statistiek is het gebruik van getallen om kenmerken van gegevens te beschrijven. Bijvoorbeeld, de gemiddelde lengte van vrouwen in de Verenigde Staten is een beschrijvende statistiek die een kenmerk (gemiddelde lengte) van een populatie (vrouwen in de Verenigde Staten) beschrijft.

Zodra de resultaten zijn samengevat en beschreven, kunnen zij worden gebruikt voor voorspellingen. Dit wordt inferentiële statistiek genoemd. Een voorbeeld: de grootte van een dier is afhankelijk van vele factoren. Sommige van deze factoren worden door de omgeving bepaald, maar andere zijn het gevolg van overerving. Een bioloog zou daarom een model kunnen maken dat zegt dat er een grote waarschijnlijkheid is dat de nakomelingen klein van formaat zullen zijn als de ouders klein van formaat waren. Met dit model kan de grootte waarschijnlijk beter worden voorspeld dan door gewoon willekeurig te gokken. Testen of een bepaald geneesmiddel een bepaalde aandoening of ziekte kan genezen, wordt meestal gedaan door de resultaten van mensen die het geneesmiddel krijgen te vergelijken met die van mensen die een placebo krijgen.

Methoden

Meestal verzamelen we statistische gegevens door enquêtes of experimenten uit te voeren. Een opiniepeiling is bijvoorbeeld een vorm van onderzoek. We kiezen een klein aantal mensen en stellen hen vragen. Vervolgens gebruiken we hun antwoorden als de gegevens.

De keuze van de personen die voor een enquête of gegevensverzameling worden genomen is belangrijk, omdat zij rechtstreeks van invloed is op de statistieken. Wanneer de statistieken klaar zijn, kan niet meer worden bepaald welke individuen worden genomen. Stel dat we de waterkwaliteit van een groot meer willen meten. Als we monsters nemen naast de afvoer, zullen we andere resultaten krijgen dan wanneer de monsters worden genomen op een verafgelegen, moeilijk te bereiken, plaats van het meer.

Er zijn twee soorten problemen die zich vaak voordoen bij het nemen van monsters:

  1. Als er veel steekproeven zijn, zullen de steekproeven waarschijnlijk heel dicht liggen bij wat ze in de echte populatie zijn. Als er echter heel weinig steekproeven zijn, kunnen ze heel verschillend zijn van wat ze in de echte populatie zijn. Deze fout wordt een toevalsfout genoemd (zie Fouten en residuen in de statistiek).
  2. De individuen voor de steekproeven moeten zorgvuldig worden gekozen; meestal zullen zij willekeurig worden gekozen. Indien dit niet het geval is, kunnen de steekproeven sterk verschillen van wat zij in werkelijkheid in de totale populatie zijn. Dit geldt zelfs als een groot aantal steekproeven wordt genomen. Dit soort fouten wordt bias genoemd.

Fouten

We kunnen toevallige fouten verminderen door een grotere steekproef te nemen, en we kunnen een zekere vooringenomenheid vermijden door willekeurig te kiezen. Maar soms zijn grote aselecte steekproeven moeilijk te nemen. En er kan sprake zijn van vertekening als verschillende mensen niet worden ondervraagd, of weigeren onze vragen te beantwoorden, of als ze weten dat ze een nepbehandeling krijgen. Deze problemen kunnen moeilijk op te lossen zijn. Zie ook standaardfout.

Beschrijvende statistieken

Het midden van de gegevens vinden

Het midden van de gegevens wordt een gemiddelde genoemd. Het gemiddelde vertelt ons iets over een typisch individu in de populatie. Er zijn drie soorten gemiddelden die vaak worden gebruikt: het gemiddelde, de mediaan en de modus.

De onderstaande voorbeelden gebruiken deze voorbeeldgegevens:

 Naam | A    B    C    D    E    F    G    H    I    J ---------------------------------------------   score| 23 26 49 57 64 66 78 82 92

Mean

De formule voor het gemiddelde is

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\displaystyle {x}}={\frac {1}{N}}}}}}}}}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Waarbij x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\dots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} de gegevens zijn en N {\displaystyle N}{\displaystyle N} de populatiegrootte is. (zie Sigma Notatie).

Dit betekent dat je alle waarden optelt, en dan deelt door het aantal waarden.

In ons voorbeeld x ¯ = ( 23 + 26 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {{{x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6} {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Het probleem met het gemiddelde is dat het niets zegt over hoe de waarden verdeeld zijn. Waarden die heel groot of heel klein zijn, veranderen het gemiddelde sterk. In de statistiek kunnen deze extreme waarden meetfouten zijn, maar soms bevat de populatie echt zulke waarden. Bijvoorbeeld, als er in een kamer 10 mensen zijn die $10/dag verdienen en 1 die $1.000.000/dag verdient. Het gemiddelde van de gegevens is $90.918/dag. Ook al is het het gemiddelde bedrag, het gemiddelde is in dit geval niet het bedrag dat één enkele persoon verdient, en is dus nutteloos voor sommige doeleinden.

Dit is het "rekenkundig gemiddelde". Andere soorten zijn nuttig voor sommige doeleinden.

Mediaan

De mediaan is het middelste getal van de gegevens. Om de mediaan te vinden sorteren we de gegevens van het kleinste getal naar het grootste getal en kiezen dan het getal in het midden. Als er een even aantal gegevens is, zal er geen getal in het midden zijn, dus kiezen we de twee middelste en berekenen hun gemiddelde. In ons voorbeeld zijn er 10 gegevens, de twee middelste zijn "57" en "64", dus de mediaan is (57+64)/2 = 60,5. Een ander voorbeeld, zoals het inkomensvoorbeeld voor het gemiddelde, beschouw een kamer met 10 mensen die inkomens hebben van $10, $20, $40, $50, $60, $90, $100, en $1.000.000, de mediaan is $55 omdat $55 het gemiddelde is van de twee middelste getallen, $50 en $60. Als de extreme waarde van $ 1.000.000 buiten beschouwing wordt gelaten, is het gemiddelde $ 53. In dit geval ligt de mediaan dicht bij de waarde die wordt verkregen als de extreme waarde buiten beschouwing wordt gelaten. De mediaan lost het probleem van extreme waarden op, zoals beschreven in de definitie van gemiddelde hierboven.

Modus

De modus is het meest frequente gegeven. Bijvoorbeeld, de meest voorkomende letter in het Engels is de letter "e". We zouden zeggen dat "e" de modus is van de verdeling van de letters.

Bijvoorbeeld, als er in een kamer 10 mensen zijn met inkomens van $10, $20, $20, $40, $50, $60, $90, $90, $90, $100, en $1.000.000, dan is de modus $90 omdat $90 drie keer voorkomt en alle andere waarden minder dan drie keer voorkomen.

Er kan meer dan één modus zijn. Als er bijvoorbeeld in een kamer 10 mensen zijn met inkomens van $10, $20, $20, $20, $50, $60, $90, $90, $90, $100, en $1.000.000, dan zijn de modi $20 en $90. Dit is bi-modaal, of heeft twee modi. Bi-modaliteit komt zeer vaak voor en geeft vaak aan dat de gegevens de combinatie zijn van twee verschillende groepen. Zo heeft de gemiddelde lengte van alle volwassenen in de V.S. een bi-modale verdeling. Dit komt doordat mannen en vrouwen een verschillende gemiddelde lengte hebben van 1,763 m (5 ft 9 + 1⁄2 in) voor mannen en 1,622 m (5 ft 4 in) voor vrouwen. Deze pieken worden duidelijk wanneer beide groepen worden gecombineerd.

De modus is de enige vorm van gemiddelde die kan worden gebruikt voor gegevens die niet op volgorde kunnen worden gezet.

De spreiding van de gegevens vinden

Iets anders wat we kunnen zeggen over een reeks gegevens is hoe gespreid ze is. Een gebruikelijke manier om de spreiding van een gegevensverzameling te beschrijven is de standaardafwijking. Als de standaardafwijking van een reeks gegevens klein is, dan ligt het grootste deel van de gegevens heel dicht bij het gemiddelde. Is de standaardafwijking echter groot, dan wijkt een groot deel van de gegevens sterk af van het gemiddelde.

Als de gegevens het gebruikelijke patroon volgen dat de normale verdeling wordt genoemd, dan is het zeer nuttig om de standaardafwijking te kennen. Als de gegevens dit patroon volgen (we zouden zeggen dat de gegevens normaal verdeeld zijn), zullen ongeveer 68 van elke 100 metingen minder van het gemiddelde afwijken dan de standaardafwijking. Niet alleen dat, maar ongeveer 95 van elke 100 metingen zullen minder dan twee keer de standaardafwijking van het gemiddelde afwijken, en ongeveer 997 op 1000 zullen dichter bij het gemiddelde liggen dan drie standaardafwijkingen.

Andere beschrijvende statistieken

Wij kunnen de statistiek ook gebruiken om vast te stellen dat een bepaald percentage, percentiel, aantal of fractie van de mensen of dingen in een groep iets doen of in een bepaalde categorie passen.

Zo hebben sociale wetenschappers aan de hand van statistieken bijvoorbeeld ontdekt dat 49% van de mensen in de wereld man is.

Gerelateerde software

Ter ondersteuning van statistici is er veel statistische software ontwikkeld:

  • SAS Institute
  • SPSS (gemaakt door IBM)

AlegsaOnline.com - 2020 / 2021 - License CC3