Betrouwbaarheidsinterval

In de statistiek is een betrouwbaarheidsinterval een speciale vorm om een bepaalde parameter te schatten. Bij deze methode wordt een geheel interval van aanvaardbare waarden voor de parameter gegeven in plaats van één enkele waarde, samen met een waarschijnlijkheid dat de echte (onbekende) waarde van de parameter in het interval zal liggen. Het betrouwbaarheidsinterval is gebaseerd op de waarnemingen van een steekproef, en verschilt dus van steekproef tot steekproef. De waarschijnlijkheid dat de parameter in het interval ligt, wordt betrouwbaarheidsniveau genoemd. Heel vaak wordt dit gegeven in de vorm van een percentage. Het betrouwbaarheidsinterval wordt altijd samen met het betrouwbaarheidsniveau gegeven. Men spreekt wel over het "95% betrouwbaarheidsinterval". De eindpunten van het betrouwbaarheidsinterval worden betrouwbaarheidsgrenzen genoemd. Voor een bepaalde schattingsprocedure in een bepaalde situatie geldt dat hoe hoger het betrouwbaarheidsniveau is, hoe breder het betrouwbaarheidsinterval zal zijn.

De berekening van een betrouwbaarheidsinterval vereist in het algemeen veronderstellingen over de aard van het schattingsproces - het is in de eerste plaats een parametrische methode. Een veel voorkomende aanname is dat de verdeling van de populatie waaruit de steekproef afkomstig is, normaal is. Als zodanig zijn betrouwbaarheidsintervallen, zoals hieronder besproken, geen robuuste statistieken, hoewel wijzigingen kunnen worden aangebracht om de robuustheid toe te voegen.

Betekenis van de term "vertrouwen"

De term vertrouwen heeft een soortgelijke betekenis in de statistiek, als in het gewone gebruik. In het gewone spraakgebruik wordt een aanspraak op 95% vertrouwen in iets gewoonlijk opgevat als een aanduiding van vrijwel zekerheid. In de statistiek betekent een aanspraak op 95% betrouwbaarheid eenvoudigweg dat de onderzoeker één mogelijk interval heeft gezien uit een groot aantal mogelijke intervallen, waarvan negentien van de twintig de ware waarde van de parameter bevatten.

Praktisch voorbeeld

A factory assembly line fills margarine cups to a desired 250g +/- 5g

Een machine vult bekers met margarine. In het voorbeeld is de machine zo afgesteld dat de inhoud van de bekertjes 250 g margarine is. Aangezien de machine niet elk bekertje met precies 250 g kan vullen, vertoont de inhoud die aan de afzonderlijke bekertjes wordt toegevoegd enige variatie, en wordt deze beschouwd als een willekeurige variabele X. Aangenomen wordt dat deze variatie normaal verdeeld is rond het gewenste gemiddelde van 250 g, met een standaardafwijking van 2,5 g. Om te bepalen of de machine voldoende gekalibreerd is, wordt een steekproef van n = 25 bekertjes margarine willekeurig gekozen en worden de bekertjes gewogen. De gewichten van de margarine zijn X1, ..., X25, een aselecte steekproef uit X.

Om een indruk te krijgen van de verwachting μ, is het voldoende een schatting te geven. De aangewezen schatter is het steekproefgemiddelde:

μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. } {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.}

De steekproef toont werkelijke gewichten x1, ...,x25, met gemiddelde:

x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 gram . {\displaystyle {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250,2,{text{grams}}. } {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}.}

Als we nog eens een steekproef van 25 kopjes nemen, zouden we gemakkelijk waarden als 250,4 of 251,1 gram kunnen verwachten. Een steekproefgemiddelde van 280 gram zou echter uiterst zeldzaam zijn als de gemiddelde inhoud van de kopjes in feite dicht bij 250 gram ligt. Er bestaat een heel interval rond de waargenomen waarde 250,2 van het steekproefgemiddelde waarbinnen, indien het gemiddelde van de gehele populatie werkelijk een waarde in dit bereik heeft, de waargenomen gegevens niet als bijzonder ongewoon zouden worden beschouwd. Zo'n interval wordt een betrouwbaarheidsinterval voor de parameter μ genoemd. Hoe berekent men zo'n interval? De eindpunten van het interval moeten worden berekend uit de steekproef, dus zijn het statistieken, functies van de steekproef X1, ..., X25 en dus zelf toevalsvariabelen.

In ons geval kunnen wij de eindpunten bepalen door te bedenken dat het steekproefgemiddelde X uit een normaal verdeelde steekproef ook normaal verdeeld is, met dezelfde verwachting μ, maar met standaardafwijking σ/√n = 0,5 (gram). Door te standaardiseren krijgen we een willekeurige variabele

Z = X ¯ - μ σ / n = X ¯ - μ 0,5 {\displaystyle Z={\frac {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {X}}-\mu }{0,5}} {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}

afhankelijk van de te schatten parameter μ, maar met een standaardnormale verdeling die onafhankelijk is van de parameter μ. Het is dus mogelijk getallen -z en z te vinden, onafhankelijk van μ, waar Z tussenin ligt met een waarschijnlijkheid van 1 - α, een maatstaf voor hoe zeker we willen zijn. We nemen 1 - α = 0,95. We hebben dus:

P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. P(-z ≤ Z ≤ z)=1-alfa =0,95,} {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95.\,}

Het getal z volgt uit de cumulatieve verdelingsfunctie:

Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0.975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0.975 ) = 1.96 , {Displaystyle {begin{aligned}}Phi (z)&=P(Zleq z)=1-{tfrac {\alpha }{2}}=0.975,\[6pt]z&=Phi ^{-1}(ΦPhi (z))=Phi ^{-1}(0.975)=1.96,\eind{aligned}} {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}

en we krijgen:

0.95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1.96 ≤ X ¯ - μ σ / n ≤ 1.96 ) = P ( X ¯ - 1.96 σ n ≤ μ ≤ X ¯ + 1.96 σ n ) = P ( X ¯ - 1.96 × 0.5 ≤ μ ≤ X ¯ + 1.96 × 0.5 ) = P ( X ¯ - 0.98 ≤ μ ≤ X ¯ + 0.98 ) . {Displaystyle {begin{aligned}0.95&=1-alfa =P(-z) z)=P(-1.96}}(-1.96}).6pt]&=Pijl-links({bar {X}}-1.96{\frac {\sigma }{sqrt {n}}}\leq \mu \leq {bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}rechts)&=P\left({\bar {X}}-1,96 maal 0,5}leq \mu \leq {\bar {X}}+1.6pt]&=Pijl-links({balk {X}}-0.98} \leq {balk {X}}+0.98}.\leq {balk {X}}+0.98}).\end{aligned}} {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}

Dit kan worden geïnterpreteerd als: met een waarschijnlijkheid van 0,95 vinden we een betrouwbaarheidsinterval waarin we de parameter μ zullen vinden tussen de stochastische eindpunten

X ¯ - 0 . 98 {Displaystyle {X}}-0{.}98,} {\displaystyle {\bar {X}}-0{.}98\,}

en

X ¯ + 0.98. {\Bar {X}}+0.98.\,} {\displaystyle {\bar {X}}+0.98.\,}

Dit betekent niet dat er 0,95 kans is dat de parameter μ in het berekende interval voorkomt. Telkens wanneer de metingen worden herhaald, zal er een andere waarde voor het gemiddelde X van de steekproef zijn. In 95% van de gevallen zal μ tussen de op grond van dit gemiddelde berekende eindpunten liggen, maar in 5% van de gevallen zal dat niet het geval zijn. Het eigenlijke betrouwbaarheidsinterval wordt berekend door de gemeten gewichten in de formule in te voeren. Ons betrouwbaarheidsinterval van 0,95 wordt:

( x ¯ - 0.98 ; x ¯ + 0.98 ) = ( 250.2 - 0.98 ; 250.2 + 0.98 ) = ( 249.22 ; 251.18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,} {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}

Aangezien de gewenste waarde 250 van μ binnen het resulterende betrouwbaarheidsinterval ligt, is er geen reden om aan te nemen dat de machine verkeerd gekalibreerd is.

Het berekende interval heeft vaste eindpunten, waar μ tussen kan liggen (of niet). Deze gebeurtenis heeft dus kans 0 of 1. We kunnen niet zeggen: "met waarschijnlijkheid (1 - α) ligt de parameter μ in het betrouwbaarheidsinterval." We weten alleen dat door herhaling in 100(1 - α) % van de gevallen μ in het berekende interval zal liggen. In 100α % van de gevallen is dat echter niet het geval. En helaas weten we niet in welke van de gevallen dit gebeurt. Daarom zeggen we: "met betrouwbaarheidsniveau 100(1 - α) % ligt μ in het betrouwbaarheidsinterval. "

De figuur rechts toont 50 realisaties van een betrouwbaarheidsinterval voor een gegeven populatiegemiddelde μ. Als we willekeurig één realisatie kiezen, is de kans 95% dat we uiteindelijk een interval hebben gekozen dat de parameter bevat; we kunnen echter pech hebben en de verkeerde hebben gekozen. We zullen het nooit weten; we zitten vast aan ons interval.

De verticale lijnsegmenten vertegenwoordigen 50 realisaties van een betrouwbaarheidsinterval voor μ.Zoom
De verticale lijnsegmenten vertegenwoordigen 50 realisaties van een betrouwbaarheidsinterval voor μ.

Vragen en antwoorden

V: Wat is een betrouwbaarheidsinterval in de statistiek?


A: Een betrouwbaarheidsinterval is een speciaal interval dat wordt gebruikt om een parameter, zoals het populatiegemiddelde, te schatten, waarbij een reeks aanvaardbare waarden voor de parameter wordt gegeven in plaats van één enkele waarde.

V: Waarom wordt een betrouwbaarheidsinterval gebruikt in plaats van een enkele waarde?


A: Een betrouwbaarheidsinterval wordt gebruikt in plaats van een enkele waarde om rekening te houden met de onzekerheid van de schatting van een parameter op basis van een steekproef, en om een waarschijnlijkheid aan te geven dat de werkelijke waarde van de parameter binnen het interval ligt.

V: Wat is een betrouwbaarheidsniveau?


A: Een betrouwbaarheidsniveau is de waarschijnlijkheid dat de geschatte parameter binnen het betrouwbaarheidsinterval ligt, en wordt vaak gegeven als percentage (bijv. 95% betrouwbaarheidsinterval).

V: Wat zijn betrouwbaarheidsgrenzen?


A: Betrouwbaarheidsgrenzen zijn de eindpunten van een betrouwbaarheidsinterval, die het bereik van aanvaardbare waarden voor de geschatte parameter bepalen.

V: Hoe beïnvloedt het betrouwbaarheidsniveau het betrouwbaarheidsinterval?


A: Bij een bepaalde schattingsprocedure geldt: hoe hoger het betrouwbaarheidsniveau, hoe groter het betrouwbaarheidsinterval.

V: Welke veronderstellingen zijn vereist om een betrouwbaarheidsinterval te berekenen?


A: De berekening van een betrouwbaarheidsinterval vereist over het algemeen aannames over de aard van het schattingsproces, zoals de aanname dat de verdeling van de populatie waaruit de steekproef afkomstig is normaal is.

V: Zijn betrouwbaarheidsintervallen robuuste statistieken?


A: Vertrouwensintervallen, zoals hieronder besproken, zijn geen robuuste statistieken, hoewel er aanpassingen kunnen worden gedaan om robuustheid toe te voegen.

AlegsaOnline.com - 2020 / 2023 - License CC3