Spearmans rangcorrelatiecoëfficiënt
In de wiskunde en statistiek is Spearman's rank correlatiecoëfficiënt een maat voor de correlatie, vernoemd naar de maker, Charles Spearman. Het is in het kort geschreven als de Griekse letter rho ( ρ {\\playstyle \rho } ) of soms als r s {\playstyle r_s} . Het is een getal dat laat zien hoe nauw twee gegevensreeksen met elkaar verbonden zijn. Het kan alleen worden gebruikt voor gegevens die op volgorde kunnen worden gezet, zoals de hoogste naar de laagste.
De algemene formule voor r s {displaystyle r_{s} is ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {displaystyle \cfrac {6}}{n(n^2}-1)}}. .
Bijvoorbeeld, als je gegevens hebt over hoe duur verschillende computers zijn, en gegevens over hoe snel de computers zijn, kun je zien of ze verbonden zijn, en hoe nauw ze verbonden zijn, met behulp van r s {displaystyle r_{s}. .
Uitwerken
Stap één
Om r s {\\playstyle r_s} uit te werken moet je elk stukje data eerst rangschikken. We gaan het voorbeeld uit de intro van computers en hun snelheid gebruiken.
Dus, de computer met de laagste prijs zou rang 1 zijn. Diegene die hoger is dan dat zou 2 hebben. Dan gaat het omhoog tot het allemaal gerangschikt is. Je moet dit doen met beide sets van gegevens.
Prijs ($) | R a n k 1 {\displaystyle Rank_{1}} | Snelheid (GHz) | R a n k 2 {\displaystyle Rank_{2}} | |
A | 200 | 1 | 1.80 | 2 |
B | 275 | 2 | 1.60 | 1 |
C | 300 | 3 | 2.20 | 4 |
D | 350 | 4 | 2.10 | 3 |
E | 600 | 5 | 4.00 | 5 |
Stap twee
Vervolgens moeten we het verschil tussen de twee rangen vinden. Dan vermenigvuldig je het verschil op zichzelf, wat 'squaring' wordt genoemd. Het verschil heet d, en het getal dat je krijgt als je kwadratuur d, heet d 2. .
R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d{\\\\\\\\\\} | d 2... d 2... d 2... d 2... d 3... |
1 | 2 | -1 | 1 |
2 | 1 | 1 | 1 |
3 | 4 | -1 | 1 |
4 | 3 | 1 | 1 |
5 | 5 | 0 | 0 |
Stap drie
Tel hoeveel gegevens we hebben. Deze data heeft een rangorde van 1 tot 5, dus we hebben 5 stuks data. Dit nummer heet n {\\\playstyle n} .
Stap vier
Gebruik tenslotte alles wat we tot nu toe hebben uitgewerkt in deze formule: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\cfrac {6 \cfrac ^2}}{n(n^2}-1)}}. .
∑ d 2 {displaystyle d^2} betekent dat we het totaal nemen van alle getallen die in de kolom d 2 {displaystyle d^2} stonden. . Dit is omdat ∑ totaal betekent.
Dus, ∑ d 2 is 1 + 1 + 1 + 1 + 1, wat 4 is. De formule zegt vermenigvuldigen met 6, wat 24 is.
n ( n 2 - 1 ) {\\\\\\\an5× ( 25 - 1 ) {\\\\\an5× (25-1)} is 120.
Dus, om erachter te komen hoe het met de r_s is. We doen gewoon 1 - 24 120 = 0,8 {\cfrac {24}{120}}=0,8} .
Daarom is de rangcorrelatiecoëfficiënt van Spearman 0,8 voor deze set van gegevens.
Wat betekenen de cijfers
r s {displaystyle r_{s}} geeft altijd een antwoord tussen -1 en 1. De getallen daartussen zijn als een schaal, waarbij -1 een heel sterk verband is, 0 geen verband, en 1 ook een heel sterk verband. Het verschil tussen 1 en -1 is dat 1 een positieve correlatie is, en -1 een negatieve correlatie. Een grafiek van gegevens met een r s {displaystyle r_{s}} waarde van -1 zou eruit zien als de getoonde grafiek, behalve de lijn en de punten zouden van linksboven naar rechtsonder gaan.
Bijvoorbeeld, voor de gegevens die we hierboven deden, was r s {\displaystyle r_{s} 0.8. Dus dit betekent dat er een positieve correlatie is. Omdat het dicht bij 1 ligt, betekent het dat het verband sterk is tussen de twee datasets. Dus, we kunnen zeggen dat die twee datasets verbonden zijn, en samen omhoog gaan. Als het -0,8 was, kunnen we zeggen dat het verband bestaat en als de ene omhoog gaat, gaat de andere omlaag.
Als twee getallen hetzelfde zijn
Soms zijn er bij het rangschikken van gegevens twee of meer getallen die hetzelfde zijn. Als dit gebeurt in r s {\playstyle r_{s} nemen we het gemiddelde of gemiddelde van de gelederen die hetzelfde zijn. Deze worden gebonden gelederen genoemd. Om dit te doen, rangschikken we de gebonden nummers alsof ze niet gebonden zijn. Dan tellen we alle rangen op die ze zouden hebben, en delen ze door hoeveel het er zijn. Bijvoorbeeld, zeggen dat we rangschikken hoe goed verschillende mensen het deden in een spellingstest.
Testscore | Rang | Rang (met gebonden) |
4 | 1 | 1 |
6 | 2 | 2 + 3 + 4 3 = 3 {\tfrac {2+3+4}{3}=3} |
6 | 3 | 2 + 3 + 4 3 = 3 {\tfrac {2+3+4}{3}=3} |
6 | 4 | 2 + 3 + 4 3 = 3 {\tfrac {2+3+4}{3}=3} |
8 | 5 | 5 + 6 2 = 5,5 {\tfrac {5+6}{2}=5,5} |
8 | 6 | 5 + 6 2 = 5,5 {\tfrac {5+6}{2}=5,5} |
Deze getallen worden op precies dezelfde manier gebruikt als de normale rangen.
Gerelateerde pagina's
Vragen en antwoorden
V: Wat is de rangcorrelatiecoëfficiënt van Spearman?
A: De rangcorrelatiecoëfficiënt van Spearman is een correlatiemaat die aangeeft hoe nauw twee reeksen gegevens met elkaar verbonden zijn. Hij kan alleen worden gebruikt voor gegevens die in volgorde kunnen worden gezet, zoals van hoog naar laag.
V: Wie creëerde de rangcorrelatiecoëfficiënt van Spearman?
A: Charles Spearman creëerde de rangcorrelatiecoëfficiënt van Spearman.
V: Hoe wordt de algemene formule voor de rangcorrelatiecoëfficiënt van Spearman geschreven?
A: De algemene formule voor de rangcorrelatiecoëfficiënt van Spearman wordt geschreven als ρ = 1 - 6∑d2/n(n2-1).
V: Wanneer moet u de rangcorrelatiecoëfficiënt van Spearman gebruiken?
A: U moet de rangcorrelatiecoëfficiënt van Spearman gebruiken wanneer u wilt zien hoe nauw twee reeksen gegevens met elkaar verbonden zijn en of ze überhaupt verbonden zijn.
V: Met welk type gegevens werkt het?
A: Het werkt met elk type gegevens dat in volgorde kan worden gezet, zoals van hoog naar laag.
V: Kunt u een voorbeeld geven waarin u deze maatregel zou gebruiken?
A: Een voorbeeld waarbij u deze maatstaf zou kunnen gebruiken, is als u gegevens hebt over hoe duur verschillende computers zijn, en gegevens over hoe snel de computers zijn, dan zou u kunnen zien of zij gekoppeld zijn, en hoe nauw zij gekoppeld zijn met behulp van r_s.