Wet van Zipf
De wet van Zipf is een empirische wet, geformuleerd met behulp van wiskundige statistieken, vernoemd naar de taalkundige George Kingsley Zipf, die hem voor het eerst voorstelde.
De wet van Zipf stelt dat, gezien de grote hoeveelheid gebruikte woorden, de frequentie van elk woord omgekeerd evenredig is met de rangorde in de frequentietabel. Dus woord nummer n heeft een frequentie die evenredig is met 1/n.
Zo zal het meest frequente woord ongeveer twee keer zo vaak voorkomen als het tweede meest frequente woord, drie keer zo vaak als het derde meest frequente woord, enz. Bijvoorbeeld, in één voorbeeld van woorden in de Engelse taal is het meest voorkomende woord, "the", goed voor bijna 7% van alle woorden (69.971 op iets meer dan 1 miljoen). Trouw aan de Wet van Zipf is het woord "of" op de tweede plaats iets meer dan 3,5% van de woorden (36.411 gevallen), gevolgd door "en" (28.852). Er zijn slechts ongeveer 135 woorden nodig om de helft van een grote steekproef van woorden voor zijn rekening te nemen.
Dezelfde relatie komt voor in veel andere rangschikkingen, die geen verband houden met taal, zoals de bevolking van steden in verschillende landen, bedrijfsgroottes, inkomensrangschikkingen, enz. Het verschijnen van de verdeling in de rangschikking van steden naar bevolking werd voor het eerst opgemerkt door Felix Auerbach in 1913.
Het is niet bekend waarom de wet van Zipf voor de meeste talen geldt.
Vragen en antwoorden
V: Wat is de wet van Zipf?
A: De wet van Zipf is een empirische wet die stelt dat de frequentie van een woord in een grote steekproef omgekeerd evenredig is met zijn rang in de frequentietabel.
V: Wie heeft de wet van Zipf voorgesteld?
A: De wet van Zipf werd voor het eerst voorgesteld door George Kingsley Zipf, een taalkundige.
V: Hoe verklaart de wet van Zipf de woordfrequentie in een steekproef van Engelse woorden?
A: Volgens de wet van Zipf komt het meest frequente woord in een steekproef van Engelse woorden ongeveer twee keer zo vaak voor als het op één na meest frequente woord, drie keer zo vaak als het op twee na meest frequente woord, enz. Deze trend zet zich voort naarmate de rang van het woord afneemt.
V: Welk percentage van alle woorden bestaat uit het meest voorkomende woord in een steekproef van Engelse woorden?
Antwoord: In een steekproef van Engelse woorden is het meest voorkomende woord ("the") goed voor bijna 7% van alle woorden.
V: Wat is het verband tussen het aantal woorden dat nodig is voor de helft van de steekproef en de frequentie van die woorden?
Antwoord: Volgens de wet van Zipf zijn er slechts ongeveer 135 woorden nodig om de helft van het aantal woorden in een grote steekproef te verklaren.
V: Welke andere rangschikkingen vertonen de wet van Zipf?
A: Dezelfde relatie die de wet van Zipf beschrijft in de frequentie van woorden komt ook voor in andere ranglijsten die niets met taal te maken hebben, zoals de bevolkingsrang van steden in verschillende landen, de grootte van bedrijven en inkomensranglijsten.
V: Wie merkte het verschijnen van de verdeling op in de ranglijsten van steden naar inwonertal?
A: De verdeling in de ranglijsten van steden naar bevolking werd voor het eerst opgemerkt door Felix Auerbach in 1913.