Wet van Zipf

De wet van Zipf is een empirische wet, geformuleerd met behulp van wiskundige statistieken, vernoemd naar de taalkundige George Kingsley Zipf, die hem voor het eerst voorstelde.

De wet van Zipf stelt dat, gezien de grote hoeveelheid gebruikte woorden, de frequentie van elk woord omgekeerd evenredig is met de rangorde in de frequentietabel. Dus woord nummer n heeft een frequentie die evenredig is met 1/n.

Zo zal het meest frequente woord ongeveer twee keer zo vaak voorkomen als het tweede meest frequente woord, drie keer zo vaak als het derde meest frequente woord, enz. Bijvoorbeeld, in één voorbeeld van woorden in de Engelse taal is het meest voorkomende woord, "the", goed voor bijna 7% van alle woorden (69.971 op iets meer dan 1 miljoen). Trouw aan de Wet van Zipf is het woord "of" op de tweede plaats iets meer dan 3,5% van de woorden (36.411 gevallen), gevolgd door "en" (28.852). Er zijn slechts ongeveer 135 woorden nodig om de helft van een grote steekproef van woorden voor zijn rekening te nemen.

Dezelfde relatie komt voor in veel andere rangschikkingen, die geen verband houden met taal, zoals de bevolking van steden in verschillende landen, bedrijfsgroottes, inkomensrangschikkingen, enz. Het verschijnen van de verdeling in de rangschikking van steden naar bevolking werd voor het eerst opgemerkt door Felix Auerbach in 1913.

Het is niet bekend waarom de wet van Zipf voor de meeste talen geldt.


AlegsaOnline.com - 2020 / 2021 - License CC3