Seiten

  • Startseite
  • Impressum
  • Inhalt
  • MINT
  • Sprache
  • Soziales
  • Geist
  • Kunst
  • Gemischtes
  • Gedichte

Sonntag, 24. April 2016

Die Länge des n-thäufigsten Worts


Deutsch

Sortiert man die Wör­ter ei­ner Spra­che nach ih­rer Häufigkeit, so stellt man fest, dass sich die Länge in Abhängigkeit von die­ser verändert: häufige Wör­ter sind kurz; rare Wör­ter sind län­ger. Man kann also ei­ne Funkti­on her­lei­ten, wel­che die (vermutli­che) Länge ei­nes Worts in Abhängigkeit sei­nes Rangs be­stimmt.
Zu­nächst ein paar Aus­schnitte aus ei­ner Ta­bel­le mit den 7726 häufigs­ten Wört­ern des Deut­schen und Eng­li­schen:
EnglischDeutsch
RangWortLängeMedianWortLängeMedian
1the33der33
2of23die33
3and33und33
4a13in23
5in22den33
6to22von33
7it22zu23
8is22das33
9to22mit33
10was32sich43
100our33sagte53
101made43Er23
102got33gibt43
103after53alle43
104think53DM23
105between73diesem63
106many43seit44
107years53muß33
108er23wurden64
109ve23beim44
110those53doch44
1000risk45bezeichnet106
1001interests95Weil46
1002September95Ihnen56
1003dark45zur Zeit86
1004event55voll46
1005thousand85deutscher96
1006involved85Worten66
1007written75plötzlich96
1008park45müßte56
1009198845Vertrag76
1010returned85Staatsanwaltschaft186
7717enforce77Frühling87
7718defining87aufhören87
7719goodbye77T17
7720meaningful107osteuropäischen157
7721Gregory77sozialistische147
7722S17Verhaftung107
7723pine47Hahn47
7724borrowed87mutmaßliche117
7725bow37Optionen87
7726disturbing107Bremerhaven117

Die Rohda­ten stammen fürs Eng­li­sche aus dem Bri­tish Natio­nal Corpus und fürs Deut­sche aus dem Wort­schatz der Universität Leipzig.
Dass die tatsächl­i­che Länge ei­nes Worts nicht be­rech­net wer­den kann, ist klar; zu­mal je nach Liste die Wör­ter etwas an­ders ange­ordnet sind. Aber der Medi­an al­ler Län­gen bis zum n-ten Wort ist auch ein Maß für die un­gefähre Länge des n-ten Worts selbst. Und diesen sollte man doch be­rech­nen können.
Zu­grun­de liegt die Formel für den In­formati­ons­ge­halt:
I(n)=⌈logA(1/p(n))⌉
Dabei gibt n den Rang des Worts, A die Größe des Alphabets und p(n) den An­teil des n-thäufigs­ten Worts in der Spra­che an.
Da die Wör­ter ei­ner Spra­che ei­ner Zipf-Ver­teilung un­terliegen, be­rech­net sich p(n) wie folgt:
p(n)=1/(HN·n)
Dabei ist HN die N-te Zahl der harmoni­schen Reihe und N die Größe des Wort­schat­zes. Das Deut­sche besitzt etwa 5.300.000 Wör­ter; das Eng­li­sche besitzt etwa 620.000 Wör­ter (s. Die Welt). Dar­aus folgen die sprach­spezifi­schen Kon­stan­ten:
H5300000≈16   und   H620000≈14
Somit ergibt sich fürs Eng­li­sche:
I(n)=⌈logA(14·n)⌉
Ein großes Pro­blem ergibt sich nun, wenn man die Größe des Alphabets ange­ben muss. Mit A=26 (im Folgen­den wird kei­ne Un­ter­scheidung zwi­schen Klein- und Großbuchsta­ben gemacht) könnte man nur rech­nen, wenn tatsächl­ich alle Buchstabenkombi­nationen Wör­ter der Spra­che wären, was aber nicht der Fall ist.
Auf der Seite morewords.com kann man sich die eng­li­schen Wör­ter nach Länge sortiert anzei­gen las­sen. Zählt man sie, so erhält man folgen­de Ta­bel­le:
LängeMöglichkeitenWörterMindestalphabetgröße
26769610
317.57697810
44,6·1053.9198
51,2·1078.6727
63,1·10815.2905
78,0·10923.2085
82,1·101128.5584
95,4·101225.0114
101,4·101420.4043
113,7·101515.5813
129,5·101611.3823
132,5·10187.8352
146,5·10195.1342
151,7·10213.1982
164,4·10221.9382
171,1·10241.1252
182,9·10255942
197,7·10263282
202,0·10281592
215,2·1029622
221,3·1031292
233,5·1032132
249,1·103392
252,4·103522
266,2·103600
271,6·103822
284,2·103911

Für die, die es in­ter­es­siert, kommt hier das verwende­te Skript:
<?php set_time_limit(30*60); for($n = 2; $n < 29; ++$n){ $sum = 0; for($c = 0; $c < 26; ++$c){ $url = "https://www.morewords.com/wordsbylength/".$n.chr(97+$c)."/"; $file = file_get_contents($url); $matches = array(); if(preg_match("/\<h3\>(.+) words?\<\/h3\>/", $file, $matches) == 1){ $sum += $matches[1]; } } echo $n." | ".pow(26, $n)." | ".$sum." | ".ceil(pow($sum, 1/$n))."<br>"; flush(); ob_flush(); } ?>

Im Groben gilt: Je mehr Buchsta­ben ei­ne Spra­che hat, desto kürzer sind ihre Wör­ter. Trotzdem steigt die Wortlänge im Deut­schen schnel­ler als im Eng­li­schen. An­ders aus­gedrückt: Das Deut­sche hat zwar mehr Buchsta­ben als das Eng­li­sche, verwendet aber pro Länge we­ni­ger Kombi­nationen.
Durch Aus­probie­ren kann man herausfin­den, dass I(n) der Realität am nächs­ten ist, wenn man fürs Eng­li­sche mit A=7 und fürs Deut­sche mit A=6 rech­net. Si­cher ist, dass A sowohl von der Größe des Alphabets als auch dem An­teil von verwende­ten Kombi­nationen pro Länge abhängt. Wie ge­nau, weiß ich nicht. Allerdings erhält man die ge­nann­ten Wer­te für A, wenn man mit folgen­der Formel rech­net:
A=⌈2·26/8,23⌉=7   bzw.   A=⌈2·30/11,66⌉=6
Die Kom­mazah­len im Nenner sind die Wortdurch­schnittslän­gen der jeweiligen Spra­che und von der Seite ravi.io ent­nommen. Ob der Quo­ti­ent die korrekte Beziehung aus­drückt oder ob das nur Zufall ist, muss erst mal offen blei­ben.
Es folgen noch zwei mit OpenOffice erstellte Diagramme, je ei­nes für Deutsch und für Eng­lisch, wo man den tatsächl­i­chen (d. h. in den Korpora gemessenen) Medi­an (orange) und die be­rech­ne­te Länge bzw. den be­rech­ne­ten Medi­an (blau) se­hen kann:

Keine Kommentare:

Kommentar veröffentlichen