summaryrefslogtreecommitdiff
path: root/script/BuildLangModelLogs/LangSloveneModel.log
diff options
context:
space:
mode:
Diffstat (limited to 'script/BuildLangModelLogs/LangSloveneModel.log')
-rw-r--r--script/BuildLangModelLogs/LangSloveneModel.log254
1 files changed, 214 insertions, 40 deletions
diff --git a/script/BuildLangModelLogs/LangSloveneModel.log b/script/BuildLangModelLogs/LangSloveneModel.log
index bd280af..310078e 100644
--- a/script/BuildLangModelLogs/LangSloveneModel.log
+++ b/script/BuildLangModelLogs/LangSloveneModel.log
@@ -1,53 +1,227 @@
= Logs of language model for Slovene (sl) =
- Generated by BuildLangModel.py
-- Started: 2021-03-21 14:46:51.759879
+- Started: 2022-12-14 18:14:43.766544
- Maximum depth: 4
-- Max number of pages: 1
+- Max number of pages: 200
== Parsed pages ==
-Ljubljana (revision 5468628)
-1689 (revision 4230028)
+Ljubljana (revision 5845001)
+25. junij (revision 5725754)
+Anton Vodnik (revision 5756756)
+Seznam občin v Sloveniji (revision 5812503)
+Protireformacija (revision 5597661)
+Marija Vogelnik (revision 5530732)
+Academia operosorum Labacensis (revision 5228146)
+Wayback Machine (revision 5793624)
+Zdravstveni dom Ljubljana (revision 5830659)
+Henrika Langus (revision 5754885)
+Kranj (revision 5841490)
+Zdravstveni dom Ljubljana Bežigrad (revision 1248325)
+Seznam slovenskih slikarjev (revision 5852050)
+URL (revision 5769695)
+15. julij (revision 5791850)
+Barok (revision 5810195)
+Avstro-Ogrska (revision 5751429)
+5. junij (revision 5705966)
+Občina Radovljica (revision 5721756)
+1876 (revision 5571931)
+Prežihov Voranc (revision 5832321)
+Zdravstveni dom Ljubljana Moste-Polje (revision 687420)
+Frančišek Krištof Bogataj (revision 4464230)
+Seznam rimskokatoliških samostanov v Sloveniji (revision 5726922)
+Programski jezik java (revision 5806424)
+Občina Semič (revision 5694516)
+1671 (revision 4230004)
+Bajt (revision 5759314)
+15. junij (revision 5427754)
+6. julij (revision 5450369)
+SUDOC (identifikator) (revision 5038792)
+Križ na gori (revision 4470239)
+CONOR (identifikator) (revision 5817017)
+Siniša Anđelković (revision 5493259)
+27. avgust (revision 5400489)
+Turnišče (revision 5791724)
+Tenetiše, Kranj (revision 5332603)
+15. oktober (revision 5821286)
+SICRIS (identifikator) (revision 5746332)
+Črna gora (revision 5780318)
+RTV Ljubljana (revision 5833945)
+Ciciban (revija) (revision 5519988)
+Škof (revision 5737098)
+1964 (revision 5727085)
+1901 (revision 5118080)
+Zdravstveni dom Ljubljana Center (revision 2812862)
+Slovenska biografija (revision 5744738)
+31. oktober (revision 5826716)
+Praga (revision 5826163)
+30. november (revision 5843640)
+Augsburški verski mir (revision 4762987)
+15. vlada Republike Slovenije (revision 5852342)
+Republika Slovenija (revision 5851315)
+1960 (revision 5643848)
+Josip Ribičič (revision 5776186)
+19. julij (revision 5400443)
+Idrija (revision 5774634)
+Inkvizicija (revision 5623144)
+19. april (revision 5499445)
+Svetovni splet (revision 5623360)
+Ajdovščina (revision 5705518)
+Arhitekt (revision 5485114)
+WHOIS (revision 5119932)
+Ekspresionizem (revision 5713471)
+OF (revision 5783709)
+Socialistična federativna republika Jugoslavija (revision 5775148)
+Zdravstvo (revision 5794058)
+Indija (revision 5802236)
+Nürnberg (revision 5845119)
+Zdravstveni dom Ljubljana Vič-Rudnik (revision 687423)
+Delo (časopis) (revision 5846924)
+VIAF (identifikator) (revision 5545891)
+Esej (revision 5649081)
+Slovenski biografski leksikon (revision 5273133)
+1272 (revision 4571182)
+Marko Gerbec (revision 5686618)
+Občina Žalec (revision 5668168)
+Simonija (revision 5848400)
+Spletna stran (revision 5789409)
+Znanost (revision 5794271)
+Mestni linijski prevoz Kranj (revision 5780663)
+Zdravstveni dom Ljubljana Šiška (revision 5794056)
+SBI (identifikator) (revision 5744738)
+Izobraževanje (revision 5775188)
+Književnost (revision 5824541)
+Občina Radeče (revision 5716401)
+Lirika (revision 5643045)
+Seznam zdravstvenih ustanov v Ljubljani (revision 3172002)
+31. marec (revision 5818816)
+Kolegij (revision 5763216)
+Mesto (revision 5560057)
+Virginija (revision 4941396)
+Nizozemska (revision 5834147)
+Slovenski evrokovanci (revision 5789153)
+Portret (revision 5800433)
+Ustavno sodišče (revision 5837444)
+Strežnik (revision 5169883)
+Društvo (revision 5770980)
+Zastava Slovenije (revision 5793955)
+Mestna občina Ljubljana (revision 5758866)
+Smrekarjeva nagrada (revision 5737064)
+Tridentinski koncil (revision 5791570)
+Matej Langus (revision 5755642)
+Surrealizem (revision 5723650)
+Izola (revision 5803485)
+Novo mesto (revision 5832728)
+Bovec (revision 5722914)
+Identifikator digitalnega objekta (revision 5830808)
+Nadškof (revision 5477348)
+Občina Cerklje na Gorenjskem (revision 5343819)
+Knjiga (revision 5818947)
+Občina Muta (revision 5600697)
+Hiperpovezava (revision 5774360)
+Seznam naselij v Sloveniji (revision 5849725)
+1900. (revision 5572940)
+1310 (revision 5839384)
+19. stoletje (revision 5369893)
+Meja, Kranj (revision 5332579)
+1917 (revision 5699403)
+Zgodovina Slovenije (revision 5840441)
+Evropa (revision 5840336)
+Javornik, Kranj (revision 5332572)
+Četrti lateranski koncil (revision 5794585)
+Zalog, Kranj (revision 5332606)
+Čile (revision 5809346)
+Ernst Ludwig Kirchner (revision 4748071)
+NK Maribor (revision 5827762)
+Boris Kidrič (revision 5823569)
+Turizem v Sloveniji (revision 5733081)
+Republika Črna Gora (revision 5780318)
+Novela (književnost) (revision 5618646)
+Dvojezičnost (revision 5799533)
+4. junij (revision 5823896)
+Teologija (revision 5764463)
+Avtocesta (revision 5799828)
+Judje (revision 5776337)
+Freskant (revision 5836014)
+Tone Hrovat (revision 5811657)
+Naselje (revision 5846409)
+Šentvid pri Stični (revision 5794839)
+Malta (revision 5779553)
+Prešernov trg, Ljubljana (revision 5566256)
+1880. (revision 5193207)
+Merska enota (revision 4758215)
+18. september (revision 5571615)
+Neodvisnost (revision 4918206)
+OECD (revision 5672387)
+Grb Slovenije (revision 5699153)
+Theodor W. Adorno (revision 5501686)
+Makedonščina (revision 5834583)
+Zakrament (revision 5612915)
+Oceanija (revision 5805483)
+Giuseppe Verdi (revision 5812764)
+Antena (revision 5756674)
+Napoleonske vojne (revision 5845765)
+16. april (revision 5729320)
+7. januar (revision 5452242)
+Malo Trebeljevo (revision 5758855)
+Habsburžani (revision 5758069)
+Občina Starše (revision 5489237)
+Advent (revision 5733291)
+Japonska (revision 5849824)
+Gozd, Ajdovščina (revision 5330564)
+Augsburg (revision 5796795)
+Dedukcija (revision 5558477)
+1730 (revision 4633009)
+Kalvinizem (revision 5477790)
+Hroštule (revision 5774501)
+Seznam desetletij (revision 5341034)
+Ogrska (revision 5743966)
+Tajska (revision 5815033)
+Andronik III. Paleolog (revision 5197524)
+Almadén (revision 5606144)
== End of Parsed pages ==
-- Wikipedia parsing ended at: 2021-03-21 14:47:12.578759
+- Wikipedia parsing ended at: 2022-12-14 18:20:53.180577
-34 characters appeared 32235 times.
+64 characters appeared 1145033 times.
Most Frequent characters:
-[ 0] Char e: 10.097719869706841 %
-[ 1] Char a: 9.846440204746393 %
-[ 2] Char i: 8.760663874670389 %
-[ 3] Char o: 8.515588645881806 %
-[ 4] Char n: 7.299519156196681 %
-[ 5] Char l: 5.546765937645416 %
-[ 6] Char j: 5.264464091825656 %
-[ 7] Char r: 5.053513261982317 %
-[ 8] Char s: 5.000775554521483 %
-[ 9] Char t: 4.814642469365596 %
-[10] Char v: 4.374127501163332 %
-[11] Char k: 3.4993020009306655 %
-[12] Char m: 2.9253916550333487 %
-[13] Char d: 2.888165038002172 %
-[14] Char p: 2.869551729486583 %
-[15] Char u: 2.574841011323096 %
-[16] Char b: 2.233597021870638 %
-[17] Char z: 1.8458197611292075 %
-[18] Char g: 1.48596246316116 %
-[19] Char č: 1.181945090739879 %
-[20] Char š: 1.0671630215604158 %
-[21] Char h: 1.0361408407011012 %
-[22] Char c: 0.9492787342950209 %
-[23] Char ž: 0.5739103458973166 %
-[24] Char f: 0.210950829843338 %
-[25] Char x: 0.018613308515588647 %
-[26] Char w: 0.018613308515588647 %
-[27] Char y: 0.015511090429657206 %
-[28] Char ü: 0.009306654257794323 %
-[29] Char ö: 0.006204436171862882 %
-[30] Char q: 0.006204436171862882 %
-[31] Char ř: 0.003102218085931441 %
-[32] Char á: 0.003102218085931441 %
-[33] Char ý: 0.003102218085931441 % \ No newline at end of file
+[ 0] Char o: 23.108416962655227 %
+[ 1] Char a: 8.59486145814138 %
+[ 2] Char e: 8.358711058982578 %
+[ 3] Char i: 7.870166187350058 %
+[ 4] Char n: 6.085588799624116 %
+[ 5] Char r: 4.668337069761308 %
+[ 6] Char s: 4.369306386802826 %
+[ 7] Char l: 3.989492005907253 %
+[ 8] Char t: 3.8656527803128817 %
+[ 9] Char v: 3.695439345416246 %
+[10] Char j: 3.6508118106639724 %
+[11] Char k: 3.216239182626177 %
+[12] Char d: 2.745685058858566 %
+[13] Char p: 2.4462177072625857 %
+[14] Char m: 2.322727816578212 %
+[15] Char u: 1.8705137755855072 %
+[16] Char z: 1.683357597553957 %
+[17] Char b: 1.499083432529892 %
+[18] Char g: 1.3423193916681877 %
+[19] Char č: 0.956042314937648 %
+[20] Char h: 0.9555183125726507 %
+[21] Char c: 0.9322002073302691 %
+[22] Char š: 0.7818988623035319 %
+[23] Char ž: 0.4426073309677538 %
+[24] Char f: 0.37143034305561495 %
+
+The first 25 characters have an accumulated ratio of 0.9982262519944842.
+The first 2 characters have an accumulated ratio of 0.3170327842079661.
+All characters whose order is over 19 have an accumulated ratio of 0.03483655056229821.
+
+912 sequences found.
+
+First 420 (typical positive ratio): 0.9950318187902709
+Next 144 (564-420): 0.003969660901056105
+Rest: 0.0009985203086729788
+
+- Processing end: 2022-12-14 18:20:53.647128