diff options
Diffstat (limited to 'script/BuildLangModelLogs/LangSloveneModel.log')
-rw-r--r-- | script/BuildLangModelLogs/LangSloveneModel.log | 254 |
1 files changed, 214 insertions, 40 deletions
diff --git a/script/BuildLangModelLogs/LangSloveneModel.log b/script/BuildLangModelLogs/LangSloveneModel.log index bd280af..310078e 100644 --- a/script/BuildLangModelLogs/LangSloveneModel.log +++ b/script/BuildLangModelLogs/LangSloveneModel.log @@ -1,53 +1,227 @@ = Logs of language model for Slovene (sl) = - Generated by BuildLangModel.py -- Started: 2021-03-21 14:46:51.759879 +- Started: 2022-12-14 18:14:43.766544 - Maximum depth: 4 -- Max number of pages: 1 +- Max number of pages: 200 == Parsed pages == -Ljubljana (revision 5468628) -1689 (revision 4230028) +Ljubljana (revision 5845001) +25. junij (revision 5725754) +Anton Vodnik (revision 5756756) +Seznam občin v Sloveniji (revision 5812503) +Protireformacija (revision 5597661) +Marija Vogelnik (revision 5530732) +Academia operosorum Labacensis (revision 5228146) +Wayback Machine (revision 5793624) +Zdravstveni dom Ljubljana (revision 5830659) +Henrika Langus (revision 5754885) +Kranj (revision 5841490) +Zdravstveni dom Ljubljana Bežigrad (revision 1248325) +Seznam slovenskih slikarjev (revision 5852050) +URL (revision 5769695) +15. julij (revision 5791850) +Barok (revision 5810195) +Avstro-Ogrska (revision 5751429) +5. junij (revision 5705966) +Občina Radovljica (revision 5721756) +1876 (revision 5571931) +Prežihov Voranc (revision 5832321) +Zdravstveni dom Ljubljana Moste-Polje (revision 687420) +Frančišek Krištof Bogataj (revision 4464230) +Seznam rimskokatoliških samostanov v Sloveniji (revision 5726922) +Programski jezik java (revision 5806424) +Občina Semič (revision 5694516) +1671 (revision 4230004) +Bajt (revision 5759314) +15. junij (revision 5427754) +6. julij (revision 5450369) +SUDOC (identifikator) (revision 5038792) +Križ na gori (revision 4470239) +CONOR (identifikator) (revision 5817017) +Siniša Anđelković (revision 5493259) +27. avgust (revision 5400489) +Turnišče (revision 5791724) +Tenetiše, Kranj (revision 5332603) +15. oktober (revision 5821286) +SICRIS (identifikator) (revision 5746332) +Črna gora (revision 5780318) +RTV Ljubljana (revision 5833945) +Ciciban (revija) (revision 5519988) +Škof (revision 5737098) +1964 (revision 5727085) +1901 (revision 5118080) +Zdravstveni dom Ljubljana Center (revision 2812862) +Slovenska biografija (revision 5744738) +31. oktober (revision 5826716) +Praga (revision 5826163) +30. november (revision 5843640) +Augsburški verski mir (revision 4762987) +15. vlada Republike Slovenije (revision 5852342) +Republika Slovenija (revision 5851315) +1960 (revision 5643848) +Josip Ribičič (revision 5776186) +19. julij (revision 5400443) +Idrija (revision 5774634) +Inkvizicija (revision 5623144) +19. april (revision 5499445) +Svetovni splet (revision 5623360) +Ajdovščina (revision 5705518) +Arhitekt (revision 5485114) +WHOIS (revision 5119932) +Ekspresionizem (revision 5713471) +OF (revision 5783709) +Socialistična federativna republika Jugoslavija (revision 5775148) +Zdravstvo (revision 5794058) +Indija (revision 5802236) +Nürnberg (revision 5845119) +Zdravstveni dom Ljubljana Vič-Rudnik (revision 687423) +Delo (časopis) (revision 5846924) +VIAF (identifikator) (revision 5545891) +Esej (revision 5649081) +Slovenski biografski leksikon (revision 5273133) +1272 (revision 4571182) +Marko Gerbec (revision 5686618) +Občina Žalec (revision 5668168) +Simonija (revision 5848400) +Spletna stran (revision 5789409) +Znanost (revision 5794271) +Mestni linijski prevoz Kranj (revision 5780663) +Zdravstveni dom Ljubljana Šiška (revision 5794056) +SBI (identifikator) (revision 5744738) +Izobraževanje (revision 5775188) +Književnost (revision 5824541) +Občina Radeče (revision 5716401) +Lirika (revision 5643045) +Seznam zdravstvenih ustanov v Ljubljani (revision 3172002) +31. marec (revision 5818816) +Kolegij (revision 5763216) +Mesto (revision 5560057) +Virginija (revision 4941396) +Nizozemska (revision 5834147) +Slovenski evrokovanci (revision 5789153) +Portret (revision 5800433) +Ustavno sodišče (revision 5837444) +Strežnik (revision 5169883) +Društvo (revision 5770980) +Zastava Slovenije (revision 5793955) +Mestna občina Ljubljana (revision 5758866) +Smrekarjeva nagrada (revision 5737064) +Tridentinski koncil (revision 5791570) +Matej Langus (revision 5755642) +Surrealizem (revision 5723650) +Izola (revision 5803485) +Novo mesto (revision 5832728) +Bovec (revision 5722914) +Identifikator digitalnega objekta (revision 5830808) +Nadškof (revision 5477348) +Občina Cerklje na Gorenjskem (revision 5343819) +Knjiga (revision 5818947) +Občina Muta (revision 5600697) +Hiperpovezava (revision 5774360) +Seznam naselij v Sloveniji (revision 5849725) +1900. (revision 5572940) +1310 (revision 5839384) +19. stoletje (revision 5369893) +Meja, Kranj (revision 5332579) +1917 (revision 5699403) +Zgodovina Slovenije (revision 5840441) +Evropa (revision 5840336) +Javornik, Kranj (revision 5332572) +Četrti lateranski koncil (revision 5794585) +Zalog, Kranj (revision 5332606) +Čile (revision 5809346) +Ernst Ludwig Kirchner (revision 4748071) +NK Maribor (revision 5827762) +Boris Kidrič (revision 5823569) +Turizem v Sloveniji (revision 5733081) +Republika Črna Gora (revision 5780318) +Novela (književnost) (revision 5618646) +Dvojezičnost (revision 5799533) +4. junij (revision 5823896) +Teologija (revision 5764463) +Avtocesta (revision 5799828) +Judje (revision 5776337) +Freskant (revision 5836014) +Tone Hrovat (revision 5811657) +Naselje (revision 5846409) +Šentvid pri Stični (revision 5794839) +Malta (revision 5779553) +Prešernov trg, Ljubljana (revision 5566256) +1880. (revision 5193207) +Merska enota (revision 4758215) +18. september (revision 5571615) +Neodvisnost (revision 4918206) +OECD (revision 5672387) +Grb Slovenije (revision 5699153) +Theodor W. Adorno (revision 5501686) +Makedonščina (revision 5834583) +Zakrament (revision 5612915) +Oceanija (revision 5805483) +Giuseppe Verdi (revision 5812764) +Antena (revision 5756674) +Napoleonske vojne (revision 5845765) +16. april (revision 5729320) +7. januar (revision 5452242) +Malo Trebeljevo (revision 5758855) +Habsburžani (revision 5758069) +Občina Starše (revision 5489237) +Advent (revision 5733291) +Japonska (revision 5849824) +Gozd, Ajdovščina (revision 5330564) +Augsburg (revision 5796795) +Dedukcija (revision 5558477) +1730 (revision 4633009) +Kalvinizem (revision 5477790) +Hroštule (revision 5774501) +Seznam desetletij (revision 5341034) +Ogrska (revision 5743966) +Tajska (revision 5815033) +Andronik III. Paleolog (revision 5197524) +Almadén (revision 5606144) == End of Parsed pages == -- Wikipedia parsing ended at: 2021-03-21 14:47:12.578759 +- Wikipedia parsing ended at: 2022-12-14 18:20:53.180577 -34 characters appeared 32235 times. +64 characters appeared 1145033 times. Most Frequent characters: -[ 0] Char e: 10.097719869706841 % -[ 1] Char a: 9.846440204746393 % -[ 2] Char i: 8.760663874670389 % -[ 3] Char o: 8.515588645881806 % -[ 4] Char n: 7.299519156196681 % -[ 5] Char l: 5.546765937645416 % -[ 6] Char j: 5.264464091825656 % -[ 7] Char r: 5.053513261982317 % -[ 8] Char s: 5.000775554521483 % -[ 9] Char t: 4.814642469365596 % -[10] Char v: 4.374127501163332 % -[11] Char k: 3.4993020009306655 % -[12] Char m: 2.9253916550333487 % -[13] Char d: 2.888165038002172 % -[14] Char p: 2.869551729486583 % -[15] Char u: 2.574841011323096 % -[16] Char b: 2.233597021870638 % -[17] Char z: 1.8458197611292075 % -[18] Char g: 1.48596246316116 % -[19] Char č: 1.181945090739879 % -[20] Char š: 1.0671630215604158 % -[21] Char h: 1.0361408407011012 % -[22] Char c: 0.9492787342950209 % -[23] Char ž: 0.5739103458973166 % -[24] Char f: 0.210950829843338 % -[25] Char x: 0.018613308515588647 % -[26] Char w: 0.018613308515588647 % -[27] Char y: 0.015511090429657206 % -[28] Char ü: 0.009306654257794323 % -[29] Char ö: 0.006204436171862882 % -[30] Char q: 0.006204436171862882 % -[31] Char ř: 0.003102218085931441 % -[32] Char á: 0.003102218085931441 % -[33] Char ý: 0.003102218085931441 %
\ No newline at end of file +[ 0] Char o: 23.108416962655227 % +[ 1] Char a: 8.59486145814138 % +[ 2] Char e: 8.358711058982578 % +[ 3] Char i: 7.870166187350058 % +[ 4] Char n: 6.085588799624116 % +[ 5] Char r: 4.668337069761308 % +[ 6] Char s: 4.369306386802826 % +[ 7] Char l: 3.989492005907253 % +[ 8] Char t: 3.8656527803128817 % +[ 9] Char v: 3.695439345416246 % +[10] Char j: 3.6508118106639724 % +[11] Char k: 3.216239182626177 % +[12] Char d: 2.745685058858566 % +[13] Char p: 2.4462177072625857 % +[14] Char m: 2.322727816578212 % +[15] Char u: 1.8705137755855072 % +[16] Char z: 1.683357597553957 % +[17] Char b: 1.499083432529892 % +[18] Char g: 1.3423193916681877 % +[19] Char č: 0.956042314937648 % +[20] Char h: 0.9555183125726507 % +[21] Char c: 0.9322002073302691 % +[22] Char š: 0.7818988623035319 % +[23] Char ž: 0.4426073309677538 % +[24] Char f: 0.37143034305561495 % + +The first 25 characters have an accumulated ratio of 0.9982262519944842. +The first 2 characters have an accumulated ratio of 0.3170327842079661. +All characters whose order is over 19 have an accumulated ratio of 0.03483655056229821. + +912 sequences found. + +First 420 (typical positive ratio): 0.9950318187902709 +Next 144 (564-420): 0.003969660901056105 +Rest: 0.0009985203086729788 + +- Processing end: 2022-12-14 18:20:53.647128 |