summaryrefslogtreecommitdiff
path: root/script/BuildLangModelLogs/LangCzechModel.log
blob: b2083b559e58a3f7fe7f73dd3c7f93e237eb782d (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
= Logs of language model for Czech (cs) =

- Generated by BuildLangModel.py
- Started: 2022-12-14 17:50:48.302160
- Maximum depth: 4
- Max number of pages: 200

== Parsed pages ==

Sociální fobie (revision 22020472)
Agorafobie (revision 21926310)
DSM (revision 20942105)
Elektivní mutismus (revision 21924233)
Dopamin (revision 21859773)
Stres (revision 21742296)
Ján Praško (revision 22127468)
Escitalopram (revision 20547840)
Nervová soustava (revision 21341170)
Psychiatrie (revision 20502746)
Diagnostický a statistický manuál duševních poruch (revision 20942105)
Trávení (revision 21915709)
Emoce (revision 21879452)
22. prosinec (revision 21760502)
Hustota (revision 21244853)
Národní knihovna České republiky (revision 22177708)
Molární hmotnost (revision 19281991)
Mezinárodní nechráněný název (revision 21323694)
SSRI (revision 19342041)
Aminokyselina (revision 20868507)
Indikace (lékařství) (revision 20833751)
Virtual International Authority File (revision 21184542)
Slovenská národní knihovna (revision 20271931)
Pocení (revision 20339134)
Adrenalin (revision 21886991)
SNRI (revision 21517969)
Oxid uhelnatý (revision 21253816)
Psychologie (kniha) (revision 21019981)
Citalopram (revision 21240956)
Kortizon (revision 19998861)
Doktor medicíny (revision 22022290)
Druhá světová válka (revision 22212726)
Sebevědomí (sociální psychologie) (revision 21574634)
1956 (revision 22217131)
Hypothalamus (revision 21171603)
Farmakoterapie (revision 21795495)
Glutathion disulfid (revision 20827558)
PubChem (revision 20361169)
Ústa (revision 21522196)
Psychologie (revision 21840396)
Oktopamin (revision 20220450)
Mezinárodní standardní identifikátor jména (revision 20820441)
PubMed (revision 17045891)
The Lancet (revision 19241411)
Glycin (revision 21789768)
Glukóza (revision 21664603)
Afektivní poruchy (revision 21599448)
Terapie (revision 21310530)
Diagnóza (medicína) (revision 20229540)
2-arachidonoylglycerol (revision 20792362)
Organismus (revision 21881526)
Homeostáza (revision 20811648)
Hormon (revision 21350645)
Foniatrie (revision 17398936)
Puls (tep) (revision 20667506)
Úzkostná porucha (revision 21100459)
Library of Congress Control Number (revision 19355161)
Fototerapie (revision 21243206)
Neverbální komunikace (revision 21879485)
Ottův slovník naučný (revision 21909503)
Alkoholismus (revision 22196482)
Deprese (revision 22209864)
Autorita (knihovnictví) (revision 21919206)
Internet Archive (revision 21709929)
Serin (revision 20365965)
Tuky (revision 21806123)
Glukokortikoidy (revision 20998627)
Kognitivně behaviorální terapie (revision 21301071)
Sociální komunikace (revision 21879503)
Dohlížet a trestat (revision 20304185)
Mars (planeta) (revision 21861507)
Miroslav Štěpánek (historik) (revision 22080013)
Digital object identifier (revision 21882829)
Francouzská národní knihovna (revision 20503017)
Tlusté střevo (revision 21695653)
Polytematický strukturovaný heslář (revision 20359962)
Souborný katalog České republiky (revision 21215720)
Standardní teplota a tlak (revision 20345487)
Olomouc (revision 22219519)
2001 (revision 21769254)
International Standard Serial Number (revision 21989664)
Cenzura (revision 22170065)
Srdce (revision 21752723)
Přírodní vědy (revision 20697083)
Steroidy (revision 20599619)
Databáze (revision 21914035)
Farmakodynamika (revision 21795495)
Duševní porucha (revision 21595942)
Vitiligo (revision 22217229)
Synapse (revision 20882185)
Jan Otto (revision 22197603)
Praha (revision 22204542)
Polymerizace (revision 20878217)
Washington, D.C. (revision 22030685)
Česko (revision 22170403)
Rakousko-Uhersko (revision 22071686)
Dunningův–Krugerův efekt (revision 21506228)
Klášter Zlatá Koruna (revision 21558244)
Národní knihovna Izraele (revision 20491004)
Tachykardie (revision 20455710)
Bulimie (revision 22026405)
Svobodný a otevřený software (revision 22217209)
Gesto (revision 21276755)
Apatie (revision 22029703)
Václav Havel (revision 22193432)
1901 (revision 21865040)
Antipsychotikum (revision 20223009)
Obratlovci (revision 22222019)
Stavová rovnice (revision 20396700)
Relativní atomová hmotnost (revision 21403202)
Atom (revision 22205446)
Mozek (revision 22201687)
Hynek Bulín mladší (revision 22055619)
Hmotnost (revision 21195721)
Dobré jméno (revision 20229915)
Tyramin (revision 21871510)
Evropský fond pro regionální rozvoj (revision 21036326)
Národní parlamentní knihovna Japonska (revision 21018639)
International Standard Book Number (revision 21443136)
Mezinárodní organizace pro normalizaci (revision 21272544)
Paměť (revision 22110149)
Antidepresivum (revision 21517969)
Vágnost (revision 22029954)
Karen Horneyová (revision 22010958)
Glykogen (revision 21277115)
1994 (revision 21877310)
Molární objem (revision 20492685)
Voda (revision 21909723)
DNA (revision 21778968)
Termoterapie (revision 20180487)
Populace (revision 21355483)
Lege artis (lékařství) (revision 21317439)
Pórovitost (revision 21767560)
Měření krevního tlaku (revision 20380281)
Kontraindikace (revision 20849480)
Ministerstvo kultury České republiky (revision 21650558)
James Lovelock (revision 22094240)
Právní forma (revision 20943476)
27. červenec (revision 22198826)
Seznam národních knihoven (revision 20048304)
WorldCat (revision 21510754)
Puberta (revision 21909913)
Knihovnictví (revision 21783979)
Nobelova cena za fyziologii a lékařství (revision 22203422)
Kulturní průmysl (revision 20478874)
Elektrický náboj (revision 22028562)
Spojené státy americké (revision 22179989)
Masožravé rostliny (revision 20560168)
Psychoterapie (revision 21818892)
Nula (revision 20188675)
Lecitin (revision 21332399)
Zrak (revision 21329169)
Dolní končetina (revision 20862515)
Doktor teologie (revision 21466542)
Jazyk (lingvistika) (revision 22109800)
Aerobní organismy (revision 20312976)
Bezvědomí (revision 22201907)
Česká terminologická databáze knihovnictví a informační vědy (revision 22188254)
Smích (revision 21848703)
Těhotenství (revision 21789011)
Neobehaviorismus (revision 21269447)
Webová stránka (revision 21216729)
Latina (revision 21868129)
Sekunda (revision 22206940)
Lipidy ve sportovní výživě (revision 20171966)
Interneuron (revision 20425790)
Mirtazapin (revision 20332657)
Histamin (revision 21538976)
Trimethylglycin (revision 21738055)
Mozkomíšní mok (revision 21632570)
Denis McQuail (revision 22085880)
The New England Journal of Medicine (revision 21227571)
Prodloužená mícha (revision 21104807)
Kanabinoidní receptor 1 (revision 20631149)

== End of Parsed pages ==

- Wikipedia parsing ended at: 2022-12-14 18:07:45.112214

70 characters appeared 1502766 times.

Most Frequent characters:
[ 0] Char o: 8.127878858052417 %
[ 1] Char e: 7.5461515631841545 %
[ 2] Char a: 6.932283535826603 %
[ 3] Char n: 6.812437864577718 %
[ 4] Char t: 5.253645610826969 %
[ 5] Char i: 5.075307799085153 %
[ 6] Char s: 4.692147679678673 %
[ 7] Char r: 4.318702978374544 %
[ 8] Char v: 4.279375498247898 %
[ 9] Char l: 4.187012482315942 %
[10] Char k: 4.013133115867673 %
[11] Char m: 3.1770082634289034 %
[12] Char u: 3.10440880349968 %
[13] Char p: 3.088970604871284 %
[14] Char d: 3.0580942076144924 %
[15] Char í: 2.921679090423925 %
[16] Char c: 2.9060412599167136 %
[17] Char h: 2.2894449302153492 %
[18] Char á: 2.054012401132312 %
[19] Char z: 2.0474245491314016 %
[20] Char y: 1.9050870195359757 %
[21] Char j: 1.7528344399593814 %
[22] Char b: 1.5339713568180275 %
[23] Char ě: 1.320431790445086 %
[24] Char é: 1.2140279990364435 %
[25] Char ř: 0.976466063246041 %
[26] Char ý: 0.952842957586211 %
[27] Char č: 0.9467209133025367 %
[28] Char ž: 0.7350445777985395 %
[29] Char š: 0.6022228344266506 %
[30] Char g: 0.5773353935343227 %
[31] Char f: 0.5282924953053236 %
[32] Char ů: 0.5040039500494422 %
[33] Char ú: 0.14852611783870542 %
[34] Char x: 0.1266331551286095 %
[35] Char w: 0.11179385213666 %
[36] Char ň: 0.06787483879725786 %
[37] Char ó: 0.042122326430062966 %
[38] Char ť: 0.02821463887258562 %
[39] Char ď: 0.012909528163400024 %
[40] Char q: 0.01031431373879899 %

The first 41 characters have an accumulated ratio of 0.9998283165842187.
The first 6 characters have an accumulated ratio of 0.39747705231553015.
All characters whose order is over 27 have an accumulated ratio of 0.03495288022220359.

1359 sequences found.

First 747 (typical positive ratio): 0.995024712172107
Next 199 (946-747): 0.003977666094002408
Rest: 0.000997621733890619

- Processing end: 2022-12-14 18:07:45.526609