summaryrefslogtreecommitdiff
path: root/script/BuildLangModelLogs/LangRomanianModel.log
blob: 5e1c03886f1e8e644d4f494c810457212e991b47 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
= Logs of language model for Romanian (ro) =

- Generated by BuildLangModel.py
- Started: 2022-12-14 18:11:06.127834
- Maximum depth: 4
- Max number of pages: 200

== Parsed pages ==

The Loving Kind (revision 15340411)
Bulgaria (revision 15311223)
Casă de discuri (revision 15244458)
Estonia (revision 15317542)
The Promise (revision 15302845)
Slovenia (revision 15205418)
Muzică pop (revision 15177633)
2009 (revision 15336167)
Mixed Up (revision 10112443)
Tonalitate (revision 12509051)
Ucraina (revision 15312635)
11 decembrie (revision 15031710)
Europop (revision 15140046)
Something Kinda Ooooh (revision 15206082)
Protest (revision 13755796)
Insula Jersey (revision 15311219)
Flota sovietică a Mării Baltice (revision 15238696)
The Sound of Girls Aloud (revision 10112480)
4 iulie (revision 15123115)
Companie (revision 14007537)
Croația (revision 15314677)
Gustavus Adolphus al Suediei (revision 13847267)
Wayback Machine (revision 15154168)
Marșul asupra Romei (revision 15291491)
Limbi ugrice (revision 15165135)
See the Day (revision 10112431)
Invadarea Iugoslaviei (revision 15154231)
The Show (revision 10112441)
Alterație (muzică) (revision 14948670)
15 octombrie (revision 15159460)
Mircea Geoană (revision 15335698)
12 decembrie (revision 15344758)
Hugh Hopper (revision 12022451)
J-pop (revision 15285544)
Limba engleză (revision 15174203)
EMI (revision 15018534)
Regatul Unit (revision 15335741)
Jaan Kross (revision 11954185)
Notația măsurată (revision 15079804)
Polygram (revision 8761631)
Chemistry (revision 13003795)
Franz Liszt (revision 15263804)
Claude Debussy (revision 15251845)
Limba italiană (revision 15119781)
Drepturi de autor (revision 15135851)
Locuri din patrimoniul mondial UNESCO (revision 15168595)
Osam (revision 13134720)
No Good Advice (revision 10112436)
Listă de termeni muzicali (revision 15275139)
Tacitus (revision 15210228)
1960 (revision 15226597)
Biology (revision 10112430)
Call the Shots (revision 15311533)
14 septembrie (revision 15144284)
Can't Speak French (revision 15243027)
16 august (revision 15269004)
Ecoregiune (revision 15137483)
Al doilea război mondial (revision 15346198)
I Think We're Alone Now (revision 15152417)
Kazumi Takada (revision 9950085)
Peninsula Balcanică (revision 15296189)
Gama muzicală (revision 14741906)
Cozonac (revision 14994369)
Limba română (revision 15288357)
Library of Congress Control Number (revision 14009408)
Integrated Authority File (revision 15145168)
Muzică cultă (revision 15163310)
Wake Me Up (revision 10112439)
Neumă (revision 15115030)
Girls Aloud (revision 15319932)
Localitate (revision 13695789)
Sorin Roșca Stănescu (revision 15206213)
Dream pop (revision 14793109)
Minoritate (revision 15292581)
Sound of the Underground (cântec) (revision 15206321)
Deviză (revision 15269481)
Sony Music Entertainment (revision 15206153)
Girls A Live (revision 10112444)
Regatul Unit al Marii Britanii și al Irlandei de Nord (revision 15335741)
Suită (muzică) (revision 11171277)
The World Factbook (revision 15212222)
Benzi desenate (revision 15030706)
Isar (revision 13998661)
Gamă muzicală (revision 14741906)
Muzică rock (revision 14783685)
Limba proto-indo-europeană (revision 14176445)
Manase Radnev (revision 13993534)
Sony BMG (revision 14855195)
Casă de discuri virtuală (revision 15312183)
Epoca Fierului (revision 13830131)
Companie multinațională (revision 12186827)
30 martie (revision 15157103)
Anii 1970 (revision 15053831)
Turism (revision 15214709)
Analiză muzicală (revision 12849620)
Declarația Universală a Drepturilor Omului (revision 13658791)
Scară sonoră (revision 12022964)
2 octombrie (revision 15124675)
Imperiul Persan (revision 15153489)
Oraș (revision 15184008)
Denver (revision 15136578)
CEO (revision 14493425)
Rock (revision 14783685)
Lied (revision 15325998)
Life Got Cold (revision 10112437)
Bibliothèque nationale de France (revision 15237314)
Europa de Nord (revision 11015732)
Khair ad-Din (revision 13565991)
Lom (Bulgaria) (revision 15328003)
Out of Control (revision 10112484)
Alexandru Șafran (revision 15230090)
Obi (revision 15182800)
Uvertură (revision 13489343)
2005 (revision 15336486)
Națiune (revision 13034621)
2003 (revision 15329452)
Fundal (revision 8135248)
Marijuana (revision 14880983)
Camerun (revision 14465861)
1968 (revision 15018095)
Armele utilizate în timpul celui de-al Doilea Război Mondial (revision 14773352)
Belarus (revision 15322892)
Indiile Răsăritene (revision 10056403)
Cent (revision 12363479)
Primul dictat de la Viena (revision 14824640)
Luigi Carlo Borromeo (revision 12309158)
Call The Shots (revision 15311533)
Limba gotică crimeeană (revision 15165061)
Prăbușirea Uniunii Sovietice (revision 15155736)
Beethoven (revision 15310809)
Ruse (revision 15198972)
Portativ (revision 11356550)
2004 (revision 15092752)
Jump (cântec de Girls Aloud) (revision 10112438)
Economie (revision 15317091)
Gen muzical (revision 15348917)
Freedom House (revision 13005669)
Spania (revision 15303538)
Evul Mediu timpuriu (revision 15338691)
Lagăr de concentrare (revision 15049108)
Grafică (revision 13247501)
Sound of the Underground (album) (revision 10112476)
Magazin istoric (revision 13592125)
Gheorghe Ciuhandu (politician) (revision 15145699)
Che Guevara (revision 15246219)
Rasism (revision 15322273)
OPEC (revision 15182665)
Capitală (revision 15149506)
Untouchable (revision 12020867)
Idee (revision 14806020)
Pârjoale moldovenești (revision 15277144)
Vali Ionescu (revision 15312890)
UK Albums Chart (revision 15215231)
2012 (revision 15339944)
1981 (revision 15055026)
Tetracord (revision 11205775)
Fotbal (revision 15319012)
15 februarie (revision 14861464)
Slovacia (revision 15301231)
Liban (revision 15164669)
Moduri muzicale (revision 13884611)
Regatul Ungariei (revision 15286727)
LIBRIS (revision 13007272)
Dunărea (revision 15263972)
Fotbalist (revision 14889823)
Venit (revision 13998438)
Indicele dezvoltării umane (revision 13268199)

== End of Parsed pages ==

- Wikipedia parsing ended at: 2022-12-14 18:14:02.581018

73 characters appeared 1717760 times.

Most Frequent characters:
[ 0] Char i: 11.186661698956781 %
[ 1] Char e: 11.152256426974665 %
[ 2] Char a: 10.509558960506707 %
[ 3] Char r: 7.540343237704918 %
[ 4] Char n: 7.106988170640835 %
[ 5] Char t: 6.260536978390461 %
[ 6] Char l: 5.436440480625931 %
[ 7] Char u: 5.431899683308495 %
[ 8] Char o: 5.0735842026825635 %
[ 9] Char c: 4.54947140461997 %
[10] Char s: 3.8575819672131146 %
[11] Char d: 3.540657600596125 %
[12] Char m: 2.986331035767511 %
[13] Char p: 2.763657321162444 %
[14] Char ă: 2.165785674366617 %
[15] Char g: 1.240743759314456 %
[16] Char b: 1.1896306818181819 %
[17] Char v: 1.1200633383010432 %
[18] Char f: 1.1136014344262295 %
[19] Char ș: 0.9621250931445604 %
[20] Char ț: 0.9481534090909091 %
[21] Char î: 0.9207921944858419 %
[22] Char z: 0.7800856929955291 %
[23] Char h: 0.5981045081967213 %
[24] Char â: 0.4369062034277198 %
[25] Char j: 0.26097941505216093 %
[26] Char k: 0.23757684426229508 %
[27] Char x: 0.22762201937406856 %
[28] Char y: 0.15165098733233978 %
[29] Char w: 0.11689642324888226 %
[30] Char é: 0.021830756333830106 %
[31] Char á: 0.018628912071535022 %
[32] Char q: 0.016882451564828614 %

The first 33 characters have an accumulated ratio of 0.9992402896795829.
The first 3 characters have an accumulated ratio of 0.32848477086438155.
All characters whose order is over 20 have an accumulated ratio of 0.03787956408345752.

1337 sequences found.

First 478 (typical positive ratio): 0.9950281325668789
Next 301 (779-478): 0.003975199459074541
Rest: 0.0009966679740465167

- Processing end: 2022-12-14 18:14:02.730012