summaryrefslogtreecommitdiff
path: root/script/BuildLangModelLogs/LangHebrewModel.log
blob: fac1fe97ca056e4dc149959b8d2a4459f31996d1 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
= Logs of language model for Hebrew (he) =

- Generated by BuildLangModel.py
- Started: 2022-12-15 15:23:40.722736
- Maximum depth: 4
- Max number of pages: 200

== Parsed pages ==

יהדות_בוקרשט (revision 35182799)
בית כלא (revision 35227881)
יעקב אלמולי (revision 35001208)
טודור ולדימירסקו (revision 29886791)
בלקן (revision 33993972)
גזירות ת"ח ת"ט (revision 34763839)
סילביו ברוקאן (revision 29510407)
1912 (revision 33159662)
צבא (revision 34619941)
שיטת ספריית הקונגרס (revision 30163525)
מרסל ינקו (revision 34359400)
פנקס הקהילות (revision 34615712)
יעקב פסנתיר (revision 33120540)
בוקרשט (revision 35173617)
יהדות לוב (revision 34775645)
מדרג (revision 34420008)
קובץ בקרה משולב (revision 34980719)
צבא קבע (revision 34044374)
עברית (revision 35171043)
2003 (revision 34884225)
תומאס ג'פרסון (revision 35144907)
אפגניסטן (revision 35015482)
טנק (revision 34805353)
21 באפריל (revision 34869840)
רומנית (revision 35154129)
מערב אירופה (revision 35029137)
פינסק (revision 34882043)
בית סוהר גבעון (revision 34787725)
הקהילה היהודית הספרדית בבוקרשט (revision 32942838)
קומוניזם (revision 34968105)
אנרגיה (revision 35140939)
ספריית הוותיקן (revision 32639141)
לאו רומני (revision 34364476)
תותח (revision 35035899)
כ' בסיוון (revision 34741740)
Union List of Artist Names (revision 34992334)
בנימין גלאי (revision 33202928)
חיל הנדסה (revision 33949573)
25 באוגוסט (revision 34821302)
אנה טיכו (revision 34831809)
חייל (revision 35206828)
הלאמה (revision 34453859)
קלוויניסט (revision 34763753)
רפואה (revision 35157098)
תלמוד תורה (revision 35216490)
23 בינואר (revision 35038971)
מלחמת העולם הראשונה (revision 35191080)
כוחות מילואים (revision 32714547)
גרמנית (revision 35085309)
אוטודידקט (revision 34614272)
דיוויזיית מתנדבים 1, טודור ולדימירסקו (revision 28599203)
זית (revision 35159584)
יהדות רומניה (revision 34919407)
צבי לוקר (revision 34639828)
WorldCat (revision 34980710)
ספרי יזכור (revision 34570622)
דת (revision 35160267)
גזירות תתנ"ו (revision 34939752)
פרו (revision 35228614)
הארץ (revision 35234211)
הספרייה הלאומית (revision 35173909)
בויאר (revision 34292683)
נפוליאון בונפרטה (revision 35212132)
העולם השלישי (revision 34866022)
פנדורים (revision 22519224)
קושטא (revision 34914083)
תענית ציבור (revision 35122402)
י"ט באייר (revision 33760934)
דוד רובינגר (revision 34618241)
1886 (revision 30398678)
9 במרץ (revision 35039056)
1855 (revision 34224046)
מרד הלגיונרים ופרעות בוקרשט (revision 35067329)
1966 (revision 34533574)
יווני (revision 34012584)
אוניברסיטת בוקרשט (revision 35188136)
בוסניה והרצגובינה (revision 35162864)
נצרות (revision 35210877)
כלא שש (revision 35057829)
אלפרד מנספלד (revision 35050837)
אות (revision 34005221)
י"א באייר (revision 34914962)
5 באפריל (revision 35157784)
ישראל (revision 35213935)
קיילצה (revision 33935006)
לותרני (revision 35064164)
יום ראשון (revision 34281448)
יהדות איטליה (revision 35198843)
פרס דיזנגוף (revision 34534024)
ה' בסיוון (revision 34566809)
ח' בטבת (revision 35079706)
האימפריה הרומית (revision 35119178)
שגריר (revision 34965857)
דן מכמן (revision 34522541)
הספרייה הלאומית של צרפת (revision 34954915)
דן ריזינגר (revision 34757254)
אסטרטגיה צבאית (revision 35069854)
אביבה ברושי (revision 35050673)
טורקית (revision 34730801)
11 במאי (revision 34445764)
רב (revision 35062888)
וולוז'ין (revision 35024306)
ולאכיה (revision 33077945)
יהדות הולנד (revision 33771623)
אנגלית (revision 35222539)
אוסטרליה (revision 35084368)
חוק (revision 35117792)
נצרות אורתודוקסית (revision 35181856)
שבתאות (revision 35118251)
הספרייה הלאומית של צ'כיה (revision 34679038)
שימוש הוגן (revision 34698539)
המאה ה-19 (revision 35228599)
אולטניה (revision 35181527)
תולדות עם ישראל (revision 35227911)
1999 (revision 34550725)
טוגאי ביי (revision 29009639)
בית הדין העממי (רומניה) (revision 29292417)
יהדות (revision 35238551)
מוסלמים (revision 35186931)
סלובניה (revision 34076843)
1944 (revision 33848050)
VIAF (revision 34992335)
יחיאל שמי (revision 35169033)
משפחת אוסטרוגסקי (revision 27522789)
בוהמיה (revision 34774081)
גולאג (revision 33926313)
משה מוקדי (revision 33579655)
קרן ויקימדיה (revision 35175443)
ב' באלול (revision 33761030)
רגולציה (revision 35168860)
הקהילה היהודית הספרדית ברומניה (revision 32942827)
הרתעה (אסטרטגיה) (revision 34184585)
נובוגרודק (revision 34333750)
מודל צבא העם (revision 34762715)
מלחמת העולם השנייה (revision 35218209)
חשוון (revision 35214064)
1875 (revision 25165857)
ליידי בירד ג'ונסון (revision 35156176)
הספרייה הלאומית של ספרד (revision 34172052)
רבנים (revision 16968274)
בית סוהר מגידו (revision 33202574)
גליציה (revision 34740074)
יהדות בלארוס (revision 34770618)
יהודים (revision 35220685)
עמירם תמרי (revision 33235872)
יהדות ליטא (revision 35062246)
עלייה לרגל (revision 34764674)
המועצה לישראל יפה (revision 34627430)
יום שישי (revision 34737763)
ג'מייקה (revision 35022818)
למ"ד (revision 34438979)
שיעה (revision 35141725)
1987 (revision 32747521)
שיטפון (revision 34831666)
פרסית (revision 35135705)
קניין רוחני (revision 34598306)
תסריטאי (revision 34389192)
גשם (revision 35214991)
קצין (revision 35189304)
שמואל וודניצקי (revision 33250304)
בית חיים (revision 35213536)
אליעזר פאפו (revision 34907056)
יצחק דנציגר (revision 35163501)
ירמיהו (revision 35170413)
אלכסנדר סוורוס (revision 34549496)
יוליסס סימפסון גרנט (revision 35099753)
אלפבית עברי (revision 35167195)
יום השבת (revision 32714481)
ספרד (revision 35240234)
קרואטיה (revision 35208639)
יום כיפור קטן (revision 34566029)
דתיים לאומיים (revision 35191810)
לוניניץ (revision 34618951)
מנצ'וריה (revision 35213350)
ולנטיניאנוס הראשון (revision 35183518)
מערכת התיעוד האוניברסיטאית (צרפת) (revision 34033122)
מוזיאון תל אביב (revision 34779076)
חוזה פריז (1783) (revision 34280442)
דיקטטורה (revision 34987941)
+ (revision 34951817)
יוני (revision 33963139)
כ"ג בסיוון (revision 34929216)
דרג דיפלומטי (revision 33574252)
אנציקלופדיה בריטניקה (revision 35145787)
וגטיוס (revision 33391266)
מהרי"ל (revision 34613180)
מוזיאון סטדלייק (revision 33770681)
ספרייה דיגיטלית (revision 34044215)
עיצור שפתי-שיני, אפי (revision 34158419)
פסנתרן (revision 34558921)
צבא אוסטרליה (revision 34306538)
בוואריה (revision 35069866)

== End of Parsed pages ==

- Wikipedia parsing ended at: 2022-12-15 15:27:25.018656

94 characters appeared 1622917 times.

Most Frequent characters:
[ 0] Char י: 11.931047613648756 %
[ 1] Char ו: 11.230395639456608 %
[ 2] Char ה: 8.702909637399818 %
[ 3] Char ר: 6.166673958064399 %
[ 4] Char ל: 6.0917471441854385 %
[ 5] Char ת: 5.755007803849488 %
[ 6] Char ב: 5.319434080732409 %
[ 7] Char מ: 5.124476482777616 %
[ 8] Char א: 4.594258363181851 %
[ 9] Char ש: 4.086160906565154 %
[10] Char נ: 3.7032700994567187 %
[11] Char ם: 2.782397374603877 %
[12] Char ד: 2.615537331853693 %
[13] Char ע: 2.5096785602714125 %
[14] Char ק: 2.2712806631515967 %
[15] Char פ: 2.233139464310251 %
[16] Char ח: 2.124939229794253 %
[17] Char ס: 2.0344232021723845 %
[18] Char כ: 1.8796401787645332 %
[19] Char ט: 1.596261546339092 %
[20] Char ג: 1.5693347226013405 %
[21] Char צ: 1.2939663581070382 %
[22] Char ן: 1.2081948737982287 %
[23] Char ז: 0.8376275558146227 %
[24] Char ך: 0.3550397216863216 %
[25] Char ף: 0.2127034222945474 %
[26] Char e: 0.16427211003396971 %
[27] Char ץ: 0.15817198291717938 %
[28] Char a: 0.14005645390368085 %
[29] Char i: 0.12958148814757625 %
[30] Char n: 0.10296275163794574 %
[31] Char r: 0.10246981207295258 %
[32] Char t: 0.08983823572000293 %
[33] Char o: 0.08287546436447459 %
[34] Char s: 0.08238252479948142 %
[35] Char l: 0.06894992165341789 %
[36] Char u: 0.052744533454267835 %
[37] Char c: 0.04947880883618817 %
[38] Char d: 0.0451039701968739 %
[39] Char h: 0.04196148047004252 %
[40] Char m: 0.03327342063703812 %
[41] Char g: 0.023414629337174975 %
[42] Char p: 0.023291394445926684 %
[43] Char y: 0.0219358106421955 %
[44] Char b: 0.020025669827847016 %
[45] Char C: 0.01990243493659873 %
[46] Char A: 0.017930676676626102 %
[47] Char B: 0.017437737111632944 %
[48] Char I: 0.017437737111632944 %
[49] Char k: 0.017437737111632944 %
[50] Char v: 0.016390240536022484 %
[51] Char f: 0.01632862309039834 %
[52] Char S: 0.015958918416653468 %
[53] Char M: 0.014418482276049855 %
[54] Char D: 0.013432603146063538 %
[55] Char T: 0.013186133363566959 %
[56] Char L: 0.012754811244197948 %
[57] Char P: 0.012508341461701369 %
[58] Char R: 0.010906287875473607 %
[59] Char E: 0.010598200647352883 %
[60] Char z: 0.010536583201728738 %
[61] Char w: 0.010474965756104595 %
[62] Char N: 0.009304234289245846 %
[63] Char G: 0.0086880598330044 %

The first 64 characters have an accumulated ratio of 0.9992796920606537.
The first 5 characters have an accumulated ratio of 0.4412277399275502.
All characters whose order is over 22 have an accumulated ratio of 0.031037939709794155.

1640 sequences found.

First 688 (typical positive ratio): 0.9950129360753337
Next 328 (1016-688): 0.0039909002477918065
Rest: 0.0009961636768744953

- Processing end: 2022-12-15 15:27:25.183725