summaryrefslogtreecommitdiff
path: root/script/BuildLangModelLogs/LangHebrewModel.log
blob: 7d77ed547e5d686727e439c72c1a03ee54dad4b9 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
= Logs of language model for Hebrew (he) =

- Generated by BuildLangModel.py
- Started: 2022-12-14 23:51:45.820761
- Maximum depth: 4
- Max number of pages: 200

== Parsed pages ==

יהדות_בוקרשט (revision 35182799)
22 במרץ (revision 34452506)
אלכסנדר איפסילנטי (הנכד) (revision 34666729)
1812 (revision 25165786)
ולאכים (revision 34292795)
לאזאר שינאנו (revision 28852393)
1857 (revision 26643435)
פסח (revision 35070750)
אירופה (revision 35154728)
אוסטרו-הונגריה (revision 35232497)
1918 (revision 34819769)
טרנסילבניה (revision 34937962)
גאלאץ (revision 35110599)
5 במרץ (revision 34881550)
4 בנובמבר (revision 34653109)
י' באדר (revision 34929200)
צ'כוסלובקיה (revision 35018067)
1813 (revision 35224967)
מונטניה (revision 32867963)
איחוד הנסיכויות הרומניות (revision 34573782)
ורסאי (revision 33228948)
התעמלות (revision 33465424)
גסטה הונגרורום (revision 34050008)
ערב פסח (revision 34567652)
נס (revision 35036327)
קובץ בקרה משולב (revision 34980719)
דימיטריוס איפסילנטי (revision 30504939)
אפריקה (revision 35211326)
דנובה (revision 35092661)
אוקראינה (revision 35229535)
גיבור לאומי (revision 34626677)
2022 (revision 35212298)
בית הבסבורג (revision 35149190)
הספרייה הלאומית של יוון (revision 34171107)
חנינה (revision 34701982)
קיבוץ (revision 35167035)
ט"ו באייר (revision 33760929)
פלנדריה (revision 33811227)
978 (revision 34219188)
קרואטיה (revision 35208639)
28 בדצמבר (revision 35110007)
ספטאר (revision 19132086)
מצבות (revision 35144605)
אתונה (revision 35225868)
המפלגה הרפובליקנית (revision 35075441)
ויקישיתוף (revision 34805938)
23 בדצמבר (revision 35039131)
האימפריה הביזנטית (revision 35036469)
אוסטריה (revision 35099816)
כ"ו בסיוון (revision 34929226)
בית עלמין (revision 34251157)
24 במרץ (revision 34871871)
הספרייה הלאומית של שוודיה (revision 33961967)
פיימונטה (revision 32640611)
אנציקלופדיה בריטניקה (revision 35145787)
קרן ויקימדיה (revision 35175443)
קונרד פון הצנדורף (revision 34979858)
STS-3 (revision 35050894)
אלברט בגר (revision 34720226)
ראש השנה (revision 35059458)
ספרות (revision 35203120)
קרואטית (revision 32668378)
WorldCat (revision 34980710)
המאה ה-11 (revision 34809813)
1910-1919 (revision 35049268)
אנדריי הקדוש (revision 34598498)
מיכאיל השני (revision 34445805)
קולונל (revision 34566784)
ז' באייר (revision 33760918)
כ"ג בתשרי (revision 34235305)
אזור זמן (revision 35002518)
13 ביוני (revision 35157854)
רומנית (revision 35154129)
סורבון (revision 34389722)
סגן-אלוף (revision 35196592)
מורש (revision 32633346)
אוניברסיטת לייפציג (revision 34568149)
5 בדצמבר (revision 35190389)
ולשים (revision 34848696)
הספרייה הלאומית של לטביה (revision 34633898)
תנור מיקרוגל (revision 34792045)
יאשי (revision 34273547)
אלבה יוליה (revision 33226243)
יוון העתיקה (revision 35186156)
ימי הביניים (revision 35195331)
2016 (revision 33649777)
סרבית (revision 32666563)
א' בתשרי (revision 35012340)
גרמניה (revision 35193278)
1946 (revision 34549625)
צי הים השחור (revision 34799823)
13 באוגוסט (revision 35146746)
קולוניאליזם (revision 35161793)
רקדן (revision 34022227)
פינלנד (revision 35217495)
יין (revision 35158494)
הלוח העברי (revision 35191477)
כ"ט באייר (revision 34566795)
איכר (revision 35209785)
יואניס קפודיסטריאס (revision 32537246)
28 בספטמבר (revision 34764952)
22 ביוני (revision 35068229)
נצרות אורתודוקסית (revision 35181856)
חבל ארץ (revision 34910269)
שובבי"ם (revision 33243828)
צפצפה (revision 34734441)
אינגמר ברגמן (revision 34902789)
הספרייה הלאומית של צרפת (revision 34954915)
1877 (revision 27881506)
ו' בטבת (revision 34968733)
ממלכת הונגריה (revision 34874665)
מדינת זלצבורג (revision 33184168)
13 באפריל (revision 35224094)
85 (revision 30174062)
רומניה (revision 35063882)
רש"י (revision 35059927)
טימישוארה (revision 35029927)
15 בפברואר (revision 35158681)
הספרייה הלאומית (revision 35173909)
פולנית (revision 35067795)
אנשלוס (revision 34458944)
כ"ד באב (revision 34889013)
דומיטיאנוס (revision 35185961)
קונסטנטין איפסילנטי (revision 31063233)
הלוח הקראי (revision 33599480)
פניני הלכה (revision 34937953)
כ"ז באדר (revision 33868660)
23 באפריל (revision 35127136)
ניו יורק (revision 35216514)
הארכיון הלאומי של ארצות הברית (revision 33086492)
הספרייה הלאומית של הולנד (revision 34603407)
ארומנים (revision 35094875)
1935 (revision 34549609)
1988 (revision 32747522)
ויליאם מרסי (revision 32555101)
26 ביולי (revision 34638841)
דלמטיה (revision 32779937)
מצרים (revision 35232714)
19 במרץ (revision 34288440)
10 באוגוסט (revision 35202828)
קרחון (revision 33190499)
לגיון הכבוד (revision 32631175)
מועצת האיחוד האירופי (revision 34940586)
ים מרמרה (revision 34966060)
ארמית (revision 35199208)
פלוישט (revision 33480182)
מערכת התיעוד האוניברסיטאית (צרפת) (revision 34033122)
ט"ז בתשרי (revision 34975870)
תשרי (revision 35214048)
2015 (revision 33078518)
1 בספטמבר (revision 34604999)
רועה צאן (revision 35190455)
מסחר (revision 35199982)
לילה טרטיקוב (revision 34247187)
נסיכות מולדובה (revision 34307667)
שפות קלטיות (revision 32669163)
2 במרץ (revision 34881461)
אביר (revision 35210360)
יוחנן בן זבדי (revision 34992438)
טומס לייטרסדורף (revision 34885446)
לשון סגי נהור (revision 33284044)
רפורמציה (revision 34057367)
רומאני (שפה) (revision 32668582)
גרוסגלוקנר (revision 33563588)
בירגיט אנטונסן (revision 30296687)
ועידת ניקיאה (revision 32627552)
סרט קולנוע (revision 35150502)
הונגרית (revision 35067792)
המנון אוסטריה (revision 35025960)
אדוארד טיצ'נר (revision 30414251)
823 (revision 34214879)
אנו (פרובינציה) (revision 34152356)
שוקולד (revision 35227942)
24 בפברואר (revision 35197344)
אוצר דינים ומנהגים (revision 29520131)
מלחמת העצמאות (revision 35192826)
כ"ח בתשרי (revision 33760633)
1910 (revision 25165898)
טורפים (revision 35208149)
ו' בתשרי (revision 33760609)
ישיבת פוניבז' לצעירים (revision 35205466)
12 במאי (revision 35141724)
בולגריה (revision 35214066)
דאקיה (revision 35210657)
איטליה (revision 35204156)
אריה ניר הוצאה לאור (revision 35013765)
אוניברסיטת שטרסבורג (revision 34977931)
משרד המסחר והתעשייה (revision 35216585)
1836 (revision 25165811)
חסידות זידיטשוב (revision 35178483)
בקר הבית (revision 35234239)
פסיכיאטר (revision 34428172)
י"ב באייר (revision 34444494)
יהדות גרמניה (revision 34989399)

== End of Parsed pages ==

- Wikipedia parsing ended at: 2022-12-14 23:55:24.013499

80 characters appeared 1484111 times.

Most Frequent characters:
[ 0] Char י: 12.060486041812236 %
[ 1] Char ו: 11.073026208956069 %
[ 2] Char ה: 8.602254144063348 %
[ 3] Char ר: 6.503556674669213 %
[ 4] Char ל: 6.033106688111603 %
[ 5] Char ב: 5.481800215752056 %
[ 6] Char ת: 5.432208237793534 %
[ 7] Char מ: 5.147728168580382 %
[ 8] Char א: 4.6662951760346765 %
[ 9] Char ש: 4.158988108032351 %
[10] Char נ: 3.8866365116894896 %
[11] Char ם: 2.7109832081293113 %
[12] Char ד: 2.617054923789393 %
[13] Char ע: 2.4286593118708772 %
[14] Char ק: 2.396788380383947 %
[15] Char פ: 2.263846841644594 %
[16] Char ח: 2.159339833745589 %
[17] Char ס: 2.0885230282640586 %
[18] Char כ: 1.8159019103018574 %
[19] Char ט: 1.6087745458392262 %
[20] Char ג: 1.4954407049068432 %
[21] Char צ: 1.2486262819964276 %
[22] Char ן: 1.2011230965877888 %
[23] Char ז: 0.8258142416571267 %
[24] Char ך: 0.3579920908880805 %
[25] Char ף: 0.19762672738090342 %
[26] Char ץ: 0.1861046781541273 %
[27] Char e: 0.1302463225459551 %
[28] Char a: 0.12243019558510111 %
[29] Char i: 0.11131242878733463 %
[30] Char r: 0.08961593843048128 %
[31] Char n: 0.08665120061774355 %
[32] Char o: 0.07634199867799646 %
[33] Char t: 0.07108632710087048 %
[34] Char l: 0.06502209066572515 %
[35] Char s: 0.06151830961430783 %
[36] Char u: 0.05019840160203651 %
[37] Char c: 0.039350156423609825 %
[38] Char d: 0.035576853752852716 %
[39] Char m: 0.03463352808516344 %
[40] Char h: 0.023583141692231916 %
[41] Char g: 0.02250505521487274 %
[42] Char C: 0.01866437213928069 %
[43] Char v: 0.017653666066756463 %
[44] Char p: 0.017653666066756463 %
[45] Char A: 0.01610391675555265 %
[46] Char S: 0.016036536350717702 %
[47] Char b: 0.01576701473137791 %
[48] Char I: 0.01563225392170801 %
[49] Char y: 0.013880363395999356 %
[50] Char T: 0.013476080966989665 %
[51] Char B: 0.013273939752484821 %
[52] Char D: 0.013273939752484821 %
[53] Char M: 0.013004418133145026 %
[54] Char k: 0.012734896513805235 %
[55] Char f: 0.012397994489630491 %
[56] Char P: 0.010039680320407302 %
[57] Char E: 0.009770158701067507 %
[58] Char G: 0.009500637081727714 %
[59] Char L: 0.009365876272057818 %
[60] Char N: 0.00929849586722287 %
[61] Char R: 0.008422550604368542 %
[62] Char F: 0.0070075621028346255 %
[63] Char z: 0.006940181697999678 %

The first 64 characters have an accumulated ratio of 0.9994865613151579.
The first 5 characters have an accumulated ratio of 0.44272429757612475.
All characters whose order is over 21 have an accumulated ratio of 0.04068630985148685.

1571 sequences found.

First 663 (typical positive ratio): 0.9950033744779837
Next 339 (1002-663): 0.003997985590807662
Rest: 0.0009986399312086336

- Processing end: 2022-12-14 23:55:24.184437