diff options
author | Jehan <jehan@girinstud.io> | 2022-12-17 22:25:32 +0100 |
---|---|---|
committer | Jehan <jehan@girinstud.io> | 2022-12-17 22:47:54 +0100 |
commit | d00d4d52b7b389d970685491eccb10228ffccdbd (patch) | |
tree | a6a54ad761057a1b4455f9815569e5d23f68fd0e /script | |
parent | 41d309e8a28407372317b048342e2bb23d9c8959 (diff) |
src, script: add Macedonian support.
For UTF-8, ISO-8859-5, WINDOWS-1251 and IBM855 encodings.
Test files' contents come from page 'Хибернација' on Wikipedia in
Macedonian.
Diffstat (limited to 'script')
-rw-r--r-- | script/BuildLangModelLogs/LangMacedonianModel.log | 248 | ||||
-rw-r--r-- | script/langs/mk.py | 58 |
2 files changed, 306 insertions, 0 deletions
diff --git a/script/BuildLangModelLogs/LangMacedonianModel.log b/script/BuildLangModelLogs/LangMacedonianModel.log new file mode 100644 index 0000000..e442bcb --- /dev/null +++ b/script/BuildLangModelLogs/LangMacedonianModel.log @@ -0,0 +1,248 @@ += Logs of language model for Macedonian (mk) = + +- Generated by BuildLangModel.py +- Started: 2022-12-17 22:01:17.484142 +- Maximum depth: 4 +- Max number of pages: 200 + +== Parsed pages == + +Хелсинки (revision 4901169) +Западен Берлин (revision 4609007) +Средна Европа (revision 4658727) +Украина (revision 4859969) +Земји членки на Европската Унија (revision 3925804) +Кипар (revision 4898295) +Метрополитенска област (revision 4601372) +Вајмар (revision 4642566) +Гернзи (revision 4849858) +Летни олимписки игри 2008 (revision 4904330) +Кина (revision 4874294) +Пекинг (revision 4898517) +Бразил (revision 4887064) +Нормативна контрола (revision 4647772) +Пном Пен (revision 4655657) +Малта (revision 4859950) +Паритет на куповна моќ (revision 4885746) +Обединета нормативна податотека (revision 4624340) +ФИБА Европа (revision 4888619) +Белгија (revision 4881095) +Европски суд за човекови права (revision 4872819) +GMT (revision 4857360) +Јохан Волфганг фон Гете (revision 4847592) +Лондон (revision 4820446) +САД (revision 4887829) +Хонгконг (revision 4644474) +Регион (revision 4440392) +Шангај (revision 4829926) +Холандија (revision 4859982) +Национална библиотека на Австралија (revision 4821571) +Сантјаго де Компостела (revision 4790447) +В’лтава (revision 4480493) +Печ (revision 4836968) +Литванија (revision 4859985) +Централна Африка (revision 4880126) +1808 (revision 4205012) +Втора светска војна (revision 4878249) +Сувереност (revision 4847447) +Општествено уредување (revision 4562058) +Француска Гвајана (revision 4658818) +Бразавил (revision 4833032) +Англија (revision 4831557) +Сомалија (revision 4826045) +Собрание (revision 4721533) +Поштенски број (revision 4890825) +ISO 4217 (revision 4900097) +Никозија (revision 4821748) +Исток (revision 4575999) +Европа (revision 4898183) +Азија (revision 4879497) +Романија (revision 4880087) +Република Кина (revision 4859932) +Музејски Остров (revision 4642577) +Ченгду (revision 4838944) +Саудиска Арабија (revision 4904971) +Шри Ланка (revision 4829991) +Соединети Американски Држави (revision 4887829) +Питкерн (revision 4879701) +Берлин (revision 4898023) +Турција (revision 4898742) +Зимски олимписки игри 2022 (revision 4879017) +Страна на возење (revision 4883774) +Национална библиотека на Франција (revision 4859687) +Статуа на Исус Христос Искупителот (revision 4781328) +Грција (revision 4883904) +Британска Индоокеанска Територија (revision 4847444) +Германија (revision 4898116) +Унгарија (revision 4859996) +Список на земјите по највисок државен домен (revision 4660191) +Естонија (revision 4904061) +Ризница (Викимедија) (revision 4605630) +5 мај (revision 4286017) +Ријад (revision 4825472) +Баптизам (revision 4893797) +Индокина (revision 3860492) +ГДР (revision 4804373) +Черкаска Област (revision 4586879) +Данска (revision 4860001) +Источен Берлин (revision 4847439) +Парагвај (revision 4823976) +Студена војна (revision 4873005) +Лихтенштајн (revision 4859989) +Србија (revision 4888612) +1933 (revision 4205151) +Монголски јазик (revision 4822543) +Виртуелна меѓународна нормативна податотека (revision 4063132) +Европска Унија (revision 4878852) +Трет Рајх (revision 4873021) +Шведска (revision 4859974) +Тириншка Шума (revision 4620246) +Стрелаштво на Летните олимписки игри - 2008 (revision 4854954) +Караимски јазик (revision 4578663) +Бруто-домашен производ (revision 4839401) +Западна Европа (revision 4795691) +Туркиски јазици (revision 4811424) +Зимски олимписки игри 2006 (revision 4279937) +Список на држави и територии по површина (revision 4880407) +Венецијанска Република (revision 4872002) +Монголија (revision 4859944) +Држава Палестина (revision 4898178) +Список на земји (revision 4818847) +1821 (revision 4205027) +Контролен број на Конгресната библиотека (revision 4500225) +Јунан (revision 4609778) +Гибралтар (revision 4849866) +Тихи Океан (revision 4898720) +Брисел (revision 4816384) +Острава (revision 4648232) +Хрватска (revision 4859986) +Авганистан (revision 4897935) +Обединетото Кралство (revision 4878275) +Везер (revision 4611529) +Марлен Дитрих (revision 4898384) +Фарски Острови (revision 4828720) +Илм (округ) (revision 4622799) +Пакистан (revision 4893644) +Пафос (revision 4540073) +Москва (revision 4836476) +Океанија (revision 4847323) +Франција (revision 4859997) +Брно (revision 4654440) +Премиер на Кина (revision 4365963) +Тибетско писмо (revision 4855132) +Рајхстаг (revision 4748712) +Географија (revision 4593743) +Бенгалски календар (revision 4467317) +Соединетите Држави (revision 4887829) +Список на држави (revision 4818847) +Запорошка област (revision 4795592) +Литвански (revision 4847113) +ОБСЕ (revision 4751462) +Молиер (revision 4834680) +Моравскошлески крај (revision 4203476) +Португалија (revision 4859979) +Зимски олимписки игри 1948 (revision 4750285) +1938 (revision 4444155) +Град во Парагвај (revision 4530019) +Норвешка (revision 4859981) +Државно знаме (revision 3360721) +Уганда (revision 4828524) +Калај (revision 4901898) +Национална библиотека на Чешка (revision 4859689) +Кувајт (revision 4859952) +Национална парламентарна библиотека (Јапонија) (revision 4821574) +Сеул (revision 4837760) +Авторитаризам (revision 4763980) +Чисто писмо (revision 4648379) +УНЕСКО (revision 4768869) +Кампала (revision 4724511) +Монголи (revision 4821043) +Валдовињо (revision 4555459) +Стреличарство на Летните олимписки игри 2016 (revision 4827288) +Сеута (revision 4529464) +Тоуро (revision 4555813) +1880 (revision 4485297) +Кинески Тајпеј (revision 4859932) +Азербејџан (revision 4897943) +Источен Тимор (revision 4859940) +Меѓународен олимписки комитет (revision 4585376) +Обединето Кралство (revision 4878275) +Ежен Делакроа (revision 4850741) +Квадратен километар (revision 4177969) +Бронзено време (revision 4687506) + +== End of Parsed pages == + +- Wikipedia parsing ended at: 2022-12-17 22:04:50.749722 + +71 characters appeared 1512742 times. + +Most Frequent characters: +[ 0] Char а: 13.171909023481861 % +[ 1] Char о: 10.210531604199527 % +[ 2] Char и: 9.815156847631652 % +[ 3] Char е: 7.806089868596231 % +[ 4] Char н: 7.393263358854318 % +[ 5] Char т: 6.73862429945093 % +[ 6] Char р: 5.301366657367879 % +[ 7] Char с: 4.862098097362273 % +[ 8] Char в: 4.178372782668823 % +[ 9] Char к: 3.809307866113323 % +[10] Char д: 3.5743702495204075 % +[11] Char л: 3.571263308614423 % +[12] Char п: 2.6521376414484426 % +[13] Char м: 2.191384915603586 % +[14] Char у: 2.13499724341626 % +[15] Char ј: 1.9410448047320692 % +[16] Char г: 1.8507452030815565 % +[17] Char з: 1.656858869523025 % +[18] Char б: 1.3595180143077934 % +[19] Char ц: 0.8072757945505579 % +[20] Char ч: 0.6892120401231671 % +[21] Char ш: 0.6130589353637302 % +[22] Char ж: 0.44072287277010885 % +[23] Char ф: 0.3884998234993145 % +[24] Char х: 0.27631942525559544 % +[25] Char њ: 0.24419233418520805 % +[26] Char e: 0.19844758722901856 % +[27] Char i: 0.19097770802952518 % +[28] Char a: 0.17398869073510223 % +[29] Char ќ: 0.16175924248814405 % +[30] Char n: 0.14477022519372107 % +[31] Char ѓ: 0.14113444328246325 % +[32] Char r: 0.13577992810406533 % +[33] Char s: 0.12645910538611344 % +[34] Char t: 0.1238149003597441 % +[35] Char o: 0.11032945472526048 % +[36] Char l: 0.08944023501694275 % +[37] Char c: 0.08203646094310861 % +[38] Char u: 0.0737072151100452 % +[39] Char d: 0.06313039500456787 % +[40] Char m: 0.0618082924913832 % +[41] Char h: 0.055726620930733724 % +[42] Char џ: 0.054470623543208294 % +[43] Char g: 0.051165367260246626 % +[44] Char b: 0.043232752181138624 % +[45] Char p: 0.04078686253174699 % +[46] Char f: 0.030540568054565814 % +[47] Char k: 0.028160783530833414 % +[48] Char v: 0.02730141689726338 % +[49] Char y: 0.025847104132760243 % +[50] Char w: 0.02201300684452471 % +[51] Char x: 0.021219745336613912 % +[52] Char j: 0.009519138094929606 % +[53] Char z: 0.00786650995344877 % +[54] Char љ: 0.007403774073834138 % +[55] Char ѕ: 0.00489177929878327 % + +The first 56 characters have an accumulated ratio of 0.9998605181848591. +The first 4 characters have an accumulated ratio of 0.41003687343909273. +All characters whose order is over 22 have an accumulated ratio of 0.03216741519703955. + +1405 sequences found. + +First 613 (typical positive ratio): 0.9950204964819953 +Next 273 (886-613): 0.003979891583654749 +Rest: 0.0009996119343499421 + +- Processing end: 2022-12-17 22:04:50.898793 diff --git a/script/langs/mk.py b/script/langs/mk.py new file mode 100644 index 0000000..aee9748 --- /dev/null +++ b/script/langs/mk.py @@ -0,0 +1,58 @@ +#!/bin/python3 +# -*- coding: utf-8 -*- + +# ##### BEGIN LICENSE BLOCK ##### +# Version: MPL 1.1/GPL 2.0/LGPL 2.1 +# +# The contents of this file are subject to the Mozilla Public License Version +# 1.1 (the "License"); you may not use this file except in compliance with +# the License. You may obtain a copy of the License at +# http://www.mozilla.org/MPL/ +# +# Software distributed under the License is distributed on an "AS IS" basis, +# WITHOUT WARRANTY OF ANY KIND, either express or implied. See the License +# for the specific language governing rights and limitations under the +# License. +# +# The Original Code is Mozilla Universal charset detector code. +# +# The Initial Developer of the Original Code is +# Netscape Communications Corporation. +# Portions created by the Initial Developer are Copyright (C) 2001 +# the Initial Developer. All Rights Reserved. +# +# Contributor(s): +# Jehan <jehan@girinstud.io> +# +# Alternatively, the contents of this file may be used under the terms of +# either the GNU General Public License Version 2 or later (the "GPL"), or +# the GNU Lesser General Public License Version 2.1 or later (the "LGPL"), +# in which case the provisions of the GPL or the LGPL are applicable instead +# of those above. If you wish to allow use of your version of this file only +# under the terms of either the GPL or the LGPL, and not to allow others to +# use your version of this file under the terms of the MPL, indicate your +# decision by deleting the provisions above and replace them with the notice +# and other provisions required by the GPL or the LGPL. If you do not delete +# the provisions above, a recipient may use your version of this file under +# the terms of any one of the MPL, the GPL or the LGPL. +# +# ##### END LICENSE BLOCK ##### + +import re + +## Mandatory Properties ## + +name = 'Macedonian' +code = 'mk' +use_ascii = False +charsets = [ 'WINDOWS-1251', 'IBM855', 'ISO-8859-5' ] + +## Optional Properties ## + +# Alphabet characters. +alphabet = 'абвгдѓежзѕијклљмнњопрстќуфхцчџш' +# A starred page which was rewarded on the main page when I created +# the data. +start_pages = ['Хелсинки'] +wikipedia_code = code +case_mapping = True |