summaryrefslogtreecommitdiff
path: root/script
diff options
context:
space:
mode:
authorJehan <jehan@girinstud.io>2022-12-17 22:25:32 +0100
committerJehan <jehan@girinstud.io>2022-12-17 22:47:54 +0100
commitd00d4d52b7b389d970685491eccb10228ffccdbd (patch)
treea6a54ad761057a1b4455f9815569e5d23f68fd0e /script
parent41d309e8a28407372317b048342e2bb23d9c8959 (diff)
src, script: add Macedonian support.
For UTF-8, ISO-8859-5, WINDOWS-1251 and IBM855 encodings. Test files' contents come from page 'Хибернација' on Wikipedia in Macedonian.
Diffstat (limited to 'script')
-rw-r--r--script/BuildLangModelLogs/LangMacedonianModel.log248
-rw-r--r--script/langs/mk.py58
2 files changed, 306 insertions, 0 deletions
diff --git a/script/BuildLangModelLogs/LangMacedonianModel.log b/script/BuildLangModelLogs/LangMacedonianModel.log
new file mode 100644
index 0000000..e442bcb
--- /dev/null
+++ b/script/BuildLangModelLogs/LangMacedonianModel.log
@@ -0,0 +1,248 @@
+= Logs of language model for Macedonian (mk) =
+
+- Generated by BuildLangModel.py
+- Started: 2022-12-17 22:01:17.484142
+- Maximum depth: 4
+- Max number of pages: 200
+
+== Parsed pages ==
+
+Хелсинки (revision 4901169)
+Западен Берлин (revision 4609007)
+Средна Европа (revision 4658727)
+Украина (revision 4859969)
+Земји членки на Европската Унија (revision 3925804)
+Кипар (revision 4898295)
+Метрополитенска област (revision 4601372)
+Вајмар (revision 4642566)
+Гернзи (revision 4849858)
+Летни олимписки игри 2008 (revision 4904330)
+Кина (revision 4874294)
+Пекинг (revision 4898517)
+Бразил (revision 4887064)
+Нормативна контрола (revision 4647772)
+Пном Пен (revision 4655657)
+Малта (revision 4859950)
+Паритет на куповна моќ (revision 4885746)
+Обединета нормативна податотека (revision 4624340)
+ФИБА Европа (revision 4888619)
+Белгија (revision 4881095)
+Европски суд за човекови права (revision 4872819)
+GMT (revision 4857360)
+Јохан Волфганг фон Гете (revision 4847592)
+Лондон (revision 4820446)
+САД (revision 4887829)
+Хонгконг (revision 4644474)
+Регион (revision 4440392)
+Шангај (revision 4829926)
+Холандија (revision 4859982)
+Национална библиотека на Австралија (revision 4821571)
+Сантјаго де Компостела (revision 4790447)
+В’лтава (revision 4480493)
+Печ (revision 4836968)
+Литванија (revision 4859985)
+Централна Африка (revision 4880126)
+1808 (revision 4205012)
+Втора светска војна (revision 4878249)
+Сувереност (revision 4847447)
+Општествено уредување (revision 4562058)
+Француска Гвајана (revision 4658818)
+Бразавил (revision 4833032)
+Англија (revision 4831557)
+Сомалија (revision 4826045)
+Собрание (revision 4721533)
+Поштенски број (revision 4890825)
+ISO 4217 (revision 4900097)
+Никозија (revision 4821748)
+Исток (revision 4575999)
+Европа (revision 4898183)
+Азија (revision 4879497)
+Романија (revision 4880087)
+Република Кина (revision 4859932)
+Музејски Остров (revision 4642577)
+Ченгду (revision 4838944)
+Саудиска Арабија (revision 4904971)
+Шри Ланка (revision 4829991)
+Соединети Американски Држави (revision 4887829)
+Питкерн (revision 4879701)
+Берлин (revision 4898023)
+Турција (revision 4898742)
+Зимски олимписки игри 2022 (revision 4879017)
+Страна на возење (revision 4883774)
+Национална библиотека на Франција (revision 4859687)
+Статуа на Исус Христос Искупителот (revision 4781328)
+Грција (revision 4883904)
+Британска Индоокеанска Територија (revision 4847444)
+Германија (revision 4898116)
+Унгарија (revision 4859996)
+Список на земјите по највисок државен домен (revision 4660191)
+Естонија (revision 4904061)
+Ризница (Викимедија) (revision 4605630)
+5 мај (revision 4286017)
+Ријад (revision 4825472)
+Баптизам (revision 4893797)
+Индокина (revision 3860492)
+ГДР (revision 4804373)
+Черкаска Област (revision 4586879)
+Данска (revision 4860001)
+Источен Берлин (revision 4847439)
+Парагвај (revision 4823976)
+Студена војна (revision 4873005)
+Лихтенштајн (revision 4859989)
+Србија (revision 4888612)
+1933 (revision 4205151)
+Монголски јазик (revision 4822543)
+Виртуелна меѓународна нормативна податотека (revision 4063132)
+Европска Унија (revision 4878852)
+Трет Рајх (revision 4873021)
+Шведска (revision 4859974)
+Тириншка Шума (revision 4620246)
+Стрелаштво на Летните олимписки игри - 2008 (revision 4854954)
+Караимски јазик (revision 4578663)
+Бруто-домашен производ (revision 4839401)
+Западна Европа (revision 4795691)
+Туркиски јазици (revision 4811424)
+Зимски олимписки игри 2006 (revision 4279937)
+Список на држави и територии по површина (revision 4880407)
+Венецијанска Република (revision 4872002)
+Монголија (revision 4859944)
+Држава Палестина (revision 4898178)
+Список на земји (revision 4818847)
+1821 (revision 4205027)
+Контролен број на Конгресната библиотека (revision 4500225)
+Јунан (revision 4609778)
+Гибралтар (revision 4849866)
+Тихи Океан (revision 4898720)
+Брисел (revision 4816384)
+Острава (revision 4648232)
+Хрватска (revision 4859986)
+Авганистан (revision 4897935)
+Обединетото Кралство (revision 4878275)
+Везер (revision 4611529)
+Марлен Дитрих (revision 4898384)
+Фарски Острови (revision 4828720)
+Илм (округ) (revision 4622799)
+Пакистан (revision 4893644)
+Пафос (revision 4540073)
+Москва (revision 4836476)
+Океанија (revision 4847323)
+Франција (revision 4859997)
+Брно (revision 4654440)
+Премиер на Кина (revision 4365963)
+Тибетско писмо (revision 4855132)
+Рајхстаг (revision 4748712)
+Географија (revision 4593743)
+Бенгалски календар (revision 4467317)
+Соединетите Држави (revision 4887829)
+Список на држави (revision 4818847)
+Запорошка област (revision 4795592)
+Литвански (revision 4847113)
+ОБСЕ (revision 4751462)
+Молиер (revision 4834680)
+Моравскошлески крај (revision 4203476)
+Португалија (revision 4859979)
+Зимски олимписки игри 1948 (revision 4750285)
+1938 (revision 4444155)
+Град во Парагвај (revision 4530019)
+Норвешка (revision 4859981)
+Државно знаме (revision 3360721)
+Уганда (revision 4828524)
+Калај (revision 4901898)
+Национална библиотека на Чешка (revision 4859689)
+Кувајт (revision 4859952)
+Национална парламентарна библиотека (Јапонија) (revision 4821574)
+Сеул (revision 4837760)
+Авторитаризам (revision 4763980)
+Чисто писмо (revision 4648379)
+УНЕСКО (revision 4768869)
+Кампала (revision 4724511)
+Монголи (revision 4821043)
+Валдовињо (revision 4555459)
+Стреличарство на Летните олимписки игри 2016 (revision 4827288)
+Сеута (revision 4529464)
+Тоуро (revision 4555813)
+1880 (revision 4485297)
+Кинески Тајпеј (revision 4859932)
+Азербејџан (revision 4897943)
+Источен Тимор (revision 4859940)
+Меѓународен олимписки комитет (revision 4585376)
+Обединето Кралство (revision 4878275)
+Ежен Делакроа (revision 4850741)
+Квадратен километар (revision 4177969)
+Бронзено време (revision 4687506)
+
+== End of Parsed pages ==
+
+- Wikipedia parsing ended at: 2022-12-17 22:04:50.749722
+
+71 characters appeared 1512742 times.
+
+Most Frequent characters:
+[ 0] Char а: 13.171909023481861 %
+[ 1] Char о: 10.210531604199527 %
+[ 2] Char и: 9.815156847631652 %
+[ 3] Char е: 7.806089868596231 %
+[ 4] Char н: 7.393263358854318 %
+[ 5] Char т: 6.73862429945093 %
+[ 6] Char р: 5.301366657367879 %
+[ 7] Char с: 4.862098097362273 %
+[ 8] Char в: 4.178372782668823 %
+[ 9] Char к: 3.809307866113323 %
+[10] Char д: 3.5743702495204075 %
+[11] Char л: 3.571263308614423 %
+[12] Char п: 2.6521376414484426 %
+[13] Char м: 2.191384915603586 %
+[14] Char у: 2.13499724341626 %
+[15] Char ј: 1.9410448047320692 %
+[16] Char г: 1.8507452030815565 %
+[17] Char з: 1.656858869523025 %
+[18] Char б: 1.3595180143077934 %
+[19] Char ц: 0.8072757945505579 %
+[20] Char ч: 0.6892120401231671 %
+[21] Char ш: 0.6130589353637302 %
+[22] Char ж: 0.44072287277010885 %
+[23] Char ф: 0.3884998234993145 %
+[24] Char х: 0.27631942525559544 %
+[25] Char њ: 0.24419233418520805 %
+[26] Char e: 0.19844758722901856 %
+[27] Char i: 0.19097770802952518 %
+[28] Char a: 0.17398869073510223 %
+[29] Char ќ: 0.16175924248814405 %
+[30] Char n: 0.14477022519372107 %
+[31] Char ѓ: 0.14113444328246325 %
+[32] Char r: 0.13577992810406533 %
+[33] Char s: 0.12645910538611344 %
+[34] Char t: 0.1238149003597441 %
+[35] Char o: 0.11032945472526048 %
+[36] Char l: 0.08944023501694275 %
+[37] Char c: 0.08203646094310861 %
+[38] Char u: 0.0737072151100452 %
+[39] Char d: 0.06313039500456787 %
+[40] Char m: 0.0618082924913832 %
+[41] Char h: 0.055726620930733724 %
+[42] Char џ: 0.054470623543208294 %
+[43] Char g: 0.051165367260246626 %
+[44] Char b: 0.043232752181138624 %
+[45] Char p: 0.04078686253174699 %
+[46] Char f: 0.030540568054565814 %
+[47] Char k: 0.028160783530833414 %
+[48] Char v: 0.02730141689726338 %
+[49] Char y: 0.025847104132760243 %
+[50] Char w: 0.02201300684452471 %
+[51] Char x: 0.021219745336613912 %
+[52] Char j: 0.009519138094929606 %
+[53] Char z: 0.00786650995344877 %
+[54] Char љ: 0.007403774073834138 %
+[55] Char ѕ: 0.00489177929878327 %
+
+The first 56 characters have an accumulated ratio of 0.9998605181848591.
+The first 4 characters have an accumulated ratio of 0.41003687343909273.
+All characters whose order is over 22 have an accumulated ratio of 0.03216741519703955.
+
+1405 sequences found.
+
+First 613 (typical positive ratio): 0.9950204964819953
+Next 273 (886-613): 0.003979891583654749
+Rest: 0.0009996119343499421
+
+- Processing end: 2022-12-17 22:04:50.898793
diff --git a/script/langs/mk.py b/script/langs/mk.py
new file mode 100644
index 0000000..aee9748
--- /dev/null
+++ b/script/langs/mk.py
@@ -0,0 +1,58 @@
+#!/bin/python3
+# -*- coding: utf-8 -*-
+
+# ##### BEGIN LICENSE BLOCK #####
+# Version: MPL 1.1/GPL 2.0/LGPL 2.1
+#
+# The contents of this file are subject to the Mozilla Public License Version
+# 1.1 (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+# http://www.mozilla.org/MPL/
+#
+# Software distributed under the License is distributed on an "AS IS" basis,
+# WITHOUT WARRANTY OF ANY KIND, either express or implied. See the License
+# for the specific language governing rights and limitations under the
+# License.
+#
+# The Original Code is Mozilla Universal charset detector code.
+#
+# The Initial Developer of the Original Code is
+# Netscape Communications Corporation.
+# Portions created by the Initial Developer are Copyright (C) 2001
+# the Initial Developer. All Rights Reserved.
+#
+# Contributor(s):
+# Jehan <jehan@girinstud.io>
+#
+# Alternatively, the contents of this file may be used under the terms of
+# either the GNU General Public License Version 2 or later (the "GPL"), or
+# the GNU Lesser General Public License Version 2.1 or later (the "LGPL"),
+# in which case the provisions of the GPL or the LGPL are applicable instead
+# of those above. If you wish to allow use of your version of this file only
+# under the terms of either the GPL or the LGPL, and not to allow others to
+# use your version of this file under the terms of the MPL, indicate your
+# decision by deleting the provisions above and replace them with the notice
+# and other provisions required by the GPL or the LGPL. If you do not delete
+# the provisions above, a recipient may use your version of this file under
+# the terms of any one of the MPL, the GPL or the LGPL.
+#
+# ##### END LICENSE BLOCK #####
+
+import re
+
+## Mandatory Properties ##
+
+name = 'Macedonian'
+code = 'mk'
+use_ascii = False
+charsets = [ 'WINDOWS-1251', 'IBM855', 'ISO-8859-5' ]
+
+## Optional Properties ##
+
+# Alphabet characters.
+alphabet = 'абвгдѓежзѕијклљмнњопрстќуфхцчџш'
+# A starred page which was rewarded on the main page when I created
+# the data.
+start_pages = ['Хелсинки']
+wikipedia_code = code
+case_mapping = True