diff options
author | Jehan <jehan@girinstud.io> | 2016-02-19 19:07:20 +0100 |
---|---|---|
committer | Jehan <jehan@girinstud.io> | 2016-02-19 19:10:41 +0100 |
commit | 923d264470cbaa45c6dd1f6b11ef35aa5960d914 (patch) | |
tree | 57e434d9d572b3efda7e8f6d95f0b526683ce4a4 /test | |
parent | 1694999bcece95e6e7fad50e83c7edcc1efa95ef (diff) |
LangModels: add Danish support (Windows-1252, ISO-8859-1 and ISO-8859-15).
Test for ISO-8859-1 is disabled for now since the difference is not big
enough, as for characters used in Danish, between ISO-8859-1 and
ISO-8859-15. Therefore the first to be declared "wins".
Let's see to improve this later.
Test contents from:
https://da.wikipedia.org/wiki/Eurosymbol
https://da.wikipedia.org/wiki/Dansk_%28sprog%29
Diffstat (limited to 'test')
-rw-r--r-- | test/CMakeLists.txt | 1 | ||||
-rw-r--r-- | test/da/iso-8859-1.txt | 7 | ||||
-rw-r--r-- | test/da/iso-8859-15.txt | 10 | ||||
-rw-r--r-- | test/da/utf-8.txt | 10 | ||||
-rw-r--r-- | test/da/windows-1252.txt | 10 |
5 files changed, 38 insertions, 0 deletions
diff --git a/test/CMakeLists.txt b/test/CMakeLists.txt index a36a739..0339263 100644 --- a/test/CMakeLists.txt +++ b/test/CMakeLists.txt @@ -37,6 +37,7 @@ foreach(dir ${dirs}) if ("${lang}:${charset}" STREQUAL "ja:utf-16le" OR "${lang}:${charset}" STREQUAL "ja:utf-16be" OR "${lang}:${charset}" STREQUAL "es:iso-8859-15" OR + "${lang}:${charset}" STREQUAL "da:iso-8859-1" OR "${lang}:${charset}" STREQUAL "he:iso-8859-8") message(STATUS "Skipping test ${lang}:${charset} (known broken)") else() diff --git a/test/da/iso-8859-1.txt b/test/da/iso-8859-1.txt new file mode 100644 index 0000000..f36d4ab --- /dev/null +++ b/test/da/iso-8859-1.txt @@ -0,0 +1,7 @@ +Dansk er et nord-germansk sprog af den østnordiske (kontinentale) gruppe, der +tales af ca. seks millioner mennesker. Det er stærkt påvirket af plattysk. Dansk +tales også i Sydslesvig (i Flensborg ca. 20 %) samt på Færøerne og Grønland [1]. +Dansk er tæt forbundet med norsk. Fra et sprogvidenskabeligt synspunkt kan den +fremherskende form af norsk, bokmål (og i endnu højere grad riksmål), betragtes +som dansk, i hvert fald hvad skriftsproget angår. Både dansk, norsk og svensk er +skandinaviske sprog og minder meget om hinanden. diff --git a/test/da/iso-8859-15.txt b/test/da/iso-8859-15.txt new file mode 100644 index 0000000..c400e0a --- /dev/null +++ b/test/da/iso-8859-15.txt @@ -0,0 +1,10 @@ +Eurosymbolet eller eurotegnet (¤) anvendes som valutasymbol for møntenheden +euro. Symbolsk kombinerer det et E eller et græsk epsilon med de to parallelle +streger, man ofte ser i valutasymboler. + +Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier +hævder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens +andre påstår, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis +er ingen af disse forklaringer korrekte, da Den Paneuropæiske Union udsendte en +'1 euro'-medalje i 1972, hvorpå man kan se et symbol, der i høj grad ligner det +nuværende eurosymbol. diff --git a/test/da/utf-8.txt b/test/da/utf-8.txt new file mode 100644 index 0000000..e5e0274 --- /dev/null +++ b/test/da/utf-8.txt @@ -0,0 +1,10 @@ +Eurosymbolet eller eurotegnet (€) anvendes som valutasymbol for møntenheden +euro. Symbolsk kombinerer det et E eller et græsk epsilon med de to parallelle +streger, man ofte ser i valutasymboler. + +Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier +hævder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens +andre pÃ¥stÃ¥r, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis +er ingen af disse forklaringer korrekte, da Den Paneuropæiske Union udsendte en +'1 euro'-medalje i 1972, hvorpÃ¥ man kan se et symbol, der i høj grad ligner det +nuværende eurosymbol. diff --git a/test/da/windows-1252.txt b/test/da/windows-1252.txt new file mode 100644 index 0000000..db8faf1 --- /dev/null +++ b/test/da/windows-1252.txt @@ -0,0 +1,10 @@ +Eurosymbolet eller eurotegnet (€) anvendes som valutasymbol for møntenheden +euro. Symbolsk kombinerer det et E eller et græsk epsilon med de to parallelle +streger, man ofte ser i valutasymboler. + +Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier +hævder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens +andre påstår, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis +er ingen af disse forklaringer korrekte, da Den Paneuropæiske Union udsendte en +'1 euro'-medalje i 1972, hvorpå man kan se et symbol, der i høj grad ligner det +nuværende eurosymbol. |