summaryrefslogtreecommitdiff
path: root/test
diff options
context:
space:
mode:
authorJehan <jehan@girinstud.io>2016-02-19 19:07:20 +0100
committerJehan <jehan@girinstud.io>2016-02-19 19:10:41 +0100
commit923d264470cbaa45c6dd1f6b11ef35aa5960d914 (patch)
tree57e434d9d572b3efda7e8f6d95f0b526683ce4a4 /test
parent1694999bcece95e6e7fad50e83c7edcc1efa95ef (diff)
LangModels: add Danish support (Windows-1252, ISO-8859-1 and ISO-8859-15).
Test for ISO-8859-1 is disabled for now since the difference is not big enough, as for characters used in Danish, between ISO-8859-1 and ISO-8859-15. Therefore the first to be declared "wins". Let's see to improve this later. Test contents from: https://da.wikipedia.org/wiki/Eurosymbol https://da.wikipedia.org/wiki/Dansk_%28sprog%29
Diffstat (limited to 'test')
-rw-r--r--test/CMakeLists.txt1
-rw-r--r--test/da/iso-8859-1.txt7
-rw-r--r--test/da/iso-8859-15.txt10
-rw-r--r--test/da/utf-8.txt10
-rw-r--r--test/da/windows-1252.txt10
5 files changed, 38 insertions, 0 deletions
diff --git a/test/CMakeLists.txt b/test/CMakeLists.txt
index a36a739..0339263 100644
--- a/test/CMakeLists.txt
+++ b/test/CMakeLists.txt
@@ -37,6 +37,7 @@ foreach(dir ${dirs})
if ("${lang}:${charset}" STREQUAL "ja:utf-16le" OR
"${lang}:${charset}" STREQUAL "ja:utf-16be" OR
"${lang}:${charset}" STREQUAL "es:iso-8859-15" OR
+ "${lang}:${charset}" STREQUAL "da:iso-8859-1" OR
"${lang}:${charset}" STREQUAL "he:iso-8859-8")
message(STATUS "Skipping test ${lang}:${charset} (known broken)")
else()
diff --git a/test/da/iso-8859-1.txt b/test/da/iso-8859-1.txt
new file mode 100644
index 0000000..f36d4ab
--- /dev/null
+++ b/test/da/iso-8859-1.txt
@@ -0,0 +1,7 @@
+Dansk er et nord-germansk sprog af den østnordiske (kontinentale) gruppe, der
+tales af ca. seks millioner mennesker. Det er stærkt påvirket af plattysk. Dansk
+tales også i Sydslesvig (i Flensborg ca. 20 %) samt på Færøerne og Grønland [1].
+Dansk er tæt forbundet med norsk. Fra et sprogvidenskabeligt synspunkt kan den
+fremherskende form af norsk, bokmål (og i endnu højere grad riksmål), betragtes
+som dansk, i hvert fald hvad skriftsproget angår. Både dansk, norsk og svensk er
+skandinaviske sprog og minder meget om hinanden.
diff --git a/test/da/iso-8859-15.txt b/test/da/iso-8859-15.txt
new file mode 100644
index 0000000..c400e0a
--- /dev/null
+++ b/test/da/iso-8859-15.txt
@@ -0,0 +1,10 @@
+Eurosymbolet eller eurotegnet (¤) anvendes som valutasymbol for møntenheden
+euro. Symbolsk kombinerer det et E eller et græsk epsilon med de to parallelle
+streger, man ofte ser i valutasymboler.
+
+Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier
+hævder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens
+andre påstår, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis
+er ingen af disse forklaringer korrekte, da Den Paneuropæiske Union udsendte en
+'1 euro'-medalje i 1972, hvorpå man kan se et symbol, der i høj grad ligner det
+nuværende eurosymbol.
diff --git a/test/da/utf-8.txt b/test/da/utf-8.txt
new file mode 100644
index 0000000..e5e0274
--- /dev/null
+++ b/test/da/utf-8.txt
@@ -0,0 +1,10 @@
+Eurosymbolet eller eurotegnet (€) anvendes som valutasymbol for møntenheden
+euro. Symbolsk kombinerer det et E eller et græsk epsilon med de to parallelle
+streger, man ofte ser i valutasymboler.
+
+Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier
+hævder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens
+andre påstår, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis
+er ingen af disse forklaringer korrekte, da Den Paneuropæiske Union udsendte en
+'1 euro'-medalje i 1972, hvorpå man kan se et symbol, der i høj grad ligner det
+nuværende eurosymbol.
diff --git a/test/da/windows-1252.txt b/test/da/windows-1252.txt
new file mode 100644
index 0000000..db8faf1
--- /dev/null
+++ b/test/da/windows-1252.txt
@@ -0,0 +1,10 @@
+Eurosymbolet eller eurotegnet (€) anvendes som valutasymbol for møntenheden
+euro. Symbolsk kombinerer det et E eller et græsk epsilon med de to parallelle
+streger, man ofte ser i valutasymboler.
+
+Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier
+hævder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens
+andre påstår, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis
+er ingen af disse forklaringer korrekte, da Den Paneuropæiske Union udsendte en
+'1 euro'-medalje i 1972, hvorpå man kan se et symbol, der i høj grad ligner det
+nuværende eurosymbol.