blob: 93cfec1f90208bfd328251236a66445162c98b09 (
plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
|
Descrição da estrutura dos dados necessários para MyThes
-------------------------------------------------- ------
MyThes é muito simples. Quase todos os "smarts" são realmente
no próprio arquivo de dados do dicionário de sinônimos.
O formato deste arquivo é o seguinte:
- sem dados binários
- o final da linha é uma nova linha '\n' e não um retorno de carro/avanços de linha
- A linha 1 é uma string de caracteres que descreve a codificação usada para o arquivo. Cabe ao programa de chamada converter
de e para esta codificação, se necessário.
ISO8859-1 é usado pelo arquivo th_en_US_new.dat.
Strings atualmente reconhecidas pelo OpenOffice.org são:
ISO8859-1
ISO8859-2
ISO8859-3
ISO8859-4
ISO8859-5
ISO8859-6
ISO8859-7
ISO8859-8
ISO8859-9
ISO8859-10
KOI8-R
CP-1251
ISO8859-14
ISCII-DEVANAGARI
UTF8
- Todas as linhas remanescentes do arquivo seguem esta estrutura
entrada|num_mean
pos|syn1_mean|syn2|...
.
.
.
pos|mean_syn1|syn2|...
Onde:
entrada - todas as versões em minúsculas da palavra ou frase que está sendo descrita
num_mean - número de significados para esta entrada
Há um significado por linha e cada significado é composto por
pos - classe gramatical ou outra descrição específica de significado
syn1_mean - sinônimo 1 também usado para descrever o próprio significado
syn2 - sinônimo 2 para esse significado etc.
Para tornar isso ainda mais claro, aqui estão os dados reais para o
entrada "simples".
simples|9
(adj)|simples|elementar|final|supersimplificado|simplista|simplex|simplificado|não analisável |
não decomposto|não complicado|não sofisticado|fácil|simples|não subdividido
(adj)|elementar|simples|não problemático|fácil
(adj)|nua|mera|simples
(adj)|infantil|olhos arregalados|olhos orvalhados|ingênuo|naif
(adj)|estúpido|estúpido|simplório|retardado
(adj)|simples|não subdividido|sem lóbulo|suave
(adj)|simples
(substantivo)|erva|planta herbácea
(substantivo)|simplório|pessoa|indivíduo|alguém|alguém|mortal|humano|alma
Diz que "simples" tem 9 significados diferentes e cada
o significado terá sua classe gramatical e pelo menos 1 sinônimo
com outro se predefinido seguindo na mesma linha.
Depois de criar seu próprio arquivo de texto estruturado, você pode usar
o programa perl "th_gen_idx.pl" que pode ser encontrado neste
diretório para criar um arquivo de índice que é usado para buscar em
seu arquivo de dados pelo código MyThes.
A maneira correta de executar o programa perl é a seguinte:
cat th_en_US_new.dat|./th_gen_idx.pl> th_en_US_new.idx
Então, se você liderar o arquivo de índice resultante, deverá ver o
Segue:
ISO8859-1
142689
'capô|10
Gravenhage de|88
'tween|173
'tween decks|196
.22|231
.22 calibre|319
.22 calibre|365
Calibre 38|411
Calibre 38|457
Calibre .45|503
Calibre .45|549
0|595
1|666
1 crônicas|6283
1 esdras|6336
A linha 1 é a mesma string de codificação tirada do
arquivo de dados de dicionário de sinônimos estruturado.
A linha 2 é uma contagem do número total de entradas
em seu dicionário de sinônimos.
Todas as linhas restantes são do formulário
entrada|byte_offset_into_data_file_where_entry_is_found
Isso é tudo que existe também.
Kevin
kevin.hendricks@sympatico.ca
|