source: documented-example-collections/trunk/wrdpdf-e/etc/collect.cfg@ 18738

Last change on this file since 18738 was 18738, checked in by oranfry, 15 years ago

the rest of the documented example collections

  • Property svn:executable set to *
File size: 16.3 KB
Line 
1creator [email protected]
2public true
3
4beta false
5
6plugin WordPlug
7plugin RTFPlug
8plugin PDFPlug
9plugin PSPlug
10plugin GAPlug
11plugin ArcPlug
12plugin RecPlug -use_metadata_files
13
14indexes document:text
15
16classify AZList -metadata Title
17
18format DocumentHeading ""
19format DocumentButtons ""
20
21
22collectionmeta iconcollection [l=en] _httpprefix_/collect/wrdpdf-e/images/en/wrdpdf-e.gif
23collectionmeta iconcollection [l=fr] _httpprefix_/collect/wrdpdf-e/images/fr/wrdpdf-e.gif
24collectionmeta iconcollection [l=es] _httpprefix_/collect/wrdpdf-e/images/es/wrdpdf-e.gif
25collectionmeta iconcollection [l=ru] _httpprefix_/collect/wrdpdf-e/images/ru/wrdpdf-e.gif
26
27
28# -- English strings ----------------
29collectionmeta collectionname [l=en] "MSWord and PDF demonstration"
30
31collectionmeta .document:text [l=en] "documents"
32
33
34# -- French strings ----------------
35collectionmeta collectionname [l=fr] "Démonstration MSWord et PDF"
36
37collectionmeta .document:text [l=fr] "documents"
38
39
40# -- Spanish strings ----------------
41collectionmeta collectionname [l=es] "Demostración en MSWord y PDF"
42
43collectionmeta .document:text [l=es] "documentos"
44
45
46# -- Russian strings ----------------
47collectionmeta collectionname [l=ru] "ДеЌПМстрацОя MSWord О PDF"
48
49collectionmeta .document:text [l=ru] "ДПкуЌеМты"
50
51
52# -- English text ----------------
53collectionmeta collectionextra [l=en] "This collection demonstrates Greenstone\'s
54 ability to build collections from documents provided in different formats.
55 It contains a number of papers written by various members of the NZDL
56 project in PDF, MSWord, RTF, and Postscript formats.\n
57<p>
58The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
59The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
60
61<h3>How the collection works</h3>\n
62<p>
63This collection\'s <a href=\"_httpcollection_/etc/collect.cfg\"
64target=collect.cfg>configuration file</a> contains the four plugins
65<i>WordPlug</i>, <i>RTFPlug</i>, <i>PDFPlug</i> and <i>PSPlug</i> (along with
66the standard three, <i>GAPlug</i>, <i>ArcPlug</i> and <i>RecPlug</i>). These
67four plugins all extract <i>Title</i> and <i>Source</i> (i.e. filename)
68metadata. \n
69
70<p>
71Greenstone contains third-party software that is used to convert
72Word, RTF, PDF and PostScript files into HTML. The Greenstone team does not
73maintain these modules, although we do include the latest versions with each
74Greenstone release. Bugs arise with unusual Word documents (e.g. from older
75Macintosh systems), and sometimes the text is badly extracted. Some PDF files
76have no machine-readable text at all, comprising instead a sequence of page
77<i>images</i> from which text can only be extracted by optical character recognition
78(OCR), which Greenstone does not attempt. If you encounter these problems,
79there is nothing much you (or we) can do other than omit the rogue documents
80from the collection, or try to obtain different versions of them.\n
81
82<p>
83The <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>configuration
84file</a> includes a single index, based on document text, and one classifier,
85an <i>AZList</i> based on <i>Title</i> metadata, shown
86<a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">here</a> (the alphabetic
87selector is suppressed automatically because the collection contains only a few
88documents). However, no format statement is specified. In the absence of
89explicit information, Greenstone supplies sensible defaults. In this case, the
90default format for the classifier gives:\n
91
92<ul>
93<li>
94an icon for the HTML version of the document (the text that is actually indexed,
95essentially the same as the Greenstone Archive format);\n
96<li>
97an icon for the original version of the document (clicking it opens the
98document in its original form);\n
99<li>
100<i>Title</i> metadata, extracted from the document;\n
101<li>
102<i>Source</i> (i.e. filename) metadata, extracted from the document.\n
103</ul>
104
105<p>
106Here is a format statement that achieves exactly the same effect explicitly. It
107applies to all <i>Vlists</i>, and so controls both search results list and the
108alphabetic title browser.\n
109
110<pre>
111format VList \"&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
112 &lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
113 &lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
114</pre>
115"
116
117
118# -- French text ----------------
119collectionmeta collectionextra [l=fr] "Cette collection d&eacute;montre les capacit&eacute;s de Greenstone pour rassembler des collections &agrave; partir de documents existants en diff&eacute;rents formats. Elle contient plusieurs articles &eacute;crits par diff&eacute;rents membres du projet NZDL en format PDF, MSWord, RTF, et Postscript.
120<p>
121The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
122The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
123
124<p>
125<h3>Comment marche cette collection ?</h3>
126
127<p>
128Le <a href=\"_httpcollection_/etc/collect.cfg\"
129target=collect.cfg>fichier de configuration</a> de cette collection contient quatre plugins, <i>WordPlug</i>, <i>RTFPlug</i>,
130 <i>PDFPlug</i> et <i>PSPlug</i> (ensemble avec les trois plugins standards <i>GAPlug</i>, <i>ArcPlug</i> et <i>RecPlug</i>).
131 Tous ces quatre modules extraient les méta-données <i>Titre</i> et <i>Source</i> (c.-a-d. nom de fichier).
132
133<p>
134Greenstone contient des logiciels de tierces parties utilisés pour convertir des fichiers Word, RTF, PDF et PostScript en HTML. L'équipe Greenstone ne maintient pas ces modules bien que nous incluons les derniÚres versions dans chaque édition de Greenstone. Des coquilles apparaissent avec les documents
135inhabituels de Word (par exemple à partir de vieux systÚmes Macintosh) et des fois, le texte est mal extrait. Certains fichiers PDF n'ont pas du tout une forme lisible directement par les machines, mais sont représentés par une séquence de pages d'<i>images</i> à partir desquelless le texte ne peut être extrait que par une reconnaissance optique de caractÚres (ROC), ce que
136Greenstone ne tente pas de faire. Si vous rencontrez ces problÚmes, il n'y a grand chose que vous/nous pouvez/pouvons faire à part omettre ces documents de la collection, et essayer d'en obtenir des versions différentes.
137
138<p>
139Le <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>fichier de configuration</a> comprend un index unique, basé sur un texte de document
140et un classificateur, un <i>AZList</i> basée sur la méta-donnée <i>Titre</i>, montrée <a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">ici</a> (le sélecteur
141alphabétique est supprimé automatiquement parce que la collection ne contient que peu de documents). Cependant aucune déclaration de format n'est spécifiée. A l'absence d'information explicite, Greenstone fournit des défauts sensés. Dans ce cas le format par défaut pour le classificateur donne ceci :
142<ul>
143<li>
144une icÎne pour la version HTML du document (le texte est en fait indexé en grande partie de la même façon que le format d'archive Greenstone);
145<li>
146une icÃŽne pour la version originale du document (en cliquant dessus, on ouvre le document dans sa version originale);
147<li>
148méta-donnée <i>Titre</i> extraite du document;
149<li>
150méta-donnée <i>Source</i> (c.-à-d. nom du fichier) extraite du document.
151</ul>
152
153<p>
154Voici une déclaration de format qui fait exactement la même chose de maniÚre explicite.
155Elle s'applique à tous les <i>VList</i> et contrÎle donc aussi bien les résultats de recherche que la navigation alphabétique par titre.
156
157<pre>
158format VList \"&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
159 &lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
160 &lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
161</pre>
162"
163
164
165# -- Spanish text ----------------
166collectionmeta collectionextra [l=es] "Esta colecci&oacute;n demuestra la capacidad del programa Greenstone para construir colecciones con documentos en diferentes formatos. Contiene art&iacute;culos escritos por varios de los miembros del proyecto NZDL en formato PDF, MSWord, RTF y Postscript.
167<p>
168The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
169The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
170
171<h3>Cómo trabaja esta colección</h3>
172
173Este <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración de la colección</a> contiene los cuatro plugins <i>WordPlug, RTFPlug, PDFPlug</i> y <i>PSPlug</i> (junto con los tres plugins estándar, <i>GAPlug, ArcPlug</i> y <i>RecPlug</i>). Los cuatro plugins extraen los metadatos de <i>Título</i> y <i>Fuente</i> (es decir, nombre del archivo).
174<p>
175
176Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, consistiendo en su lugar de una secuencia de <i>imágenes</i> de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. Si usted encuentra este tipo de problemas, entonces no hay mucho que usted o nosotros podamos hacer, excepto excluir dichos documentos de la colección o tratar de obtener diferentes versiones de los mismos.
177<p>
178
179El <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración</a> incluye un solo índice basado en el texto de los documentos y un clasificador <i>AZList</i> basado en el metadato de <i>Título</i>, tal como se muestra <a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">aquí</a> (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explícita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona:
180<p>
181<ul>
182<li> un icono para la versión HTML del documento (el texto que se está indexando, básicamente el mismo que el formato del Archivo Greenstone);
183
184
185<li> un icono para la versión original del documento (al hacer click en él abre el documento en su forma original);
186
187
188<li> el metadato de <i>Título</i> extraído del documento;
189
190
191<li> el metadato de <i>Fuente</i> (es decir, el nombre de archivo) extraído del documento.
192</ul>
193<p>
194He aquí un enunciado de formato que logra exactamente el mismo efecto de manera explícita. Se aplica a todas las <i>Vlists</i> y por lo tanto controla tanto la lista de resultados de la búsqueda como el explorador de títulos por orden alfabético.
195
196<pre>
197format VList \"&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
198 &lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
199 &lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
200</pre>
201"
202
203
204# -- Russian text ----------------
205collectionmeta collectionextra [l=ru] "
206Эта кПллекцОя ЎеЌПМстрОрует спПсПбМПсть Greenstone к пПстрПеМОю кПллекцОО Оз ЎПкуЌеМтПв, выпПлМеММых
207 в разлОчМых
208 фПрЌатах
209. ОМа сПЎержОт ЌМПжествП статей, МапОсаММых
210 разлОчМыЌО члеМаЌО прПекта NZDL, в фПрЌатах
211 PDF, MSWord, RTF О Postscript.
212<p>
213The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
214The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
215
216
217<h3>Как рабПтает кПллекцОя</h3>
218<p>
219
220<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> этПй кПллекцОО сПЎержОт четыре плагОМа <i>WordPlug, RTFPlug, PDFPlug</i> О <i>PSPlug</i> (МаряЎу с треЌя стаМЎартМыЌО <i>GAPlug, ArcPlug</i> О <i>RecPlug</i>). Все этО четыре плагОМа Озвлекают ЌетаЎаММые Оз <i>НазваМОя</i> (<i>Title</i>) О <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла.
221<p>
222
223Greenstone сПЎержОт стПрПММее прПграЌЌМПе ПбеспечеМОе, кПтПрПе ОспПльзуется Ўля тПгП, чтПбы кПМвертОрПвать файлы, сПзЎаММые в Word, RTF, PDF О PostScript в HTML. КПЌаМЎа Greenstone Ме ПбслужОвает этО ЌПЎелО, х
224Птя Ќы включаеЌ Ох
225 саЌые пПслеЎМОе версОО в кажЎый выпуск Greenstone. ОшОбкО вПзМОкают у МеПбычМых
226 ЎПкуЌеМтПв Word (МапрОЌер, Пт старых
227 сОстеЌ МакОМтПша), О ОМПгЎа текст ужасМП Озвлекается. НекПтПрые PDF файлы Ме сПзЎают МОкакПгП ЌашОММПчОтаеЌПгП текста вППбще, а вЌестП этПгП включают пПслеЎПвательМПсть <i>ОзПбражеМОй</i> страМОцы, Оз кПтПрых
228 текст ЌПжет быть ОзвлечеМ тПлькП путеЌ ПптОческПгП распПзМаваМОя (OCR), чтП в Greenstone Ме преЎусЌПтреМП. ЕслО Вы сталкОваетесь с этОЌО прПблеЌаЌО, тП Мет МОчегП ЎругПгП, чтП Вы (ОлО Ќы) ЌПжете сЎелать, как выкОМуть этО ЎПкуЌеМты Оз кПллекцОО ОлО пПпытаться пПлучОть ЎругОе Ох
229 версОО.
230<p>
231
232
233<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> включает еЎОМствеММый ОМЎекс, ПсМПваММый Ма тексте ЎПкуЌеМта О ПЎОМ классОфОкатПр <i>AZList</i>, ПсМПваММый Ма ЌетаЎаММых
234 <i>НазваМОя</i>, пПказаММый <a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">зЎесь</a> (алфавОтМый ПтбПрщОк автПЌатОческО ПтключеМ, пПскПльку кПллекцОя сПЎержОт тПлькП МескПлькП ЎПкуЌеМтПв). ОЎМакП МОкакОх
235 ПператПрПв фПрЌата Ме ПпреЎелеМП. ПрО ПтсутствОО явМПй ОМфПрЌацОО Greenstone пПЎЎержОвает пП уЌПлчаМОю МаОбПлее ПщутОЌые. В этПЌ случае пП уЌПлчаМОю ОспПльзуются слеЎующОе фПрЌаты Ўля классОфОкатПра:
236<p>
237
238
239<ul>
240<li>
241ОзПбражеМОе (ОкПМка) Ўля HTML-версОО ЎПкуЌеМта (текст, кПтПрый фактОческООМЎексОрПваМ, пП существу такПй же, как фПрЌат арх
242Ова Greenstone);
243<li>
244ОзПбражеМОе (ОкПМка) Ўля ПрОгОМальМПй версОО ЎПкуЌеМта (щелкая Ма МеЌ, Пткрывают ЎПкуЌеМт в егП Осх
245ПЎМПЌ фПрЌате);
246<li>
247ЌетаЎаММые <i>НазваМОя</i> (<i>Title</i>), ОзвлечеММые Оз ЎПкуЌеМта;
248<li>
249ЌетаЎаММые <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла, ОзвлечеММПе Оз ЎПкуЌеМта.
250</ul>
251<p>
252
253ИЌеется ПператПр фПрЌата, кПтПрый ЎПстОгает такПй же саЌый эффект. ОМ Пбращается кП всеЌ <i>Vlists</i> О такОЌ ПбразПЌ Псуществляет кПМтрПль как МаЎ спОскПЌ результатПв пПОска, так О МаЎ алфавОтМыЌ пПказПЌ МазваМОй.
254
255<pre>
256format VList \"&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
257 &lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
258 &lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
259</pre>
260"
Note: See TracBrowser for help on using the repository browser.