root/collections/documented-examples/trunk/wrdpdf-e/etc/collect.cfg @ 19378

Revision 19378, 16.3 KB (checked in by kjdon, 11 years ago)

opened and closed in GLI. minor formatting changes to file

  • Property svn:executable set to *
Line 
1creator     greenstone@cs.waikato.ac.nz
2public      true
3
4buildtype   mg
5
6plugin  WordPlugin
7plugin  RTFPlugin
8plugin  PDFPlugin
9plugin  PostScriptPlugin
10plugin  GreenstoneXMLPlugin
11plugin  MetadataXMLPlugin
12plugin  ArchivesInfPlugin
13plugin  DirectoryPlugin
14
15indexes     document:text
16
17classify    AZList -metadata Title
18
19format DocumentHeading ""
20format DocumentButtons ""
21
22format VList "<td valign=\"top\">[link][icon][/link]</td>
23<td valign=\"top\">[ex.srclink]{Or}{[ex.thumbicon],[ex.srcicon]}[ex./srclink]</td>
24<td valign=\"top\">[highlight]
25{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}
26[/highlight]{If}{[ex.Source],<br><i>([ex.Source])</i>}</td>"
27
28format HList "[link][highlight][ex.Title][/highlight][/link]"
29
30format DocumentText "[Text]"
31
32# -- English strings ----------------
33collectionmeta  collectionname [l=en] "MSWord and PDF demonstration"
34
35collectionmeta  .document:text [l=en] "documents"
36
37# -- French strings ----------------
38collectionmeta  collectionname [l=fr] "Démonstration MSWord et PDF"
39
40collectionmeta  .document:text [l=fr] "documents"
41
42# -- Spanish strings ----------------
43collectionmeta  collectionname [l=es] "Demostración en MSWord y PDF"
44
45collectionmeta  .document:text [l=es] "documentos"
46
47# -- Russian strings ----------------
48collectionmeta  collectionname [l=ru] "ДеЌПМстрацОя MSWord О PDF"
49
50collectionmeta  .document:text [l=ru] "ДПкуЌеМты"
51
52# -- English text ----------------
53collectionmeta  collectionextra [l=en] "This collection demonstrates Greenstone\'s
54ability to build collections from documents provided in different formats.
55It contains a number of papers written by various members of the NZDL
56project in PDF, MSWord, RTF, and Postscript formats.\n
57<p>
58The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
59The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
60
61<h3>How the collection works</h3>\n
62<p>
63This collection\'s <a href=\"_httpcollection_/etc/collect.cfg\"
64target=collect.cfg>configuration file</a> contains the four plugins
65<i>WordPlugin</i>, <i>RTFPlugin</i>, <i>PDFPlugin</i> and <i>PostScriptPlugin</i> (along with
66the standard four, <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> and <i>DirectoryPlugin</i>). These
67four plugins all extract <i>Title</i> and <i>Source</i> (i.e. filename)
68metadata. \n
69
70<p>
71Greenstone contains third-party software that is used to convert
72Word, RTF, PDF and PostScript files into HTML. The Greenstone team does not
73maintain these modules, although we do try to include the latest versions
74with each
75Greenstone release. Bugs arise with unusual Word documents (e.g. from older
76Macintosh systems), and sometimes the text is badly extracted. Some PDF files
77have no machine-readable text at all, comprising instead a sequence of page
78<i>images</i> from which text can only be extracted by optical character recognition
79(OCR), which Greenstone does not attempt. If you encounter these problems, you
80can either remove the offending documents from your collection, or try using
81some of the advanced plugin options to process the documents in different ways.
82For more information, see the Enhanced PDf and Word tutorials on the
83<a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>Greenstone wiki</a>.
84
85<p>
86The <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>configuration
87file</a> includes a single index, based on document text, and one classifier,
88an <i>AZList</i> based on <i>Title</i> metadata, shown
89<a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">here</a> (the alphabetic
90selector is suppressed automatically because the collection contains only a few
91documents). However, no format statement is specified. In the absence of
92explicit information, Greenstone supplies sensible defaults. In this case, the
93default format for the classifier gives:\n
94
95<ul>
96<li>
97an icon for the HTML version of the document (the text that is actually indexed,
98essentially the same as the Greenstone Archive format);\n
99<li>
100an icon for the original version of the document (clicking it opens the
101document in its original form);\n
102<li>
103<i>Title</i> metadata, extracted from the document;\n
104<li>
105<i>Source</i> (i.e. filename) metadata, extracted from the document.\n
106</ul>
107
108<p>
109Here is a format statement that achieves exactly the same effect explicitly. It
110applies to all <i>Vlists</i>, and so controls both search results list and the
111alphabetic title browser.\n
112
113<pre>
114format VList \"
115&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
116&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
117&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
118</pre>
119"
120
121# -- French text ----------------
122collectionmeta  collectionextra [l=fr] "Cette collection d&eacute;montre les capacit&eacute;s de Greenstone pour rassembler des collections &agrave; partir de documents existants en diff&eacute;rents formats. Elle contient plusieurs articles &eacute;crits par diff&eacute;rents membres du projet NZDL en format PDF, MSWord, RTF, et Postscript.
123<p>
124The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
125The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
126
127<p>
128<h3>Comment marche cette collection ?</h3>
129
130<p>
131Le <a href=\"_httpcollection_/etc/collect.cfg\"
132target=collect.cfg>fichier de configuration</a> de cette collection contient quatre plugins, <i>WordPlugin</i>, <i>RTFPlugin</i>,
133<i>PDFPlugin</i> et <i>PostScriptPlugin</i> (ensemble avec les quatre plugins standards <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> et <i>DirectoryPlugin</i>).
134Tous ces quatre modules extraient les méta-données <i>Titre</i> et <i>Source</i> (c.-a-d. nom de fichier).
135
136<p>
137Greenstone contient des logiciels de tierces parties utilisés pour convertir des fichiers Word, RTF, PDF et PostScript en HTML. L\'équipe Greenstone ne maintient pas ces modules bien que nous incluons les derniÚres versions dans chaque édition de Greenstone. Des coquilles apparaissent avec les documents
138inhabituels de Word (par exemple à partir de vieux systÚmes Macintosh) et des fois, le texte est mal extrait. Certains fichiers PDF n\'ont pas du tout une forme lisible directement par les machines, mais sont représentés par une séquence de pages d\'<i>images</i> à partir desquelless le texte ne peut être extrait que par une reconnaissance optique de caractÚres (ROC), ce que
139Greenstone ne tente pas de faire. _text1_
140
141<p>
142Le <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>fichier de configuration</a> comprend un index unique, basé sur un texte de document
143et un classificateur, un <i>AZList</i> basée sur la méta-donnée <i>Titre</i>, montrée <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">ici</a> (le sélecteur
144alphabétique est supprimé automatiquement parce que la collection ne contient que peu de documents). Cependant aucune déclaration de format n\'est spécifiée. A l\'absence d\'information explicite, Greenstone fournit des défauts sensés. Dans ce cas le format par défaut pour le classificateur donne ceci :
145<ul>
146<li>
147une icÎne pour la version HTML du document (le texte est en fait indexé en grande partie de la même façon que le format d\'archive Greenstone);
148<li>
149une icÃŽne pour la version originale du document (en cliquant dessus, on ouvre le document dans sa version originale);
150<li>
151méta-donnée <i>Titre</i> extraite du document;
152<li>
153méta-donnée <i>Source</i> (c.-à-d. nom du fichier) extraite du document.
154</ul>
155
156<p>
157Voici une déclaration de format qui fait exactement la même chose de maniÚre explicite.
158Elle s\'applique à tous les <i>VList</i> et contrÎle donc aussi bien les résultats de recherche que la navigation alphabétique par titre.
159
160<pre>
161format VList \"
162&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
163&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
164&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
165</pre>
166"
167
168# -- Spanish text ----------------
169collectionmeta  collectionextra [l=es] "Esta colecci&oacute;n demuestra la capacidad del programa Greenstone para construir colecciones con documentos en diferentes formatos. Contiene art&iacute;culos escritos por varios de los miembros del proyecto NZDL en formato PDF, MSWord, RTF y Postscript.
170<p>
171The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
172The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
173
174<h3>Cómo trabaja esta colección</h3>
175
176Este <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración de la colección</a> contiene los cuatro plugins <i>WordPlugin, RTFPlugin, PDFPlugin</i> y <i>PostScriptPlugin</i> (junto con los cuatro plugins estándar, <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> y <i>DirectoryPlugin</i>). Los cuatro plugins extraen los metadatos de <i>Título</i> y <i>Fuente</i> (es decir, nombre del archivo).
177<p>
178
179Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, consistiendo en su lugar de una secuencia de <i>imágenes</i> de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. Si encuentra estos problemas entonces puede remover el documento dañado de la colección, o tratar de usar alguna de las opciones avanzadas para procesar los documentos de diferentes maneras. Para más información, vea los tutoriales avanzados sobre PDF y Word en la <a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>wiki de Greenstone</a>.
180<p>
181
182El <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración</a> incluye un solo índice basado en el texto de los documentos y un clasificador <i>AZList</i> basado en el metadato de <i>Título</i>, tal como se muestra <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">aquí</a> (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explícita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona:
183<p>
184<ul>
185<li> un icono para la versión HTML del documento (el texto que se está indexando, básicamente el mismo que el formato del Archivo Greenstone);
186
187
188<li> un icono para la versión original del documento (al hacer click en él abre el documento en su forma original);
189
190
191<li> el metadato de <i>Título</i> extraído del documento;
192
193
194<li> el metadato de <i>Fuente</i> (es decir, el nombre de archivo) extraído del documento.
195</ul>
196<p>
197He aquí un enunciado de formato que logra exactamente el mismo efecto de manera explícita. Se aplica a todas las <i>Vlists</i> y por lo tanto controla tanto la lista de resultados de la búsqueda como el explorador de títulos por orden alfabético.
198
199<pre>
200format VList \"
201&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
202&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
203&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
204</pre>
205"
206
207# -- Russian text ----------------
208collectionmeta  collectionextra [l=ru] "
209Эта кПллекцОя ЎеЌПМстрОрует спПсПбМПсть Greenstone к пПстрПеМОю кПллекцОО Оз ЎПкуЌеМтПв, выпПлМеММых Ð² разлОчМых Ñ„ПрЌатах. ОМа сПЎержОт ЌМПжествП статей, МапОсаММых Ñ€Ð°Ð·Ð»ÐžÑ‡ÐœÑ‹ÐŒÐž члеМаЌО прПекта NZDL, в фПрЌатах PDF, MSWord, RTF О Postscript.
210<p>
211The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
212The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
213
214
215<h3>Как рабПтает кПллекцОя</h3>
216<p>
217
218<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> ÑÑ‚Пй кПллекцОО сПЎержОт четыре плагОМа <i>WordPlugin, RTFPlugin, PDFPlugin</i> О <i>PostScriptPlugin</i> (МаряЎу с четыре стаМЎартМыЌО <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> О <i>DirectoryPlugin</i>). Все этО четыре плагОМа Озвлекают ЌетаЎаММые Оз <i>НазваМОя</i> (<i>Title</i>) О <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла.
219<p>
220
221Greenstone сПЎержОт стПрПММее прПграЌЌМПе ПбеспечеМОе, кПтПрПе ОспПльзуется Ўля тПгП, чтПбы кПМвертОрПвать файлы, сПзЎаММые в Word, RTF, PDF О PostScript в HTML. КПЌаМЎа Greenstone Ме ПбслужОвает этО ЌПЎелО, хПтя Ќы включаеЌ Ох ÑÐ°ÐŒÑ‹Ðµ пПслеЎМОе версОО в кажЎый выпуск Greenstone. ОшОбкО вПзМОкают у МеПбычМых ÐŽÐŸÐºÑƒÐŒÐµÐœÑ‚Пв Word (МапрОЌер, Пт старых ÑÐžÑÑ‚еЌ МакОМтПша), О ОМПгЎа текст ужасМП Озвлекается. НекПтПрые PDF файлы Ме сПзЎают МОкакПгП ЌашОММПчОтаеЌПгП текста вППбще, а вЌестП этПгП включают пПслеЎПвательМПсть <i>ОзПбражеМОй</i> страМОцы, Оз кПтПрых Ñ‚екст ЌПжет быть ОзвлечеМ тПлькП путеЌ ПптОческПгП распПзМаваМОя (OCR), чтП в Greenstone Ме преЎусЌПтреМП. _text1_
222<p>
223
224
225<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> Ð²ÐºÐ»ÑŽÑ‡Ð°ÐµÑ‚ еЎОМствеММый ОМЎекс, ПсМПваММый Ма тексте ЎПкуЌеМта О ПЎОМ классОфОкатПр <i>AZList</i>, ПсМПваММый Ма ЌетаЎаММых <i>НазваМОя</i>, пПказаММый <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">зЎесь</a> (алфавОтМый ПтбПрщОк автПЌатОческО ПтключеМ, пПскПльку кПллекцОя сПЎержОт тПлькП МескПлькП ЎПкуЌеМтПв). ОЎМакП МОкакОх ÐŸÐ¿ÐµÑ€Ð°Ñ‚ПрПв фПрЌата Ме ПпреЎелеМП. ПрО ПтсутствОО явМПй ОМфПрЌацОО Greenstone пПЎЎержОвает пП уЌПлчаМОю МаОбПлее ПщутОЌые. В этПЌ случае пП уЌПлчаМОю ОспПльзуются слеЎующОе фПрЌаты Ўля классОфОкатПра:
226<p>
227
228
229<ul>
230<li>
231ОзПбражеМОе (ОкПМка) Ўля HTML-версОО ЎПкуЌеМта (текст, кПтПрый фактОческООМЎексОрПваМ, пП существу такПй же, как фПрЌат архОва Greenstone);
232<li>
233ОзПбражеМОе (ОкПМка) Ўля ПрОгОМальМПй версОО ЎПкуЌеМта (щелкая Ма МеЌ, Пткрывают ЎПкуЌеМт в егП ОсхПЎМПЌ фПрЌате);
234<li>
235ЌетаЎаММые <i>НазваМОя</i> (<i>Title</i>), ОзвлечеММые Оз ЎПкуЌеМта;
236<li>
237ЌетаЎаММые <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла, ОзвлечеММПе Оз ЎПкуЌеМта.
238</ul>
239<p>
240
241ИЌеется ПператПр фПрЌата, кПтПрый ЎПстОгает такПй же саЌый эффект. ОМ Пбращается кП всеЌ <i>Vlists</i> О такОЌ ПбразПЌ Псуществляет кПМтрПль как МаЎ спОскПЌ результатПв пПОска, так О МаЎ алфавОтМыЌ пПказПЌ МазваМОй.
242
243<pre>
244format VList \"
245&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
246&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
247&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
248</pre>
249"
Note: See TracBrowser for help on using the browser.