source: collections/documented-examples/trunk/wrdpdf-e/etc/collect.cfg@ 19691

Last change on this file since 19691 was 19691, checked in by anna, 15 years ago

Added French translations. Many thanks to Guillaume Hatt and John Rose.

  • Property svn:executable set to *
File size: 20.0 KB
Line 
1creator [email protected]
2public true
3
4buildtype mg
5
6plugin WordPlugin
7plugin RTFPlugin
8plugin PDFPlugin
9plugin PostScriptPlugin
10plugin GreenstoneXMLPlugin
11plugin MetadataXMLPlugin
12plugin ArchivesInfPlugin
13plugin DirectoryPlugin
14
15indexes document:text
16
17classify AZList -metadata Title
18
19format DocumentHeading ""
20format DocumentButtons ""
21
22format VList "<td valign=\"top\">[link][icon][/link]</td>
23<td valign=\"top\">[ex.srclink]{Or}{[ex.thumbicon],[ex.srcicon]}[ex./srclink]</td>
24<td valign=\"top\">[highlight]
25{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}
26[/highlight]{If}{[ex.Source],<br><i>([ex.Source])</i>}</td>"
27
28format HList "[link][highlight][ex.Title][/highlight][/link]"
29
30format DocumentText "[Text]"
31
32# -- English strings ----------------
33collectionmeta collectionname [l=en] "MSWord and PDF demonstration"
34
35collectionmeta .document:text [l=en] "documents"
36
37# -- French strings ----------------
38collectionmeta collectionname [l=fr] "Démonstration MSWord et PDF"
39
40collectionmeta .document:text [l=fr] "documents"
41
42# -- Spanish strings ----------------
43collectionmeta collectionname [l=es] "Demostración en MSWord y PDF"
44
45collectionmeta .document:text [l=es] "documentos"
46
47# -- Russian strings ----------------
48collectionmeta collectionname [l=ru] "ДеЌПМстрацОя MSWord О PDF"
49
50collectionmeta .document:text [l=ru] "ДПкуЌеМты"
51
52# -- Chinese strings ----------------
53collectionmeta collectionname [l=zh] "埮蜯Word侎PDF挔瀺銆藏"
54
55collectionmeta .document:text [l=zh] "文档"
56
57
58# -- English text ----------------
59collectionmeta collectionextra [l=en] "This collection demonstrates Greenstone\'s
60ability to build collections from documents provided in different formats.
61It contains a number of papers written by various members of the NZDL
62project in PDF, MSWord, RTF, and Postscript formats.\n
63<p>
64The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
65The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
66
67<h3>How the collection works</h3>\n
68<p>
69This collection\'s <a href=\"_httpcollection_/etc/collect.cfg\"
70target=collect.cfg>configuration file</a> contains the four plugins
71<i>WordPlugin</i>, <i>RTFPlugin</i>, <i>PDFPlugin</i> and <i>PostScriptPlugin</i> (along with
72the standard four, <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> and <i>DirectoryPlugin</i>). These
73four plugins all extract <i>Title</i> and <i>Source</i> (i.e. filename)
74metadata. \n
75
76<p>
77Greenstone contains third-party software that is used to convert
78Word, RTF, PDF and PostScript files into HTML. The Greenstone team does not
79maintain these modules, although we do try to include the latest versions
80with each
81Greenstone release. Bugs arise with unusual Word documents (e.g. from older
82Macintosh systems), and sometimes the text is badly extracted. Some PDF files
83have no machine-readable text at all, comprising instead a sequence of page
84<i>images</i> from which text can only be extracted by optical character recognition
85(OCR), which Greenstone does not attempt. If you encounter these problems, you
86can either remove the offending documents from your collection, or try using
87some of the advanced plugin options to process the documents in different ways.
88For more information, see the Enhanced PDf and Word tutorials on the
89<a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>Greenstone wiki</a>.
90
91<p>
92The <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>configuration
93file</a> includes a single index, based on document text, and one classifier,
94an <i>AZList</i> based on <i>Title</i> metadata, shown
95<a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">here</a> (the alphabetic
96selector is suppressed automatically because the collection contains only a few
97documents). However, no format statement is specified. In the absence of
98explicit information, Greenstone supplies sensible defaults. In this case, the
99default format for the classifier gives:\n
100
101<ul>
102<li>
103an icon for the HTML version of the document (the text that is actually indexed,
104essentially the same as the Greenstone Archive format);\n
105<li>
106an icon for the original version of the document (clicking it opens the
107document in its original form);\n
108<li>
109<i>Title</i> metadata, extracted from the document;\n
110<li>
111<i>Source</i> (i.e. filename) metadata, extracted from the document.\n
112</ul>
113
114<p>
115Here is a format statement that achieves exactly the same effect explicitly. It
116applies to all <i>Vlists</i>, and so controls both search results list and the
117alphabetic title browser.\n
118
119<pre>
120format VList \"
121&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
122&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
123&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
124</pre>
125"
126
127# -- French text ----------------
128collectionmeta collectionextra [l=fr] "Cette collection d&eacute;montre les capacit&eacute;s de Greenstone pour rassembler des collections &agrave; partir de documents existants en diff&eacute;rents formats. Elle contient plusieurs articles &eacute;crits par diff&eacute;rents membres du projet NZDL en format PDF, MSWord, RTF, et Postscript.
129<p>
130The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
131The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
132
133<p>
134<h3>Comment marche cette collection ?</h3>
135
136<p>
137Le <a href=\"_httpcollection_/etc/collect.cfg\"
138target=collect.cfg>fichier de configuration</a> de cette collection contient quatre plugins, <i>WordPlugin</i>, <i>RTFPlugin</i>,
139<i>PDFPlugin</i> et <i>PostScriptPlugin</i> (ensemble avec les quatre plugins standards <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> et <i>DirectoryPlugin</i>).
140Tous ces quatre modules extraient les méta-données <i>Titre</i> et <i>Source</i> (c.-a-d. nom de fichier).
141
142<p>
143Greenstone contient des logiciels de tierces parties utilisés pour convertir des fichiers Word, RTF, PDF et PostScript en HTML. L\'équipe Greenstone ne maintient pas ces modules bien que nous incluons les derniÚres versions dans chaque édition de Greenstone. Des coquilles apparaissent avec les documents
144inhabituels de Word (par exemple à partir de vieux systÚmes Macintosh) et des fois, le texte est mal extrait. Certains fichiers PDF n\'ont pas du tout une forme lisible directement par les machines, mais sont représentés par une séquence de pages d\'<i>images</i> à partir desquelless le texte ne peut être extrait que par une reconnaissance optique de caractÚres (ROC), ce que
145Greenstone ne tente pas de faire. Si vous rencontrez ce type de problÚmes, vous pouvez soit supprimer les documents problématiques de votre collection, soit essayer d'utiliser les options avancées du plugiciel pour traiter les documents d'une autre façon. Pour plus d'informations, se reporter aux tutoriels avancés sur les documents PDF et Word, disponibles sur <a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>le wiki Greenstone</a>.
146
147<p>
148Le <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>fichier de configuration</a> comprend un index unique, basé sur un texte de document
149et un classificateur, un <i>AZList</i> basée sur la méta-donnée <i>Titre</i>, montrée <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">ici</a> (le sélecteur
150alphabétique est supprimé automatiquement parce que la collection ne contient que peu de documents). Cependant aucune déclaration de format n\'est spécifiée. A l\'absence d\'information explicite, Greenstone fournit des défauts sensés. Dans ce cas le format par défaut pour le classificateur donne ceci :
151<ul>
152<li>
153une icÎne pour la version HTML du document (le texte est en fait indexé en grande partie de la même façon que le format d\'archive Greenstone);
154<li>
155une icÃŽne pour la version originale du document (en cliquant dessus, on ouvre le document dans sa version originale);
156<li>
157méta-donnée <i>Titre</i> extraite du document;
158<li>
159méta-donnée <i>Source</i> (c.-à-d. nom du fichier) extraite du document.
160</ul>
161
162<p>
163Voici une déclaration de format qui fait exactement la même chose de maniÚre explicite.
164Elle s\'applique à tous les <i>VList</i> et contrÎle donc aussi bien les résultats de recherche que la navigation alphabétique par titre.
165
166<pre>
167format VList \"
168&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
169&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
170&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
171</pre>
172"
173
174# -- Spanish text ----------------
175collectionmeta collectionextra [l=es] "Esta colecci&oacute;n demuestra la capacidad del programa Greenstone para construir colecciones con documentos en diferentes formatos. Contiene art&iacute;culos escritos por varios de los miembros del proyecto NZDL en formato PDF, MSWord, RTF y Postscript.
176<p>
177The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
178The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
179
180<h3>Cómo trabaja esta colección</h3>
181
182Este <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración de la colección</a> contiene los cuatro plugins <i>WordPlugin, RTFPlugin, PDFPlugin</i> y <i>PostScriptPlugin</i> (junto con los cuatro plugins estándar, <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> y <i>DirectoryPlugin</i>). Los cuatro plugins extraen los metadatos de <i>Título</i> y <i>Fuente</i> (es decir, nombre del archivo).
183<p>
184
185Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, consistiendo en su lugar de una secuencia de <i>imágenes</i> de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. Si encuentra estos problemas entonces puede remover el documento dañado de la colección, o tratar de usar alguna de las opciones avanzadas para procesar los documentos de diferentes maneras. Para más información, vea los tutoriales avanzados sobre PDF y Word en la <a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>wiki de Greenstone</a>.
186<p>
187
188El <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración</a> incluye un solo índice basado en el texto de los documentos y un clasificador <i>AZList</i> basado en el metadato de <i>Título</i>, tal como se muestra <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">aquí</a> (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explícita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona:
189<p>
190<ul>
191<li> un icono para la versión HTML del documento (el texto que se está indexando, básicamente el mismo que el formato del Archivo Greenstone);
192
193
194<li> un icono para la versión original del documento (al hacer click en él abre el documento en su forma original);
195
196
197<li> el metadato de <i>Título</i> extraído del documento;
198
199
200<li> el metadato de <i>Fuente</i> (es decir, el nombre de archivo) extraído del documento.
201</ul>
202<p>
203He aquí un enunciado de formato que logra exactamente el mismo efecto de manera explícita. Se aplica a todas las <i>Vlists</i> y por lo tanto controla tanto la lista de resultados de la búsqueda como el explorador de títulos por orden alfabético.
204
205<pre>
206format VList \"
207&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
208&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
209&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
210</pre>
211"
212
213# -- Russian text ----------------
214collectionmeta collectionextra [l=ru] "
215Эта кПллекцОя ЎеЌПМстрОрует спПсПбМПсть Greenstone к пПстрПеМОю кПллекцОО Оз ЎПкуЌеМтПв, выпПлМеММых
216 в разлОчМых
217 фПрЌатах
218. ОМа сПЎержОт ЌМПжествП статей, МапОсаММых
219 разлОчМыЌО члеМаЌО прПекта NZDL, в фПрЌатах
220 PDF, MSWord, RTF О Postscript.
221<p>
222The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato.
223The University of Waikato holds copyright. They may be distributed freely, without any restrictions.
224
225
226<h3>Как рабПтает кПллекцОя</h3>
227<p>
228
229<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> этПй кПллекцОО сПЎержОт четыре плагОМа <i>WordPlugin, RTFPlugin, PDFPlugin</i> О <i>PostScriptPlugin</i> (МаряЎу с четыре стаМЎартМыЌО <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> О <i>DirectoryPlugin</i>). Все этО четыре плагОМа Озвлекают ЌетаЎаММые Оз <i>НазваМОя</i> (<i>Title</i>) О <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла.
230<p>
231
232Greenstone сПЎержОт стПрПММее прПграЌЌМПе ПбеспечеМОе, кПтПрПе ОспПльзуется Ўля тПгП, чтПбы кПМвертОрПвать файлы, сПзЎаММые в Word, RTF, PDF О PostScript в HTML. КПЌаМЎа Greenstone Ме ПбслужОвает этО ЌПЎелО, х
233Птя Ќы включаеЌ Ох
234 саЌые пПслеЎМОе версОО в кажЎый выпуск Greenstone. ОшОбкО вПзМОкают у МеПбычМых
235 ЎПкуЌеМтПв Word (МапрОЌер, Пт старых
236 сОстеЌ МакОМтПша), О ОМПгЎа текст ужасМП Озвлекается. НекПтПрые PDF файлы Ме сПзЎают МОкакПгП ЌашОММПчОтаеЌПгП текста вППбще, а вЌестП этПгП включают пПслеЎПвательМПсть <i>ОзПбражеМОй</i> страМОцы, Оз кПтПрых
237 текст ЌПжет быть ОзвлечеМ тПлькП путеЌ ПптОческПгП распПзМаваМОя (OCR), чтП в Greenstone Ме преЎусЌПтреМП. <!-- _text1_ -->
238<p>
239
240
241<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> включает еЎОМствеММый ОМЎекс, ПсМПваММый Ма тексте ЎПкуЌеМта О ПЎОМ классОфОкатПр <i>AZList</i>, ПсМПваММый Ма ЌетаЎаММых
242 <i>НазваМОя</i>, пПказаММый <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">зЎесь</a> (алфавОтМый ПтбПрщОк автПЌатОческО ПтключеМ, пПскПльку кПллекцОя сПЎержОт тПлькП МескПлькП ЎПкуЌеМтПв). ОЎМакП МОкакОх
243 ПператПрПв фПрЌата Ме ПпреЎелеМП. ПрО ПтсутствОО явМПй ОМфПрЌацОО Greenstone пПЎЎержОвает пП уЌПлчаМОю МаОбПлее ПщутОЌые. В этПЌ случае пП уЌПлчаМОю ОспПльзуются слеЎующОе фПрЌаты Ўля классОфОкатПра:
244<p>
245
246
247<ul>
248<li>
249ОзПбражеМОе (ОкПМка) Ўля HTML-версОО ЎПкуЌеМта (текст, кПтПрый фактОческООМЎексОрПваМ, пП существу такПй же, как фПрЌат арх
250Ова Greenstone);
251<li>
252ОзПбражеМОе (ОкПМка) Ўля ПрОгОМальМПй версОО ЎПкуЌеМта (щелкая Ма МеЌ, Пткрывают ЎПкуЌеМт в егП Осх
253ПЎМПЌ фПрЌате);
254<li>
255ЌетаЎаММые <i>НазваМОя</i> (<i>Title</i>), ОзвлечеММые Оз ЎПкуЌеМта;
256<li>
257ЌетаЎаММые <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла, ОзвлечеММПе Оз ЎПкуЌеМта.
258</ul>
259<p>
260
261ИЌеется ПператПр фПрЌата, кПтПрый ЎПстОгает такПй же саЌый эффект. ОМ Пбращается кП всеЌ <i>Vlists</i> О такОЌ ПбразПЌ Псуществляет кПМтрПль как МаЎ спОскПЌ результатПв пПОска, так О МаЎ алфавОтМыЌ пПказПЌ МазваМОй.
262
263<pre>
264format VList \"
265&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
266&lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
267&lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
268</pre>
269"
270
271# -- Chinese text ----------------
272collectionmeta collectionextra [l=zh] "
273本銆藏挔瀺Greenstone甚䞍同栌匏文档创建銆藏的功胜。本銆藏收圕了若干NZDL项目组成员所写的论文有PDF埮蜯Word以及Postscript栌匏。\n
274<p>
275本銆藏䞭的文档来自于怀卡托倧孊计算机系的成员。版权由怀卡托倧孊所属。这些文档可自由发垃没有任䜕限制。
276
277<h3>本銆藏劂䜕工䜜</h3>\n
278<p>本銆藏的<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>é…
279çœ®æ–‡ä»¶</a>包
280含四䞪插件<i>WordPlugin</i><i>RTFPlugin</i><i>PDFPlugin</i>侎<i>PostScriptPlugin</i>以及四䞪标准插件<i>GreenstoneXMLPlugin</i><i>MetadataXMLPlugin</i><i>ArchivesInfPlugin</i>侎<i>DirectoryPlugin</i>。这四䞪插件郜䌚抜取<i>题名</i>侎<i>来源</i>即文件名å…
281ƒæ•°æ®ã€‚\n
282
283<p>Greenstone䜿甚第䞉方蜯件将WordRTFPDF侎PostScript文件蜬换成HTML文档。Greenstone小组并䞍莟莣绎技这些第䞉方蜯件尜管我们尜量圚发垃每䞪Greenstone版本䞭䜿甚最新的版本。特殊的Word文档可胜䌚有某些问题比劂旧的Macintosh系统创建的Word文档并䞔有时从这些文档䞭抜取的文本莚量埈差。有些PDF文档䞍包
284括任䜕机噚可读的文本而是由䞀系列的页面<i>囟片</i>组成只胜甚å…
285‰å­Šå­—笊识别技术OCR从䞭读取文本而Greenstone并䞍包
286括OCR技术。劂果䜠遇到了这些问题芁么䜠可以从銆藏䞭删陀有问题的文档或者
287尝试高级的插件选项以䞍同的方匏倄理文档。曎倚信息请参阅
288<a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>Greenstone wiki</a>䞭的提高版PDF侎Word文档倄理教皋。
289
290<p>本銆藏的<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>é…
291çœ®æ–‡ä»¶</a>䞭只有䞀䞪玢匕该玢匕是基于文档文本的以及䞀䞪分类噚䞀䞪基于<i>题名</i>å…
292ƒæ•°æ®çš„<i>AZList</i>劂<a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">这里</a>所瀺这里自劚隐藏了按字母的选择浏览条因䞺本銆藏只有䞺数䞍倚的几䞪文档。然而本銆藏没有讟定任䜕栌匏变量。圚没有制定特定栌匏信息时Greenstone提䟛合理的猺省倌。圚这种情
293况䞋猺省的分类噚栌匏将星瀺\n
294
295<ul><li>䞀䞪囟标并铟接到文档的HTML版本即真正被玢匕的文本本莚䞊䞎Greenstone内
296郚存傚栌匏盞同\n
297<li>䞀䞪囟标并铟接到文档的原始版本点击该囟标将打匀文档的原始栌匏\n
298<li><i>题名</i>å…
299ƒæ•°æ®ïŒŒæŠœå–自文档\n
300<li><i>来源</i>即文件名å…
301ƒæ•°æ®ïŒŒæŠœå–自文档。\n
302</ul>
303
304<p>这䞪特定的栌匏变量将埗到䞀暡䞀样的倖观。它适甚于所有的<i>Vlists</i>也控制搜玢结果列衚䞎字母顺序的题名列衚。\n
305
306<pre>
307format VList \"&lt;td&gt;[link][icon][/link]&lt;\/td&gt;\n
308 &lt;td&gt;[srclink][srcicon][/srclink]&lt;\/td&gt;\n
309 &lt;td&gt;[Title]&lt;br&gt;&lt;i&gt;([Source])&lt;/i&gt;&lt;/td&gt;\"\n
310</pre>
311"
Note: See TracBrowser for help on using the repository browser.