source: collections/documented-examples/trunk/pagedimg-e/etc/collect.cfg@ 19692

Last change on this file since 19692 was 19692, checked in by anna, 15 years ago

Added French translations. Many thanks to Guillaume Hatt and John Rose.

  • Property svn:executable set to *
File size: 19.3 KB
Line 
1creator [email protected]
2maintainer [email protected]
3public true
4
5buildtype mg
6
7indexes section:text
8defaultindex section:text
9
10plugin GreenstoneXMLPlugin
11# We want the two types of paged documents to be treated differently: paged
12# and hierarchical. So include two PagedImagePlugin plugins and modify the
13# process_exp.
14plugin PagedImagePlugin -process_exp xml.*\.item$ -create_screenview true -OIDtype assigned -minimumsize 100 -OIDmetadata ItemOID -documenttype hierarchy
15plugin PagedImagePlugin -create_screenview true -OIDtype assigned -minimumsize 100 -OIDmetadata ItemOID -documenttype paged
16plugin MetadataXMLPlugin
17plugin ArchivesInfPlugin
18plugin DirectoryPlugin
19
20classify AZCompactList -metadata Series -sort Date
21classify DateList
22
23# Format statements to display Series, Volume, Number and Date information
24
25format DocumentVList "<td valign=top>[link][icon][/link]</td>
26<td valign=top>{If}{[Series],[Series] {If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]},[highlight]{Or}{[Title],[PageNum]}[/highlight]}</td>"
27
28format CL1VList "<td valign=top>[link][icon][/link]</td>
29<td valign=top>{If}{[numleafdocs],[Title],{If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]} ([format:Date])}</td>"
30
31format SearchVList "<td valign=top>[link][icon][/link]</td>
32<td valign=top>[parent(Top):Series] {If}{[parent(Top):Volume],Vol. [parent(Top):Volume]} {If}{[parent(Top):Number],No. [parent(Top):Number]} Page [Title]</td>"
33
34format DateList "<td valign=top>[link][icon][/link]</td>
35<td valign=top>[Series] {If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]}</td>"
36
37format HList "[link][highlight][ex.Title][/highlight][/link]"
38
39# We customise the document display, so use the extended options
40format AllowExtendedOptions true
41
42# We want to add in fullsize/preview/text buttons to switch between the
43# different versions of each page
44
45format DocumentHeading "<center><table width=_pagewidth_>
46<tr valign=top><td>{Or}{[parent(Top):Series],[Series]}</td></tr>
47<tr valign=top><td><table><tr><td>
48[DocumentButtonDetach][DocumentButtonHighlight]
49{If}{_cgiargp_ eq \'fullsize\',{If}{[screenicon],_document:viewpreview_}
50{If}{[NoText] eq \'1\',,_document:viewtext_},
51{If}{_cgiargp_ eq \'preview\',{If}{[srcicon],_document:viewfullsize_}
52{If}{[NoText] eq \'1\',,_document:viewtext_},
53{If}{[srcicon],_document:viewfullsize_}
54{If}{[screenicon],_document:viewpreview_}}}
55</td></tr></table></td>
56<td>[DocTOC]</td></tr></table></center>"
57
58# Document text display changes based on the p argument - this is not used
59#normally for document display, so we can use it here to switch between
60#fullsize/preview/text versions.
61format DocumentText "<center><table width=_pagewidth_><tr><td>
62{If}{_cgiargp_ eq \'fullsize\',[srcicon],
63{If}{_cgiargp_ eq \'preview\',[screenicon],{If}{[NoText] eq \'1\',,[Text]}}}
64</td></tr></table></center>"
65
66
67# -- English strings --------------------
68collectionmeta collectionname [l=en] "Paged Image example"
69collectionmeta .section:text [l=en] "newspaper pages"
70
71# -- French strings --------------------
72collectionmeta collectionname [l=fr] "Exemple d'image mise en page"
73collectionmeta .section:text [l=fr] "pages de journaux"
74
75# -- Spanish strings --------------------
76collectionmeta collectionname [l=es] "Ejemplo de imágenes paginadas"
77collectionmeta .section:text [l=es] "páginas de diario"
78
79# -- Simplified Chinese strings --------------------
80collectionmeta collectionname [l=zh] "分页囟片瀺范銆藏"
81collectionmeta .section:text [l=zh] "报纞页面"
82
83# -- English text -----------------------
84
85collectionmeta collectionextra [l=en] "This collection contains a few newspapers from the
86<a href=\'http://www.nzdl.org/cgi-bin/library?a=p&amp;p=about&amp;c=niupepa\'>
87Niupepa</a> collection of Maori newspapers.
88
89<h3>How the collection works</h3>
90<p>Each newspaper issue consists of a set of images, one per page, and a set
91of text files for the OCR\'d text. An item file links the set of pages into a
92single newspaper document. PagedImagePlugin is used to process the item files.
93<p>There are two styles of item files, and this collection demonstrates both.
94The first uses a text based format, and consists of a list of metadata for the
95document, and a list of pages. Here are some examples:
96<a href=\'_httpcollection_/import/09/09\_1\_1.item\'>Te Waka o Te Iwi, Vol. 1, No. 1</a>,
97<a href=\'_httpcollection_/import/10/10\_1\_3.item\'>Te Whetu o Te Tau, Vol. 1, No. 3</a>.
98This format allows specification of document level metadata, and a single list of pages.
99<p>The second style is an extended format, and uses XML. It allows a hierarchy
100of pages, and metadata specification at the page level as well as at the
101document level. An example is <a href=\'_httpcollection_/import/xml/23/23\_\_2.item\'>Matariki 1881, No. 2</a>.
102This newspaper also has an abstract associated with it. The contents have been
103grouped into two sections: Supplementary Material, which contains the Abstract,
104and Newspaper Pages, which contains the page images.
105<p>Paged documents can be presented with a hierarchical table of contents
106(e.g. <a href=\'?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text\'>this one</a>),
107or with next and previous page arrows, and a goto page box
108(e.g. <a href=\'?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview\'>this one</a>).
109This is specified by the <tt>-documenttype (hierarchy|paged)</tt> option to PagedImagePlugin.
110The next and previous arrows suit the linear sequence documents, while the table of contents
111suits the hierarchically organised document. Ordinarily, a Greenstone collection
112would have one plugin per document type, and all documents of that type get
113the same processing. In this case, we want to treat the XML-based item files
114differently from the text-based item files. We can achieve this by adding two
115PagedImagePlugin plugins to the collection, and configuring them differently.
116<p><tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/>
117plugin PagedImagePlugin -documenttype paged </tt>
118
119<p>XML based newpapers have been grouped into a folder called <tt>xml</tt>.
120This enables us to process these files differently, by utilising the
121<tt>process_exp</tt> option which all plugins support. The first PagedImagePlugin
122in the list looks for item files underneath the xml folder. These documents
123will be processed as hierarchical documents. Item files that don\'t match the
124process expression (i.e. aren\'t underneath the xml folder) will be passed onto
125the second PagedImagePlugin, and these are treated as paged documents.
126
127<p><b>Formatting</b>
128<p>We have modified the document formatting to display fullsized images,
129preview images or text, with buttons to switch between them. This involves
130modifications to the DocumentHeading and DocumentText format statements in the
131<a href=\'_httpcollection_/etc/collect.cfg\' target=\'collect.cfg\'>collection configuration file</a>,
132and some macro definitions in the <a href=\'_httpcollection_/macros/extra.dm\' target=\'extra.dm\'>extra.dm macro file</a>.
133The extra.dm macro file provides definitions for the buttons (\_viewfullsize\_,
134\_viewpreview\_, \_viewtext\_) which are used by the format statement in the
135collect.cfg file. The format statement switches the document display and sets
136the buttons to be displayed based on the p argument, which is also set by the
137format statement.
138"
139
140# -- French text -----------------------
141
142collectionmeta collectionextra [l=fr] "
143Cette collection contient quelques journaux de la collection de journaux Maori
144<a href='http://www.nzdl.org/cgi-bin/library?a=p&amp;p=about&amp;c=niupepa'>Niupepa</a>.
145
146<h3>Comment fonctionne la collection</h3>
147
148<p>Chaque numéro de revue est constitué d'une série d'images, une par page, et d'une série de
149fichiers textuels issus de l'OCR. Un fichier d'exemplaire fait le lien entre la série d'images
150et le document du numéro du journal. Le plugiciel PagedImagePlugin est utilisé pour traiter les
151fichiers d'exemplaire. <p>Il y a deux styles de fichiers d'exemplaires, et cette collection les
152utilise tous les deux. Le premier utilise un format textuel, et regroupe une liste de métadonnées
153et une liste de pages.
154
155En voici quelques exemples : <a href='_httpcollection_/import/09/09\_1\_1.item'>Te Waka o Te Iwi, Vol. 1, No. 1</a>,
156<a href='_httpcollection_/import/10/10\_1\_3.item'>Te Whetu o Te Tau, Vol. 1, No. 3</a>.
157Ce format permet de spécifier des métadonnées de niveau document, et une seule liste de pages.
158
159<p>Le second style est un format étendu et utilise XML. Il permet de hiérarchiser les pages,
160et de spécifier des métadonnées aussi bien au niveau de la page que du document.
161En voici un exemple : <a href='_httpcollection_/import/xml/23/23\_\_2.item'>Matariki 1881, No. 2</a>.
162Ce journal a aussi un résumé qui lui est associé. Les contenus ont donc été regroupés en deux sections :
163matériaux complémentaires, qui contient les résumés, et pages du journal, qui contient les images des pages.
164Les documents paginés peuvent être présentés avec une table des matiÚres hiérarchique (voir par exemple
165<a href='?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text'>celle-ci</a>), ou avec des flÚches de navigation pour
166atteindre la page précédente ou la page suivante, ainsi qu'une boîte permettant d'atteindre une page en particulier
167(par exemple <a href='?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview'>celle-ci</a>). Cela est défini par l'option
168<tt>-documenttype (hierarchy|paged)</tt> du plugiciel PagedImagePlugin. Les flÚches de navigation suivent l"organisation
169linéaire des documents, tandis que la table des matiÚres respecte l'organisation hiérarchique des documents. Normalement,
170une collection Greenstone utilise un seul plugiciel par type de document, et tous les documents de ce type subissent le même
171traitement. Dans ce cas, nous voulons traiter différemment les fichiers d'exemplaires au format XML et les ficiers d'exemplaires
172au format texte. Nous pouvons arriver à ce résultat en ajoutant deux plugiciels PagedImagePlugin à la collection, et en
173les configurant différemment de la façon suivante :
174<p><tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/>
175plugin PagedImagePlugin -documenttype paged </tt> <p>Les journaux décrits en XML ont été regroupés dans un dossier
176appelé <tt>xml</tt>. Cela nous permet de traiter ces fichiers différemment, en utilisant l'option <tt>process_exp</tt>
177dont disposent tous les plugiciels. Le premier plugiciel PagedImagePlugin de la liste recherche les fichiers d'exemplaires
178à l'intérieur du dossier xml. Ces documents seront alors traités comme des documents hiérarchisés. Les fichiers d'exemplaires
179qui ne correspondent pas à l'expression de recherche (c'est à dire qui ne sont pas situés dans le dossier xml) seront traités
180par le second plugiciel PagedImagePlugin, comme des documents paginés. <p><b>Formatage</b> <p>Nous avons modifié le formatage
181du document pour afficher les images en haute résolution, prévisualiser les images ou le texte, avec un bouton pour passer
182d'un mode à l'autre. Cela implique des modifications dans les déclarations des formats DocumentHeading et DocumentText,
183dans le <a href='_httpcollection_/etc/collect.cfg' target=\'collect.cfg\'>fichier de configuration de la collection</a>,
184et la définition de certaines macros dans le <a href='_httpcollection_/macros/extra.dm' target=\'extra.dm\'>fichier de
185macro extra.dm</a>. Le fichier de macro extra.dm définit les boutons (\_viewfullsize\_, \_viewpreview\_, \_viewtext\_) qui
186sont utilisés par la déclaration de format dans le fichier collect.cfg. La déclaration de format change l'affichage du document
187et définit les boutons affichés en se basant sur l'argument p, qui est aussi défini dans la déclaration du format.
188"
189
190# -- Spanish text -----------------------
191collectionmeta collectionextra [l=es] "Esta colección contiene algunos diarios de la colección
192<a href=\'http://www.nzdl.org/cgi-bin/library?a=p&amp;p=about&amp;c=niupepa\'>
193Niupepa</a> de periódicos Maories.
194
195<h3>Cómo funciona la colección</h3>
196<p>Cada diario consiste en un conjunto de imágenes, una por página, y un conjunto de archivos de texto provenientes del OCR. Un archivo .item relaciona al conjunto de páginas en un único documento de diario. PagedImagePlugin se utiliza para procesar esos archivos .item.
197<p>Hay dos estilos para escribir esos archivos item. y esta colección demuestra ambos.
198El primero usa un formato básico de texto, y consiste en una lista de metadatos para el documento, y una lista de páginas. Aquí hay algunos ejemplos:
199<a href=\'_httpcollection_/import/09/09\_1\_1.item\'>Te Waka o Te Iwi, Vol. 1, No. 1</a>,
200<a href=\'_httpcollection_/import/10/10\_1\_3.item\'>Te Whetu o Te Tau, Vol. 1, No. 3</a>.
201Este formato permite la especificación de metadatos a nivel de documento, y una lista simple de páginas.
202<p>El segundo estilo es un formato extendido y usa XML. Permite una jerarquía de páginas, y una especificación de metadatos a nivel de documento como también de páginas. Un ejemplo es <a href=\'_httpcollection_/import/xml/23/23\_\_2.item\'>Matariki 1881, No. 2</a>.
203Este diario también tiene un resumen asociado a él. Los contenidos han sido agrupados en 2 secciones: Material Suplementario, la cual contiene el resumen, y Páginas del Diario, que contiene las imágenes de las páginas.
204<p>Los documentos paginados pueden presentarse con una tabla de contenidos jerárquica
205(por ej. <a href=\'?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text\'>esta</a>),
206o con flechas \"Siguiente"
207(por ej. <a href='?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview'>esta</a>).
208Esto es definido por la opción <tt>-documenttype (hierarchy|paged)</tt> asignada al plugin PagedImagePlugin.
209Las flechas Siguiente y Anterior permiten seguir el documento de manera lineal, mientras que la tabla de contenidos muestra al documento organizado jerárquicamente. Generalmente, una colección de Greenstone tendría un plugin por cada tipo de documento y todos los documentos de ese mismo tipo tendrían el mismo procesamiento. En este caso, queremos tratar los archivos .item con formato XML de manera diferente a aquellos con formato de texto plano. Esto puede lograrse agregando dos plugin PagedImagePlugin a la colección, y configurándolo de manera diferente.
210<p><tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/>
211plugin PagedImagePlugin -documenttype paged
212
213<p>Los diarios basados en XML han sido agrupados en una carpeta llamada <tt>xml</tt>.
214Esto nos permite procesar esos archivos de una manera diferente, utilizando la opción <tt>process_exp</tt> que es soportada por todos los plugins. El primer plugin PagedImagePlugin
215en la lista busca archivos .item que se encuentren en la carpeta xml. Estos documentos se procesarán como documentos jerárquicos. Los archivos .item que no coincidan con la expresión de procesamiento (por ejemplo, los que no estén dentro de la carpeta xml) serán pasados al segundo plugin PagedImagePlugin, y se tratarán como documentos paginados.
216
217<p><b>Formateo</b>
218<p>Hemos modificado el formateo del documento para mostrar imágenes a tamaño completo, previsualizar imágenes o texto y botones para cambiar entre estas opciones. Esto involucra modificaciones a las cadenas de formateo del DocumentHeading y el DocumentText en el
219<a href='_httpcollection_/etc/collect.cfg' target=\'collect.cfg\'>archivo de configuración de la colección.</a>,
220y algunas definiciones de macros en el <a href='_httpcollection_/macros/extra.dm' target=\'extra.dm\'>archivo de macros extra.dm</a>.
221El archivo extra.dm provee definiciones para los botones (\_viewfullsize\_,
222\_viewpreview\_, \_viewtext\_) los cuales son usados por la sentencia de formateo en el archivo collect.cfg. La sentencia de formateo cambia la visualización del documento y setea los botones que deben mostrarse basándose en el argumento p, el cual es configurado también en la misma sentencia.
223"
224
225# -- Simplified Chinese text -----------------------
226collectionmeta collectionextra [l=zh] "本銆藏包
227含若干源自
228<a href='http://www.nzdl.org/cgi-bin/library?a=p&amp;p=about&amp;c=niupepa'>Niupepa</a>銆藏的毛利报纞。
229
230<h3>本銆藏劂䜕工䜜</h3>
231
232<p>每期报纞由䞀组囟片组成每页对应䞀匠囟片以及䞀组包
233含OCR文本的文本文件。
234由䞀䞪item文件将䞀组页面铟接起来圢成䞀䞪报纞文档。PagedImagePlugin甚于倄理这些item文件。
235
236<p>item文件有䞀种栌匏而本銆藏将挔瀺这䞀种栌匏。第䞀种是基于文本的栌匏由䞀䞪文档å…
237ƒæ•°æ®åˆ—è¡šå’Œ
238䞀䞪页面列衚组成. 比劂 <a href='_httpcollection_/import/09/09\_1\_1.item'>Te Waka o Te Iwi第1卷第1期</a>
239<a href='_httpcollection_/import/10/10\_1\_3.item'>Te Whetu o Te Tau第1卷第3期</a>。
240这种栌匏å…
241è®žè®Ÿçœ®æ–‡æ¡£çº§çš„å…
242ƒæ•°æ®ïŒŒä»¥åŠäž€äžªé¡µé¢åˆ—衚。
243
244<p>第二种栌匏是䞀种䜿甚XML的扩展栌匏。这种栌匏å…
245è®žè®Ÿçœ®å±‚级匏页面列衚并䞔å…
246ƒæ•°æ®å¯ä»¥æ˜¯é¡µé¢çº§çš„也可以是文档级的。
247比劂<a href='_httpcollection_/import/xml/23/23\_\_2.item'>Matariki 1881第2期</a>。这期报纞还有附属的文摘。
248这期报纞的内
249容被分䞺䞀䞪郚分包
250括文摘圚内
251的补å…
252…
253材料以及报纞的页面即页面囟片。
254
255<p>分页文档可以甚䞀䞪层级匏的内
256容倧纲星瀺䟋劂<a href='?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text'>这䞪文档</a>
257或者
258甚䞋䞀页和前䞀页的页面箭倎以及䞀䞪跳蜬页面蟓å…
259¥æ¡†æ¥æ˜Ÿç€º
260比劂<a href='?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview'>这䞪文档</a>。
261这是通过讟定PagedImagePlugin的<tt>-documenttype (hierarchy|paged)</tt>选项来实现的。
262䞋䞀页和前䞀页箭倎适甚于线性序列的文档而内
263容倧纲适甚于层级匏的文档。䞀般情
264况䞋䞀䞪Greenstone銆藏甚䞀䞪插件倄理䞀种类型的文档
265因歀所有同类型的文档郜将以同䞀种方匏进行倄理。圚这种情
266况䞋我们想甚䞍同的方匏分别倄理基于XML的item文件䞎基于文本的item文件。
267这可以通过圚銆藏䞭添加䞀䞪PagedImagePlugin插件来完成并对å…
268¶åˆ†åˆ«è¿›è¡ŒäžåŒçš„讟眮。
269
270<p>
271<tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/> plugin PagedImagePlugin -documenttype paged
272</tt>
273
274<p>基于XML的报纞被集䞭眮于䞀䞪称䞺<tt>xml</tt>的文件倹䞭。这å…
275è®žæˆ‘们甚䞍同方匏对这些文件进行倄理
276这是通过讟眮所有插件郜支持的<tt>process_exp</tt>选项来实现的。列衚䞭的第䞀䞪PagedImagePlugin将查扟xml文件倹䞋的所有item文件。
277这些文档将䌚按层级匏文档进行倄理。䞍匹é…
278å€„理衚蟟匏的item文件即䞍圚xml文件倹䞭的item文件将被䌠递给第二䞪PagedImagePlugin而这些将䌚按分页文档进行倄理。
279
280<p><b>栌匏化</b>
281<p>我们已经修改了文档的栌匏䜿å…
282¶æ˜Ÿç€ºå…
283šå¹…
284的囟片预览囟片或者
285文本以及圚䞍同暡匏之闎进行蜬换的按钮。
286这涉及到圚銆藏的<a href='_httpcollection_/etc/collect.cfg' target=\'collect.cfg\'>é…
287çœ®æ–‡ä»¶</a>䞭修改
288DocumentHeading和DocumentText栌匏变量以及<a href='_httpcollection_/macros/extra.dm' target=\'extra.dm\'>
289extra.dm宏文件</a>䞭的䞀些宏。
290
291extra.dm宏文件提䟛按钮\_viewfullsize\_\_viewpreview\_\_viewtext\_的定义这些定义圚collect.cfg文件的栌匏变量䞭甚到。
292栌匏变量根据p参数的倌蜬换到䞍同的文档星瀺暡匏以及对应的按钮而p参数也是由栌匏参数所讟定的。
293"
Note: See TracBrowser for help on using the repository browser.