source: collections/documented-examples/trunk/pagedimg-e/etc/collect.cfg@ 19359

Last change on this file since 19359 was 19359, checked in by anna, 13 years ago

Spanish translations of the documented example collections. Many thanks to Diego Spano.

  • Property svn:executable set to *
File size: 11.0 KB
3public true
5indexes section:text
6defaultindex section:text
8plugin GreenstoneXMLPlugin
9# We want the two types of paged documents to be treated differently: paged
10# and hierarchical. So include two PagedImagePlugin plugins and modify the
11# process_exp.
12plugin PagedImagePlugin -create_screenview true -minimumsize 100 -documenttype hierarchy -process_exp xml.*\.item$ -OIDtype assigned -OIDmetadata ItemOID
13plugin PagedImagePlugin -create_screenview true -minimumsize 100 -documenttype paged -OIDtype assigned -OIDmetadata ItemOID
14plugin MetadataXMLPlugin
15plugin ArchivesInfPlugin
16plugin DirectoryPlugin
18classify AZCompactList -metadata Series -sort Date
19classify DateList
21# Format statements to display Series, Volume, Number and Date information
23format DocumentVList "<td valign=top>[link][icon][/link]</td>
24<td valign=top>{If}{[Series],[Series] {If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]},[highlight]{Or}{[Title],[PageNum]}[/highlight]}</td>"
26format CL1VList "<td valign=top>[link][icon][/link]</td>
27<td valign=top>{If}{[numleafdocs],[Title],{If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]} ([format:Date])}</td>"
29format SearchVList "<td valign=top>[link][icon][/link]</td>
30<td valign=top>[parent(Top):Series] {If}{[parent(Top):Volume],Vol. [parent(Top):Volume]} {If}{[parent(Top):Number],No. [parent(Top):Number]} Page [Title]</td>"
32format DateList "<td valign=top>[link][icon][/link]</td>
33<td valign=top>[Series] {If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]}</td>"
35format HList "[link][highlight][ex.Title][/highlight][/link]"
37# We customise the document display, so use the extended options
38format AllowExtendedOptions true
40# We want to add in fullsize/preview/text buttons to switch between the
41# different versions of each page
43format DocumentHeading "<center><table width=_pagewidth_>
44<tr valign=top><td>{Or}{[parent(Top):Series],[Series]}</td></tr>
45<tr valign=top><td><table><tr><td>
47{If}{_cgiargp_ eq 'fullsize',{If}{[screenicon],_document:viewpreview_}
48{If}{[NoText] eq \'1\',,_document:viewtext_},
49{If}{_cgiargp_ eq 'preview',{If}{[srcicon],_document:viewfullsize_}
50{If}{[NoText] eq \'1\',,_document:viewtext_},
56# Document text display changes based on the p argument - this is not used
57#normally for document display, so we can use it here to switch between
58#fullsize/preview/text versions.
59format DocumentText "<center><table width=_pagewidth_><tr><td>
60{If}{_cgiargp_ eq \'fullsize\',[srcicon],
61{If}{_cgiargp_ eq \'preview\',[screenicon],{If}{[NoText] eq \'1\',,[Text]}}}
65# -- English strings --------------------
66collectionmeta collectionname [l=en] "Paged Image example"
67collectionmeta .section:text [l=en] "newspaper pages"
69# -- Spanish strings --------------------
70collectionmeta collectionname [l=es] "Ejemplo de imágenes paginadas"
71collectionmeta .section:text [l=es] "páginas de diario"
73# -- English text -----------------------
75collectionmeta collectionextra [l=en] "This collection contains a few newspapers from the
76<a href=';p=about&amp;c=niupepa'>
77Niupepa</a> collection of Maori newspapers.
79<h3>How the collection works</h3>
80<p>Each newspaper issue consists of a set of images, one per page, and a set
81of text files for the OCR'd text. An item file links the set of pages into a
82single newspaper document. PagedImagePlugin is used to process the item files.
83<p>There are two styles of item files, and this collection demonstrates both.
84The first uses a text based format, and consists of a list of metadata for the
85document, and a list of pages. Here are some examples:
86<a href='_httpcollection_/import/09/09\_1\_1.item'>Te Waka o Te Iwi, Vol. 1, No. 1</a>,
87<a href='_httpcollection_/import/10/10\_1\_3.item'>Te Whetu o Te Tau, Vol. 1, No. 3</a>.
88This format allows specification of document level metadata, and a single list of pages.
89<p>The second style is an extended format, and uses XML. It allows a hierarchy
90of pages, and metadata specification at the page level as well as at the
91document level. An example is <a href='_httpcollection_/import/xml/23/23\_\_2.item'>Matariki 1881, No. 2</a>.
92This newspaper also has an abstract associated with it. The contents have been
93grouped into two sections: Supplementary Material, which contains the Abstract,
94 and Newspaper Pages, which contains the page images.
95<p>Paged documents can be presented with a hierarchical table of contents
96(e.g. <a href='?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text'>this one</a>),
97or with next and previous page arrows, and a goto page box
98(e.g. <a href='?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview'>this one</a>).
99This is specified by the <tt>-documenttype (hierarchy|paged)</tt> option to PagedImagePlugin.
100The next and previous arrows suit the linear sequence documents, while the table of contents
101suits the hierarchically organised document. Ordinarily, a Greenstone collection
102 would have one plugin per document type, and all documents of that type get
103the same processing. In this case, we want to treat the XML-based item files
104differently from the text-based item files. We can achieve this by adding two
105PagedImagePlugin plugins to the collection, and configuring them differently.
106<p><tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/>
107plugin PagedImagePlugin -documenttype paged </tt>
109<p>XML based newpapers have been grouped into a folder called <tt>xml</tt>.
110This enables us to process these files differently, by utilising the
111<tt>process_exp</tt> option which all plugins support. The first PagedImagePlugin
112in the list looks for item files underneath the xml folder. These documents
113will be processed as hierarchical documents. Item files that don't match the
114process expression (i.e. aren't underneath the xml folder) will be passed onto
115the second PagedImagePlugin, and these are treated as paged documents.
118<p>We have modified the document formatting to display fullsized images,
119preview images or text, with buttons to switch between them. This involves
120modifications to the DocumentHeading and DocumentText format statements in the
121<a href='_httpcollection_/etc/collect.cfg' target=\'collect.cfg\'>collection configuration file</a>,
122and some macro definitions in the <a href='_httpcollection_/macros/' target=\'\'> macro file</a>.
123The macro file provides definitions for the buttons (\_viewfullsize\_,
124 \_viewpreview\_, \_viewtext\_) which are used by the format statement in the
125collect.cfg file. The format statement switches the document display and sets
126the buttons to be displayed based on the p argument, which is also set by the
127format statement.
130# -- Spanish text -----------------------
131collectionmeta collectionextra [l=es] "Esta colección contiene algunos diarios de la colección
132<a href=';p=about&amp;c=niupepa'>
133Niupepa</a> de periódicos Maories.
135<h3>Cómo funciona la colección</h3>
136<p>Cada diario consiste en un conjunto de imágenes, una por página, y un conjunto de archivos de texto provenientes del OCR. Un archivo .item relaciona al conjunto de páginas en un único documento de diario. PagedImagePlugin se utiliza para procesar esos archivos .item.
137<p>Hay dos estilos para escribir esos archivos item. y esta colección demuestra ambos.
138El primero usa un formato básico de texto, y consiste en una lista de metadatos para el documento, y una lista de páginas. Aquí hay algunos ejemplos:
139<a href='_httpcollection_/import/09/09\_1\_1.item'>Te Waka o Te Iwi, Vol. 1, No. 1</a>,
140<a href='_httpcollection_/import/10/10\_1\_3.item'>Te Whetu o Te Tau, Vol. 1, No. 3</a>.
141Este formato permite la especificación de metadatos a nivel de documento, y una lista simple de páginas.
142<p>El segundo estilo es un formato extendido y usa XML. Permite una jerarquía de páginas, y una especificación de metadatos a nivel de documento como también de páginas. Un ejemplo es <a href='_httpcollection_/import/xml/23/23\_\_2.item'>Matariki 1881, No. 2</a>.
143Este diario también tiene un resumen asociado a él. Los contenidos han sido agrupados en 2 secciones: Material Suplementario, la cual contiene el resumen, y Páginas del Diario, que contiene las imágenes de las páginas.
144<p>Los documentos paginados pueden presentarse con una tabla de contenidos jerárquica
145(por ej. <a href='?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text'>esta</a>),
146o con flechas "Siguiente" y "Anterior" y un recuadro "Ir a la página..."
147(por ej. <a href='?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview'>esta</a>).
148Esto es definido por la opción <tt>-documenttype (hierarchy|paged)</tt> asignada al plugin PagedImagePlugin.
149Las flechas Siguiente y Anterior permiten seguir el documento de manera lineal, mientras que la tabla de contenidos muestra al documento organizado jerárquicamente. Generalmente, una colección de Greenstone tendría un plugin por cada tipo de documento y todos los documentos de ese mismo tipo tendrían el mismo procesamiento. En este caso, queremos tratar los archivos .item con formato XML de manera diferente a aquellos con formato de texto plano. Esto puede lograrse agregando dos plugin PagedImagePlugin a la colección, y configurándolo de manera diferente.
150<p><tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/>
151plugin PagedImagePlugin -documenttype paged </tt>
153<p>Los diarios basados en XML han sido agrupados en una carpeta llamada <tt>xml</tt>.
154Esto nos permite procesar esos archivos de una manera diferente, utilizando la opción <tt>process_exp</tt> que es soportada por todos los plugins. El primer plugin PagedImagePlugin
155en la lista busca archivos .item que se encuentren en la carpeta xml. Estos documentos se procesarán como documentos jerárquicos. Los archivos .item que no coincidan con la expresión de procesamiento (por ejemplo, los que no estén dentro de la carpeta xml) serán pasados al segundo plugin PagedImagePlugin, y se tratarán como documentos paginados.
158<p>Hemos modificado el formateo del documento para mostrar imágenes a tamaño completo, previsualizar imágenes o texto y botones para cambiar entre estas opciones. Esto involucra modificaciones a las cadenas de formateo del DocumentHeading y el DocumentText en el
159<a href='_httpcollection_/etc/collect.cfg' target=\'collect.cfg\'>archivo de configuración de la colección.</a>,
160y algunas definiciones de macros en el <a href='_httpcollection_/macros/' target=\'\'>archivo de macros</a>.
161El archivo provee definiciones para los botones (\_viewfullsize\_,
162 \_viewpreview\_, \_viewtext\_) los cuales son usados por la sentencia de formateo en el archivo collect.cfg. La sentencia de formateo cambia la visualización del documento y setea los botones que deben mostrarse basándose en el argumento p, el cual es configurado también en la misma sentencia.
163 "
Note: See TracBrowser for help on using the repository browser.