root/collections/documented-examples/trunk/pagedimg-e/etc/collect.cfg @ 19375

Revision 19375, 11.0 KB (checked in by kjdon, 11 years ago)

opened and closed in GLI. minor formatting changes to file. GLI added in VLIst and DocumentButtons? format statements. I removed those again.

  • Property svn:executable set to *
Line 
1creator     greenstone@cs.waikato.ac.nz
2maintainer  greenstone@cs.waikato.ac.nz
3public      true
4
5buildtype   mg
6
7indexes     section:text
8defaultindex    section:text
9
10plugin  GreenstoneXMLPlugin
11# We want the two types of paged documents to be treated differently: paged
12# and hierarchical. So include two PagedImagePlugin plugins and modify the
13# process_exp.
14plugin  PagedImagePlugin -process_exp xml.*\.item$ -create_screenview true -OIDtype assigned -minimumsize 100 -OIDmetadata ItemOID -documenttype hierarchy
15plugin  PagedImagePlugin -create_screenview true -OIDtype assigned -minimumsize 100 -OIDmetadata ItemOID -documenttype paged
16plugin  MetadataXMLPlugin
17plugin  ArchivesInfPlugin
18plugin  DirectoryPlugin
19
20classify    AZCompactList -metadata Series -sort Date
21classify    DateList
22
23# Format statements to display Series, Volume, Number and Date information
24
25format DocumentVList "<td valign=top>[link][icon][/link]</td>
26<td valign=top>{If}{[Series],[Series] {If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]},[highlight]{Or}{[Title],[PageNum]}[/highlight]}</td>"
27
28format CL1VList "<td valign=top>[link][icon][/link]</td>
29<td valign=top>{If}{[numleafdocs],[Title],{If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]} ([format:Date])}</td>"
30
31format SearchVList "<td valign=top>[link][icon][/link]</td>
32<td valign=top>[parent(Top):Series] {If}{[parent(Top):Volume],Vol. [parent(Top):Volume]} {If}{[parent(Top):Number],No. [parent(Top):Number]} Page [Title]</td>"
33
34format DateList "<td valign=top>[link][icon][/link]</td>
35<td valign=top>[Series] {If}{[Volume],Vol. [Volume]} {If}{[Number],No. [Number]}</td>"
36
37format HList "[link][highlight][ex.Title][/highlight][/link]"
38
39# We customise the document display, so use the extended options
40format AllowExtendedOptions true
41
42# We want to add in fullsize/preview/text buttons to switch between the
43# different versions of each page
44
45format DocumentHeading "<center><table width=_pagewidth_>
46<tr valign=top><td>{Or}{[parent(Top):Series],[Series]}</td></tr>
47<tr valign=top><td><table><tr><td>
48[DocumentButtonDetach][DocumentButtonHighlight]
49{If}{_cgiargp_ eq \'fullsize\',{If}{[screenicon],_document:viewpreview_}
50{If}{[NoText] eq \'1\',,_document:viewtext_},
51{If}{_cgiargp_ eq \'preview\',{If}{[srcicon],_document:viewfullsize_}
52{If}{[NoText] eq \'1\',,_document:viewtext_},
53{If}{[srcicon],_document:viewfullsize_}
54{If}{[screenicon],_document:viewpreview_}}}
55</td></tr></table></td>
56<td>[DocTOC]</td></tr></table></center>"
57
58# Document text display changes based on the p argument - this is not used
59#normally for document display, so we can use it here to switch between
60#fullsize/preview/text versions.
61format DocumentText "<center><table width=_pagewidth_><tr><td>
62{If}{_cgiargp_ eq \'fullsize\',[srcicon],
63{If}{_cgiargp_ eq \'preview\',[screenicon],{If}{[NoText] eq \'1\',,[Text]}}}
64</td></tr></table></center>"
65
66
67# -- English strings --------------------
68collectionmeta  collectionname [l=en] "Paged Image example"
69collectionmeta  .section:text [l=en] "newspaper pages"
70
71# -- Spanish strings --------------------
72collectionmeta  collectionname [l=es] "Ejemplo de imágenes paginadas"
73collectionmeta  .section:text [l=es] "páginas de diario"
74
75# -- English text -----------------------
76
77collectionmeta  collectionextra [l=en] "This collection contains a few newspapers from the
78<a href=\'http://www.nzdl.org/cgi-bin/library?a=p&amp;p=about&amp;c=niupepa\'>
79Niupepa</a> collection of Maori newspapers.
80
81<h3>How the collection works</h3>
82<p>Each newspaper issue consists of a set of images, one per page, and a set
83of text files for the OCR\'d text. An item file links the set of pages into a
84single newspaper document. PagedImagePlugin is used to process the item files.
85<p>There are two styles of item files, and this collection demonstrates both.
86The first uses a text based format, and consists of a list of metadata for the
87document, and a list of pages. Here are some examples:
88<a href=\'_httpcollection_/import/09/09\_1\_1.item\'>Te Waka o Te Iwi, Vol. 1, No. 1</a>,
89<a href=\'_httpcollection_/import/10/10\_1\_3.item\'>Te Whetu o Te Tau, Vol. 1, No. 3</a>.
90This format allows specification of document level metadata, and a single list of pages.
91<p>The second style is an extended format, and uses XML. It allows a hierarchy
92of pages, and metadata specification at the page level as well as at the
93document level. An example is <a href=\'_httpcollection_/import/xml/23/23\_\_2.item\'>Matariki 1881, No. 2</a>.
94This newspaper also has an abstract associated with it. The contents have been
95grouped into two sections: Supplementary Material, which contains the Abstract,
96and Newspaper Pages, which contains the page images.
97<p>Paged documents can be presented with a hierarchical table of contents
98(e.g. <a href=\'?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text\'>this one</a>),
99or with next and previous page arrows, and a goto page box
100(e.g. <a href=\'?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview\'>this one</a>).
101This is specified by the <tt>-documenttype (hierarchy|paged)</tt> option to PagedImagePlugin.
102The next and previous arrows suit the linear sequence documents, while the table of contents
103suits the hierarchically organised document. Ordinarily, a Greenstone collection
104would have one plugin per document type, and all documents of that type get
105the same processing. In this case, we want to treat the XML-based item files
106differently from the text-based item files. We can achieve this by adding two
107PagedImagePlugin plugins to the collection, and configuring them differently.
108<p><tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/>
109plugin PagedImagePlugin -documenttype paged </tt>
110
111<p>XML based newpapers have been grouped into a folder called <tt>xml</tt>.
112This enables us to process these files differently, by utilising the
113<tt>process_exp</tt> option which all plugins support. The first PagedImagePlugin
114in the list looks for item files underneath the xml folder. These documents
115will be processed as hierarchical documents. Item files that don\'t match the
116process expression (i.e. aren\'t underneath the xml folder) will be passed onto
117the second PagedImagePlugin, and these are treated as paged documents.
118
119<p><b>Formatting</b>
120<p>We have modified the document formatting to display fullsized images,
121preview images or text, with buttons to switch between them. This involves
122modifications to the DocumentHeading and DocumentText format statements in the
123<a href=\'_httpcollection_/etc/collect.cfg\' target=\'collect.cfg\'>collection configuration file</a>,
124and some macro definitions in the <a href=\'_httpcollection_/macros/extra.dm\' target=\'extra.dm\'>extra.dm macro file</a>.
125The extra.dm macro file provides definitions for the buttons (\_viewfullsize\_,
126\_viewpreview\_, \_viewtext\_) which are used by the format statement in the
127collect.cfg file. The format statement switches the document display and sets
128the buttons to be displayed based on the p argument, which is also set by the
129format statement.
130"
131
132# -- Spanish text -----------------------
133collectionmeta  collectionextra [l=es] "Esta colección contiene algunos diarios de la colección
134<a href=\'http://www.nzdl.org/cgi-bin/library?a=p&amp;p=about&amp;c=niupepa\'>
135Niupepa</a> de periódicos Maories.
136
137<h3>Cómo funciona la colección</h3>
138<p>Cada diario consiste en un conjunto de imágenes, una por página, y un conjunto de archivos de texto provenientes del OCR. Un archivo .item relaciona al conjunto de páginas en un único documento de diario. PagedImagePlugin se utiliza para procesar esos archivos .item.
139<p>Hay dos estilos para escribir esos archivos item. y esta colección demuestra ambos.
140El primero usa un formato básico de texto, y consiste en una lista de metadatos para el documento, y una lista de páginas. Aquí hay algunos ejemplos:
141<a href=\'_httpcollection_/import/09/09\_1\_1.item\'>Te Waka o Te Iwi, Vol. 1, No. 1</a>,
142<a href=\'_httpcollection_/import/10/10\_1\_3.item\'>Te Whetu o Te Tau, Vol. 1, No. 3</a>.
143Este formato permite la especificación de metadatos a nivel de documento, y una lista simple de páginas.
144<p>El segundo estilo es un formato extendido y usa XML. Permite una jerarquía de páginas, y una especificación de metadatos a nivel de documento como también de páginas. Un ejemplo es <a href=\'_httpcollection_/import/xml/23/23\_\_2.item\'>Matariki 1881, No. 2</a>.
145Este diario también tiene un resumen asociado a él. Los contenidos han sido agrupados en 2 secciones: Material Suplementario, la cual contiene el resumen, y Páginas del Diario, que contiene las imágenes de las páginas.
146<p>Los documentos paginados pueden presentarse con una tabla de contenidos jerárquica
147(por ej. <a href=\'?a=d&amp;c=_cgiargc_&amp;d=23\_\_1.2.1&p=text\'>esta</a>),
148o con flechas \"Siguiente"
149(por ej. <a href='?a=d&amp;c=_cgiargc_&amp;d=10\_1\_2&p=preview'>esta</a>).
150Esto es definido por la opción <tt>-documenttype (hierarchy|paged)</tt> asignada al plugin PagedImagePlugin.
151Las flechas Siguiente y Anterior permiten seguir el documento de manera lineal, mientras que la tabla de contenidos muestra al documento organizado jerárquicamente. Generalmente, una colección de Greenstone tendría un plugin por cada tipo de documento y todos los documentos de ese mismo tipo tendrían el mismo procesamiento. En este caso, queremos tratar los archivos .item con formato XML de manera diferente a aquellos con formato de texto plano. Esto puede lograrse agregando dos plugin PagedImagePlugin a la colección, y configurándolo de manera diferente.
152<p><tt>plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ <br/>
153plugin  PagedImagePlugin -documenttype paged
154
155<p>Los diarios basados en XML han sido agrupados en una carpeta llamada <tt>xml</tt>.
156Esto nos permite procesar esos archivos de una manera diferente, utilizando la opción <tt>process_exp</tt> que es soportada por todos los plugins. El primer plugin PagedImagePlugin
157en la lista busca archivos .item que se encuentren en la carpeta xml. Estos documentos se procesarán como documentos jerárquicos. Los archivos .item que no coincidan con la expresión de procesamiento (por ejemplo, los que no estén dentro de la carpeta xml) serán pasados al segundo plugin PagedImagePlugin, y se tratarán como documentos paginados.
158
159<p><b>Formateo</b>
160<p>Hemos modificado el formateo del documento para mostrar imágenes a tamaño completo, previsualizar imágenes o texto y botones para cambiar entre estas opciones. Esto involucra modificaciones a las cadenas de formateo del DocumentHeading y el DocumentText en el
161<a href='_httpcollection_/etc/collect.cfg' target=\'collect.cfg\'>archivo de configuración de la colección.</a>,
162y algunas definiciones de macros en el <a href='_httpcollection_/macros/extra.dm' target=\'extra.dm\'>archivo de macros extra.dm</a>.
163El archivo extra.dm provee definiciones para los botones (\_viewfullsize\_,
164\_viewpreview\_, \_viewtext\_) los cuales son usados por la sentencia de formateo en el archivo collect.cfg. La sentencia de formateo cambia la visualización del documento y setea los botones que deben mostrarse basándose en el argumento p, el cual es configurado también en la misma sentencia.
165"
Note: See TracBrowser for help on using the browser.