name=Ejemplo de imágenes paginadas section_text=páginas de diario shortDescription=

Esta colección contiene algunos diarios de la colección Niupepa de periódicos Maories. description1a=

Esta colección contiene algunos diarios de la colección Niupepa de periódicos Maories.

description1=

Cómo funciona la colección

Cada diario consiste en un conjunto de imágenes, una por página, y un conjunto de archivos de texto provenientes del OCR. Un archivo .item relaciona al conjunto de páginas con un único diario. PagedImagePlugin se utiliza para procesar esos archivos .item.

description2=

Hay dos estilos para escribir esos archivos item. y esta colección demuestra ambos. El primero usa un formato básico de texto, y consiste en una lista de metadatos para el documento, y una lista de páginas. Aquí hay algunos ejemplos\: Te Waka o Te Iwi, Vol. 1, No. 1 (import/09/09\_1\_1.item), Te Whetu o Te Tau, Vol. 1, No. 3 (import/10/10\_1\_3.item). Este formato permite la especificación de metadatos a nivel de documento, y una lista simple de páginas.

description3=

El segundo estilo es un formato extendido y usa XML. Permite una jerarquía de páginas, y una especificación de metadatos a nivel de documento como también de páginas. Un ejemplo es Matariki 1881, No. 2 (import/xml/23/23\_\_2.item). Este diario también tiene un resumen asociado a él. Los contenidos han sido agrupados en 2 secciones\: Material Suplementario, la cual contiene el resumen, y Páginas del Diario, que contiene las imágenes de las páginas.

description4=

Los documentos paginados pueden presentarse con una tabla de contenidos jerárquica (por ej. esta), o con flechas de avance o retroceso de páginas, y una opción "Ir a" (por ejemplo, esta). Esto se especifica con la opción -documenttype (hierarchy|paged) del PagedImagePlugin. Las flechas de avance o retroceso permiten la recorrida secuencial del documento, mientras que la tabla de contenidos recorrer el documento organizado jerárquicamente. Normalmente, una colección de Greenstone tendría solo un plugin por tipo de documento, y todos los documentos de ese tipo tendrán el mismo procesamiento. En este caso, queremos tratar a los archivos .item con formato XML de una manera diferente a los archivos .item con formato plano. Podemos lograr esto agregando 2 plugins PagedImagePlugin a la colección, y configurándolos de manera diferente.

description5=

plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ ...
plugin PagedImagePlugin -documenttype paged ...

description6=

Los Diarios basados en XML fueron agrupados en una carpeta llamada xml. Esto permite procesar esos archivos de una forma diferente, utilizando la opción process_exp que todos los plugin soportan. El primer plugin PagedImagePlugin de la lista busca archivos .item dentro de la carpeta xml. Estos documentos serán procesados como documentos jerárquicos. Los archivos item que no coincidan con ese criterio (p.e. no están dentro de la carpeta xml) serán pasados al segundo PagedImagePlugin, y serán tratados como documentos paginados.

description7=[PENDING]

Formateo

Hemos modificado el formateo del documento para mostrar imágenes a tamaño completo, previsualización de la imagen o el texto, con botones para intercambiar entre ellos. esto incluye modificaciones a las cadenas de formateo del DocumentHeading y del DocumentText en el archivo de configuración (etc/collectionConfig.xml), y algunas definiciones de macros en el archivo extra.dm (macros/extra.dm). El archivo de macros extra.dm provee definiciones para os botones (\_viewfullsize\_, \_viewpreview\_, \_viewtext\_) que son usados por la cadena de formateo en el collect.cfg. Dicha cadena de formateo cambia la visualización del documento y configura los botones de acuerdo al argumento p, el cual también es configurado por la cadena de formateo.