name=分页图片示范馆藏 section_text=报纸页面 shortDescription=本馆藏包含若干源自Niupepa 馆藏的毛利报纸。 description1a=

本馆藏包含若干源自 Niupepa 馆藏的毛利报纸。

description1=

本馆藏如何工作

每期报纸由一组图片组成,每页对应一张图片,以及一组包含OCR文本的文本文件。 由一个item文件将一组页面链接起来,形成一个报纸文档。PagedImagePlugin用于处理这些item文件。

description2=

item文件有两种格式,而本馆藏将演示这两种格式。第一种是基于文本的格式,由一个文档元数据列表和 一个页面列表组成. 比如: Te Waka o Te Iwi,第1卷,第1期(import/09/09\_1\_1.item), Te Whetu o Te Tau,第1卷,第3期(import/10/10\_1\_3.item)。 这种格式允许设置文档级的元数据,以及一个页面列表。

description3=

第二种格式是一种使用XML的扩展格式。这种格式允许设置层级式页面列表,并且元数据可以是页面级的也可以是文档级的。 比如Matariki 1881,第2期(import/xml/23/23\_\_2.item)。这期报纸还有附属的文摘。 这期报纸的内容被分为两个部分:包括文摘在内的补充材料,以及报纸的页面,即页面图片。

description4=

分页文档可以用一个层级式的内容大纲显示(例如这个文档) ,或者用下一页和前一页的页面箭头以及一个跳转页面输入框来显示 (比如这个文档)。 这是通过设定PagedImagePlugin的-documenttype (hierarchy|paged)选项来实现的。 下一页和前一页箭头适用于线性序列的文档,而内容大纲适用于层级式的文档。一般情况下,一个Greenstone馆藏用一个插件处理一种类型的文档, 因此所有同类型的文档都将以同一种方式进行处理。在这种情况下,我们想用不同的方式分别处理基于XML的item文件与基于文本的item文件。 这可以通过在馆藏中添加两个PagedImagePlugin插件来完成,并对其分别进行不同的设置。

description5=

plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ ...
plugin PagedImagePlugin -documenttype paged ...

description6=

基于XML的报纸被集中置于一个称为xml的文件夹中。这允许我们用不同方式对这些文件进行处理, 这是通过设置所有插件都支持的process_exp选项来实现的。列表中的第一个PagedImagePlugin将查找xml文件夹下的所有item文件。 这些文档将会按层级式文档进行处理。不匹配处理表达式的item文件(即不在xml文件夹中的item文件)将被传递给第二个PagedImagePlugin,而这些将会按分页文档进行处理。

description7=[PENDING]

格式化

我们已经修改了文档的格式使其显示全幅的图片,预览图片或者文本,以及在不同模式之间进行转换的按钮。 这涉及到在馆藏的 配置文件(collectConfig.xml)中修改 DocumentHeading和DocumentText格式变量,以及 extra.dm宏文件中的一些宏。 extra.dm宏文件提供按钮(\_viewfullsize\_,\_viewpreview\_,\_viewtext\_)的定义,这些定义在collect.cfg文件的格式变量中用到。 格式变量根据p参数的值转换到不同的文档显示模式以及对应的按钮,而p参数也是由格式参数所设定的。