name=分页图片示范馆藏 section_text=报纸页面 shortDescription=本馆藏包含若干源自Niupepa 馆藏的毛利报纸。 description1a=

本馆藏包含若干源自 Niupepa 馆藏的毛利报纸。

description1=

本馆藏如何工作

每期报纸由一组图片组成，每页对应一张图片，以及一组包含OCR文本的文本文件。由一个item文件将一组页面链接起来，形成一个报纸文档。PagedImagePlugin用于处理这些item文件。

description2=

item文件有两种格式，而本馆藏将演示这两种格式。第一种是基于文本的格式，由一个文档元数据列表和一个页面列表组成. 比如： Te Waka o Te Iwi，第1卷，第1期(import/09/09\_1\_1.item)， Te Whetu o Te Tau，第1卷，第3期(import/10/10\_1\_3.item)。这种格式允许设置文档级的元数据，以及一个页面列表。

description3=

第二种格式是一种使用XML的扩展格式。这种格式允许设置层级式页面列表，并且元数据可以是页面级的也可以是文档级的。比如Matariki 1881，第2期(import/xml/23/23\_\_2.item)。这期报纸还有附属的文摘。这期报纸的内容被分为两个部分：包括文摘在内的补充材料，以及报纸的页面，即页面图片。

description4=

分页文档可以用一个层级式的内容大纲显示（例如这个文档），或者用下一页和前一页的页面箭头以及一个跳转页面输入框来显示（比如这个文档）。这是通过设定PagedImagePlugin的-documenttype (hierarchy|paged)选项来实现的。下一页和前一页箭头适用于线性序列的文档，而内容大纲适用于层级式的文档。一般情况下，一个Greenstone馆藏用一个插件处理一种类型的文档，因此所有同类型的文档都将以同一种方式进行处理。在这种情况下，我们想用不同的方式分别处理基于XML的item文件与基于文本的item文件。这可以通过在馆藏中添加两个PagedImagePlugin插件来完成，并对其分别进行不同的设置。

description5=

plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ ... plugin PagedImagePlugin -documenttype paged ...

description6=

基于XML的报纸被集中置于一个称为xml的文件夹中。这允许我们用不同方式对这些文件进行处理，这是通过设置所有插件都支持的process_exp选项来实现的。列表中的第一个PagedImagePlugin将查找xml文件夹下的所有item文件。这些文档将会按层级式文档进行处理。不匹配处理表达式的item文件（即不在xml文件夹中的item文件）将被传递给第二个PagedImagePlugin，而这些将会按分页文档进行处理。

description7=[PENDING]

格式化

我们已经修改了文档的格式使其显示全幅的图片，预览图片或者文本，以及在不同模式之间进行转换的按钮。这涉及到在馆藏的配置文件(collectConfig.xml)中修改 DocumentHeading和DocumentText格式变量，以及 extra.dm宏文件中的一些宏。 extra.dm宏文件提供按钮（\_viewfullsize\_，\_viewpreview\_，\_viewtext\_）的定义，这些定义在collect.cfg文件的格式变量中用到。格式变量根据p参数的值转换到不同的文档显示模式以及对应的按钮，而p参数也是由格式参数所设定的。