creator greenstone@cs.waikato.ac.nz maintainer greenstone@cs.waikato.ac.nz public true buildtype mgpp indexes text dc.Title defaultindex text levels document plugin GreenstoneXMLPlugin plugin MARCPlugin -OIDtype incremental plugin MetadataXMLPlugin plugin ArchivesInfPlugin plugin DirectoryPlugin classify AZList -metadata dc.Title -removesuffix \\s*(\\/|;|,|\\.).* classify AZCompactList -metadata dc.Creator -removesuffix (b\\.\\s+)?(\\d+(\\-?))(\\d+(\\.)?)? classify AZCompactList -metadata "dc.Subject" format VList "[link][icon][/link] {If}{[numleafdocs],[Title],[dc.Title]{If}{[dc.Creator], [sibling:dc.Creator]}{If}{[dc.Publisher], [dc.Publisher]}}{If}{[numleafdocs],([numleafdocs])}" #format CL2VList "[link][icon][/link]{If}{[numleafdocs],[Title],[dc.Creator]; [dc.Title]{If}{[dc.Publisher], [dc.Publisher]}}{If}{[numleafdocs],([numleafdocs])}" #format CL3VList "[link][icon][/link]{If}{[numleafdocs]{[Title],[dc.Title]{If}{[dc.Creator], [dc.Creator]}{If}{[dc.Publisher], [dc.Publisher]}}{If}{[numleafdocs],([numleafdocs])}" format HList "[link][highlight][ex.Title][/highlight][/link]" format DocumentHeading "[dc.Title]
" format DocumentText "[Text]" format DocumentButtons "" format SearchTypes "plain,form" collectionmeta .text [l=en] "_labeltext_" collectionmeta .Title [l=en] "_labelTitle_" collectionmeta .Source [l=en] "_labelSource_" collectionmeta sampleoid [l=en] "D0s156" # -- English strings ---------------- collectionmeta collectionname [l=en] "MARC example" # -- French strings ---------------- collectionmeta collectionname [l=fr] "Exemple MARC" # -- Spanish strings ---------------- collectionmeta collectionname [l=es] "Colección de muestra MARC" # -- Russian strings ---------------- collectionmeta collectionname [l=ru] "Пример MARC" # -- Simplified Chinese strings ---------------- collectionmeta collectionname [l=zh] "MARC示例馆藏" # -- English text ---------------- collectionmeta collectionextra [l=en] "This collection, which contains _about:numdocs_ MARC entries, is based on the MARC records of working papers published by Computer Science Department at the University of Waikato. Here is a sample document in the collection.

How the collection works

\n

The configuration file uses MARCPlugin to process the MARC records, as well as the standard plugins. There are three classifiers, based on dc.Title, dc.Creator, and dc.Subject metadata. The Title classifier uses AZList, while the other two use AZCompactList, which groups items with the same metadata into a bookshelf. The -removesuffix argument for the Title and Creator classifiers removes suffixes from the metadata string (dc.Title and dc.Creator respectively). This is specified as a PERL regular expression, and trims characters (such as trailing punctuation) from the strings for display.

The VList format statement controls the display of search results and all classifiers. For bookshelves, the number of leaf documents is displayed on the right-hand side. For documents, dc.Title is displayed, along with dc.Creator and dc.Publisher. [sibling:dc.Creator] is used as dc.Creator has multiple values, and specifies that all values be output, not just the first one.

The MARC plugin uses a special file to map MARC field numbers to Greenstone-style metadata. This file resides in the greenstone/etc directory, and is called marc2dc.txt. It lists the correspondences between MARC field numbers and Greenstone metadata. Any MARC fields that are not listed simply do not appear as metadata, though they are still present in the Greenstone document. Each line in the file has the format

<MARC field number> -> GreenstoneMetadataName
Lines in the file that begin with \"\#\" are comments. \n

The standard version of this file is loosely based on the MARC to Dublin Core mapping found at http://www.loc.gov/marc/marc2dc.html (which assumes USMARC/MARC21).

Multiple MARC fields may map to a single Dublin Core field. For example, fields 720 (\"Uncontrolled name\"), 100 (\"Personal name\"), 110 (\"Corporate name\") and 111 (\"Meeting name\") all map to dc.Creator. Actual MARC records normally define only one of these fields, and anyway Greenstone allows multi-valued metadata.\n

Some mappings are dependent on subfields. For example, MARC field 260 contains information about publication and distribution. Subfields \"c\" (Date of Publication) and \"g\" (Date of manufacture) are mapped to dc.Date, using the following mapping line:

260$c$g -> dc.Date
Greenstone also provides a file for mapping MARC to qualified dublin core: greenstone/etc/marc2qdc.txt. This can be used by the MARC plugin by setting the -metadata_mapping_file option to \"marc2qdc.txt\". " # -- French text ---------------- collectionmeta collectionextra [l=fr] "Cette collection, which contains _about:numdocs_ MARC entries, is based on the MARC records of working papers published by Computer Science Department at the University of Waikato. Voici un document échantillon dans la collection.

Comment marche cette collection ?

Le fichier de configuration utilise ZipPlug et MarcPlug à coté des trois qui sont utilisés en standard. Il y a trois classificateurs basés sur les méta-données dc.Title, dc.Creator et dc.Subject. Le classificateur dc.Title est une liste AZList, alors que les deux autres sont des listes AZCompactList, qui regroupent les documents avec les mêmes métadonnées dans une étagère. L'argument -removesuffix pour les classificateurs Title et Creator supprime les suffixes de la chaîne des métadonnées (respectivement pour dc.Title et dc.Creator). Ceci est spécifié comme une expression régulière de PERL et ajuste pour l\'affichage des caractères (comme une ponctuation finale).

La déclaration de format VList contrôle l'affichage des résultats de recherche et de tous les classificateurs. Pour les étagères, le nombre de pages de documents est affiché sur le côté droit. Pour chaque document, dc.Title est affiché, ainsi que dc.Creator and dc.Publisher. [sibling:dc.Creator] est utilisé lorsque dc.Creator a plusieurs valeurs, et précise que toutes les valeurs doivent être affichées, et pas seulement la première.

Le module Marc utilise un fichier spécial pour la mise en correspondance des numéros de champ MARC avec les méta-donnée de type Greenstone. Ce fichier se trouve dans le répertoire gsdl/etc, et est appelé marc2dc.txt. Il liste les correspondences entre les numéros de champ MARC et les méta-données Greenstone. Tous les champs MARC qui ne sont pas listés ne vont pas apparaître comme méta-données, bien qu\'ils spient toujours présents dans le document Greenstone. Chaque ligne dans le fichier à le format:

<numéro de champ MARC> -> NonMetadonnéeGreenstone
Les lignes dans le fichier qui commence par \"\#\" sont des commentaires.

La version standard de ce fichier est approximativement basée sur la mise en correspondance MARC - Dublin Core trouvé à http://www.loc.gov/marc/marc2dc.html (qui suppose USMARC/MARC21). Plusieurs champs MARC peuvent correspondre à un seul champ Dublin Core. Par exemple, les champs USMARC 720 (\"Uncontrolled name\"), 100 (\"Personal name\"), 110 (\"Corporate name\") et 111 (\"Meeting name\") correspondent tous à dc.Creator. Les notices MARC actuelles remplissent normalement un seul de ces champs, et dans tous les cas, Greenstone autorise ds champs de métadonnées à plusieurs valeurs. Certaines correspondances dépendent des sous-champs. Par exemple, le champs MARC 260 contient des informations sur la publication et la distribution des ouvrages. Les sous-champs \"c\" (Date de Publication) and \"g\" (Date de fabrication) sont mis en correspondance avec dc.Date, en utilisant la ligne suivante:

260$c$g -> dc.Date
Greenstone fournit également un fichier pour établir la correspondance entre MARC et le Dublin Core qualifié : greenstone/etc/marc2qdc.txt. Cela peut être utilisé avec le plugiciel MARC en donnant la valeur \"marc2qdc.txt\" à l'option -metadata_mapping_file. " # -- Spanish text ---------------- collectionmeta collectionextra [l=es] "Esta colección, which contains _about:numdocs_ MARC entries, is based on the MARC records of working papers published by Computer Science Department at the University of Waikato. He aquí un documento muestra de la colección.

Cómo trabaja esta colección

El archivo de configuración utiliza MARCPlugin además de los tres plugins estándar. Existen tres clasificadores basados en los metadatos dc.Título, dc.Creador y dc.Asunto. El clasificador dc.Title es una AZList, mientras que los otros dos son AZCompactList, que agrupa items con el mismo metadato en un \"estante\". El argumento -removesuffix para el clasificador por Title y por Creator remueve los sufijos de la cadena de caracteres (dc.Title y dc.Creator respectivamente). Esto se especifica como una expresión regular PERL y ordena los caracteres (como la puntuación que se encuentra al final) a partir de las cadenas para su presentación en pantalla.

La cadena de formateo VList controla la forma en la que se muestran los resultados y todos los clasificadores. Para los estantes, el número de documentos contenidos se muestra en la parte derecha. Para los documentos, se muestra el metadato dc.Title, junto al dc.Creator y el dc.Publisher. [sibling:dc.Creator] se utiliza debido a que dc.Creator tiene múltiples valores, y especifica que se deben mostrar todos los valores, no solamente el primero.

El plugin de MARC utiliza un archivo especial para mapear y convertir los números de campo MARC a metadatos estilo Greenstone. Este archivo reside en el directorio gsdl/etc y se llama marc2dc.txt. Incluye una lista de las correspondencias entre los números de campo MARC y los metadatos Greenstone. Cualquier campo MARC que no esté incluido en la lista simplemente no aparece como metadato, aunque siga estando presente en el documento Greenstone. Cada línea del archivo tiene el siguiente formato:

<MARC field number> -> GreenstoneMetadataName

Las líneas en el archivo que empiezan con \"\#\" son comentarios.

La versión estándar de este archivo se basa libremente en el mapeo de MARC a Dublin Core que se encuentra en http://www.loc.gov/marc/marc2dc.html (el cual asume USMARC/MARC21). Múltiples campos MARC pueden mapearse a un mismo campo Dublin Core. Por ejemplo, los campos 720 (\"Uncontrolled name\"), 100 (\"Personal name\"), 110 (\"Corporate name\") y 111 (\"Meeting name\") mapean todos a dc.Creator. Los registros actuales de MARC normalmente definen solo uno de esos campos, pero de cualquier manera Greenstone permite metadatos multivalor. \n

Algunos mapeos dependen de los subcampos. Por ejemplo, el campo MARC 260 contiene información sobre la publicación y la distribución. Subcampos \"c\" (Date of Publication) y \"g\" (Date of manufacture) son mapeados a dc.Date, usando la siguiente linea de configuración:

260$c$g -> dc.Date
Greenstone también provee un archivo para el mapeo de MARC a Dublin Core cualificado: greenstone/etc/marc2qdc.txt. Puede ser usado por el plugin de MARC configurando el parámetro -metadata_mapping_file con \"marc2qdc.txt\". " # -- Russian text ---------------- collectionmeta collectionextra [l=ru] "This collection, which contains _about:numdocs_ MARC entries, is based on the MARC records of working papers published by Computer Science Department at the University of Waikato. Здесь представлен типовой документ данной коллекции.

Как работает коллекция

Конфигурационный файл использует плагины ZIPPlug и MARCPlug, помимо третьего стандарта. Имеются три классификатора, основанные на метаданных Названия (dc.Title), Создателя (dc.Creator) и Предмета (dc.Subject). Это требует установки PERL для правильного выражения, и урезает знаки (типа конечных знаков препинания) из строки для отображения.

Плагин MARC использует специальный файл для сопоставления номера поля в MARC и метаданных Greenstone. Этот файл находится в директории gsdl/etc и называется marc2dc.txt. Он представляет список соответствия между номерами полей системы MARC и метаданными Greenstone. �юбые поля MARC, которые не внесены в список, просто не появляются как метаданные, хотя они присутствуют в документе Greenstone. Каждая строка в этом файле имеет следующий формат.

<MARC field number> -> GreenstoneMetadataName
Строки в данном файле, которые начинаются со знака \"\#\", являются комментариями.

Стандартная версия этого файла свободно базируется на MARC в описании Dublin Core, которое воспринимает USMARC/MARC21 и которое можно найти на http://www.loc.gov/marc/marc2dc.html. " # -- Simplified Chinese text ---------------- collectionmeta collectionextra [l=zh] " 本馆藏包含_about:numdocs_条MARC记录,是在怀卡托大学 计算机系发表的工作论文基础上构建的。 这里是本馆藏中的一个示范文档。

本馆藏如何工作

\n

本馆藏的配置文件使用MARCPlugin来处理MARC记录, 还使用了一些标准的插件。本馆藏有三个分类器,分别基于dc.Titledc.Creatordc.Subject元数据。题名 分类器使用AZList,而其他两个使用AZCompactList,AZCompactList将有着相同元数据值的记录集中到一个书架中。题名作者 分类器的-removesuffix参数将删除元数据字串中的前缀(分别对应于dc.Titledc.Creator字段)。这是一个 PERL正则表达式,它将删除掉一些字符(比如结尾的标点符号)。

VList格式化参数控制搜索结果和所有分类器的外观。对于书架,其中包含的文档数目将被显示在右侧。对于文档,将显示dc.Title 以及dc.Creatordc.Publisher[sibling:dc.Creator]用于dc.Creator有多个值的情况,它表明显示所有值,而不仅仅是第一个值。

MARC插件使用特殊的文件将MARC字段编号映射到Greenstone格式的元数据。这个文件在greenstone/etc目录中,叫做 marc2dc.txt。该文件列出了MARC字段编号与Greenstone元数据字段间的 对应关系。任何没有列出的MARC字段都不会映射为元数据,尽管它们仍将出现在Greenstone文档中。这个文件中的每一行都遵循以下格式:

<MARC field number> -> GreenstoneMetadataName
所有以\"\#\"开始的行都是注释行。\n

这个文件以http://www.loc.gov/marc/marc2dc.html的MARC到都柏林核心元数据 映射(假设USMARC/MARC21)为大致基础。

多个MARC字段可能需要映射到一个都柏林核心元数据字段上。例如,字段720(\"非受控题名\"),100(\"人名\"),110(\"机构名\")以及111 (\"会议名\")都被映射为dc.Creator。实际MARC记录通常只定义这些中的一个字段,而Greenstone也允许使用多值的元数据。\n

有些映射取决于子字段。比如,MARC字段260包含关于出版与发布的信息。子字段\"c\"(出版日期)和\"g\"(制造商日期)都映射到dc.Date, 通过使用以下的映射行:

260$c$g -> dc.Date
Greenstone还提供MARC到限定的都柏林核心元数据集的映射: greenstone/etc/marc2qdc.txt。这需要将MARC插件的 -metadata_mapping_file选项设定为\"marc2qdc.txt\"。 "