creator greenstone@cs.waikato.ac.nz maintainer greenstone@cs.waikato.ac.nz public true buildtype mg indexes document:text document:From document:Subject defaultindex document:text plugin GreenstoneXMLPlugin # process_exp tells EmailPlugin which files to process - in this case all files # starting with 'greenstone'. This is used as the email files in this # collection don't have a standard mbx/email extension. # OIDtype message_id tells the plugin to use the message identifier as the # Greenstone document identifier - this way we can use the InReplyTo metadata # to link to the original email. plugin EmailPlugin -process_exp greenstone.* -OIDtype message_id plugin MetadataXMLPlugin plugin ArchivesInfPlugin plugin DirectoryPlugin groupsize 200 # note that [ and ] get turned into x; before we remove the prefix! # mingroup 2 so that bookshelves are only generated when there is more than # one item with a common value. # removeprefix removes re: fwd: [greenstone-users] [greenstone-devel] from # the subject line before classifying, so that messages and their replies end # up in the same folder. classify AZCompactList -metadata Subject -mingroup 2 -removeprefix (\\s*(?i:re:|fw(d)?:|\[greenstone-(users|devel)\])\\s*)* classify AZCompactList -metadata FromName -mingroup 2 -buttonname From classify DateList -nogroup -bymonth format DocumentHeading "" format DocumentButtons "" format DocumentArrowsTop false format DocumentArrowsBottom false format DocumentGoTo false # removed from format strings to prevent listing email addresses - John: # <[FromAddr]> # for Subjects format CL1VList " [link][icon][/link] {If}{[numleafdocs], [Title],[link][Subject][/link]
_From_: [FromName]   (_SearchBySender_)
_Date_: [DateText]} " # for From format CL2VList " [link][icon][/link] {If}{[numleafdocs], _From_: [Title] ([numleafdocs]), _From_: [FromName]   (_SearchBySender_)
_Subject_: [link][Subject][/link]
_Date_: [DateText] } " # for Dates format CL3DateList " [link][icon][/link] [link][Subject][/link]
_From_: [FromName]   (_SearchBySender_)
_Date_: [DateText] " format SearchVList " [link][icon][/link] [link][Subject][/link]
_From_: [FromName]   (_SearchBySender_)
_Date_: [DateText] " format DocumentText "

[Subject]

_If_([InReplyTo],)
_From_ [FromName]
_Date_[DateText]
_Subject_ [Subject]
In-Reply-To ([InReplyTo])
[Text]

" format VList "[link][icon][/link] [ex.srclink]{Or}{[ex.thumbicon],[ex.srcicon]}[ex./srclink] [highlight] {Or}{[dc.Title],[exp.Title],[ex.Title],Untitled} [/highlight]{If}{[ex.Source],
([ex.Source])}" format HList "[link][highlight][ex.Title][/highlight][/link]" format DateList "[link][icon][/link] [highlight]{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}[/highlight] {Or}{[dc.Date],[exp.Date],[ex.Date]}" # -- English strings ---------------- collectionmeta collectionname [l=en] "Greenstone Archives collection" collectionmeta .document:text [l=en] "Messages" collectionmeta .document:From [l=en] "From fields" collectionmeta .document:Subject [l=en] "Subject lines" collectionmeta From [l=en] "From" collectionmeta Date [l=en] "Date" collectionmeta Subject [l=en] "Subject" collectionmeta SearchBySender [l=en] "search by sender" # -- French strings ---------------- collectionmeta collectionname [l=fr] "Collection des Archives de Greenstone" collectionmeta .document:text [l=fr] "Messages" collectionmeta .document:From [l=fr] "Champs De" collectionmeta .document:Subject [l=fr] "Lignes de sujets" collectionmeta From [l=fr] "De" collectionmeta Date [l=fr] "Date" collectionmeta Subject [l=fr] "Sujet" collectionmeta SearchBySender [l=fr] "recherche par expéditeur" # -- Spanish strings ---------------- collectionmeta collectionname [l=es] "Colección de Archivos Greenstone" collectionmeta .document:text [l=es] "Mensaje" collectionmeta .document:From [l=es] "Campos de origen" collectionmeta .document:Subject [l=es] "Líneas del asunto" collectionmeta From [l=es] "De" collectionmeta Date [l=es] "Fecha" collectionmeta Subject [l=es] "Asunto" collectionmeta SearchBySender [l=es] "buscar por emisor" # -- Russian strings ---------------- collectionmeta collectionname [l=ru] "Коллекция архивов Greenstone" collectionmeta .document:text [l=ru] "Сообщения" collectionmeta .document:From [l=ru] "Из полей" collectionmeta .document:Subject [l=ru] "Строки предмета" collectionmeta From [l=ru] "От" collectionmeta Date [l=ru] "Дата" collectionmeta Subject [l=ru] "Предмет" collectionmeta SearchBySender [l=ru] "Поиск по отправителю" # -- English text ---------------- collectionmeta collectionextra [l=en] "This is a collection of email messages from the Greenstone mailing list archives, from November/December, 2008.

How the collection works

The Greenstone Archives collection uses the Email plugin, which parses files in email formats. In this case, there is a file per month per mailing list, and each file contains many email messages. The Email plugin splits these into individual documents, and produces Title, Subject, From, FromName, FromAddr, Date, DateText, InReplyTo, and optionally Headers, metadata.

The collection configuration file begins with the specification groupsize 200. This groups documents together into groups of 200. Email collections typically have many small documents, and grouping them together prevents Greenstone\'s internal file structures from becoming bloated and occupying more disk space than necessary. Notice that the Email plugin first splits the input files up into individual Emails, then groupsize groups them together again. This allows the collection designer to control what is going on.

The indexes line specifies 3 searchable indexes, which can be seen by clicking beside the word \"Messages\" on the search page to reveal a drop-down menu. The first (called Messages) is created from the document text, while the others are formed from From and Subject metadata.

There are three classifiers, based on Subject, FromName, and Date metadata. The AZCompactList classifier used for the first two is like AZList but generates a bookshelf for duplicate items, as illustrated here. This is represented by a tree structure whose nodes are either leaf nodes, representing documents, or internal nodes. A metadata item called numleafdocs gives the total number of documents below an internal node. The format statement for the first classifier, called CL1Vlist, checks whether this item exists. If so the node must be an internal one, in which case it is labeled by its Title. Otherwise the node\'s label starts with the Subject which links to the document, then gives FromName metadata, with a link to \"Search by Sender\", followed by the DateText.

The second classifier (CL2Vlist) is similar, but shows slightly different information -- the result can be seen here. For internal nodes, the actual number of leaf documents (numleafdocs) is given in parentheses after the Title. For document nodes the FromName, with a link to \"Search By Sender\", Subject (linked to the document), and DateText metadata is shown.

The third classifier is a DateList, which allows selection by month and year.

Finally, the document text is formatted to show the header fields (FromName, DateText, Subject, InReplyTo), followed by the message text (written as [Text] in the format statement). FromName is linked to a search on that name, while InReplyTo links to the email message that it refers to. " # -- French text ---------------- collectionmeta collectionextra [l=fr] "_text1_

Comment fonctionne cette collection ?

La collection Greenstone Archive utilise le plugin \"E-mail\", qui traite les fichiers aux formats e-mail. _text2_ _text3_

Le fichier de configuration de la collection débute avec la spécification groupsize 200. Ceci regroupe les documents par groupes de 200. Les collections E-mail sont constituées habituellement de plusieurs documents de petite taille; leur regroupement évite l\'augmentation excessive des structures de fichier internes de Greenstone et l\'occupation de plus d\'espace disque que nécessaire. Notez que le plugin E-mail éclate d\'abord les fichiers d\'entrée à traiter en E-mail individuels, ensuite groupsize procède à leur regroupement. Ceci permet au créateur de la collection de contrôler ce qui se passe.

La ligne des indexes précise trois indexes de recherche qui peuvent être vus en cliquant à côté du mot \"Message\" de la page de recherche pour révéler un menu déroulant. Le premier (appelé Messages) est créé à partir du texte du document, tandis que les autres sont formés à partir des méta-données From et Subject.

Il existe trois classificateurs basés sur les méta-données Subject, FromName et Date. Le classificateur AZCompactList utilisé pour les deux premiers est semblable à \"AZList\", mais en outre il génère un rayon de bibliothèque pour les articles dupliqués, comme illustré ici. Il est représenté par une structure arborescente dont les nœuds sont soit des nœuds de feuille représentant les documents, soit des nœuds internes. Une Méta-donnée appelée \"Numleafdocs\" donne le nombre total de documents sous un nœud interne. Les déclarations de format pour le premier classificateur, appelé CL1VList, vérifie si cette méta-donnée existe, auquel cas le nœud doit être d\'une part interne et d\'autre part libellé par son \"Title\" (Titre). _text4_

Le deuxième classificateur (CL2Vlist) est similaire, mais fournit une information légèrement différente --le résultat peut être vu ici. Pour les nœuds internes, le nombre exact de documents en feuilles (numleafdocs) est donné entre parenthèses après Title. _text5_

Le troisième classificateur est un \"DateList\" qui permet une sélection par mois et par année.

_text6_ " # -- Spanish text ---------------- collectionmeta collectionextra [l=es] " _text1_

Cómo trabaja esta colección

La colección de Archivos de Greenstone utiliza el plugin Email, el cual descompone y analiza los archivos que están en formato de correo electrónico. _text2_ _text3_

El archivo de configuración de la colección empieza con la especificación groupsize 200, la cual reúne los documentos en grupos de 200. En términos generales las colecciones de correo electrónico tienen muchos documentos pequeños y al agruparlos se evita que las estructuras de archivos internos de Greenstone se inflen demasiado y ocupen más espacio del necesario. Recuerde que el plugin Email divide primero los archivos de entrada en correos individuales y luego groupsize los agrupa nuevamente. Esto le permite al diseñador de la colección controlar lo que está pasando.

La línea de índices especifica 3 índices de búsqueda, los cuales se pueden ver haciendo click a un lado de la palabra \"Mensajes\" en la página de búsqueda para que aparezca un menú descendente. El primero (llamado Mensajes) se crea a partir del texto del documento, mientras que los demás se forman a partir de los metadatos de Remitente y Asunto.

Existen tres clasificadores basados en los metadatos de Asunto, Nombre del Remitente y Fecha. El clasificador AZCompactList utilizado para los dos primeros es como AZList, pero además genera un estante para los ítems duplicados, tal como se puede ver aquí. Éste se caracteriza por medio de una estructura de árbol cuyos nodos son hojas que representan documentos o nodos internos. Un ítem de metadato llamado numleafdocs proporciona el número total de documentos debajo de un nodo interno. Los enunciados de formato para el primer clasificador llamado CL1Vlist comprueban si existe dicho ítem. En caso afirmativo se trata de un nodo interno, en cuyo caso se etiquetará por su Título. _text4_

El segundo clasificador (CL2Vlist) es similar, sólo que muestra una información ligeramente diferente. El resultado se puede ver aquí. Para nodos internos el número de documentos (numleafdocs) aparece entre paréntesis después del Título. _text5_

El tercer clasificador es una Lista de Fechas (DateList), que permite hacer la selección por mes y año.

_text6_ " # -- Russian strings ---------------- collectionmeta collectionextra [l=ru] " _text1_

Как работает коллекция

Коллекция архивов Greenstone использует плагин Еmail, который анализирует файлы в форматах электронной почты. _text2_ _text3_

Конфигурационный файл коллекции начинается с определения groupsize 200. Он собирает документы в группы по 200 единиц. Коллекции электронной почты обычно состоят из большого числа небольших документов, и группировка их вместе предотвращает внутренние файловые структуры Greenstone от разбухания и занятия большего места на диске, чем необходимо. Заметьте, что плагин Еmail вначале разбивает входные файлы на индивидуальные электронные письма, а затем groupsize снова собирает их вместе. Это позволяет проектировщику коллекции управлять тем, что следует дальше.

Строка индексов (indexes) определяет 3 доступных для поиска индекса, которые могут быть видны, если щелкать около слова Сообщения (Messages) на поисковой странице для показа ниспадающего меню. Первый, называемый Сообщениями, создается из текста документа, в то время как другие сформированы по метаданным От кого и Предмет.

Существует три классификатора, основанные на метаданных Предмет, Имя отправителя и Дата. Классификатор AZCompactList, используемый для первых двух, похож на AZLIST, но он формирует книжную полку для дубликатов элементов, как показано здесь. Она представлена структурой дерева, узлы которой являются или узлами листа, представляя документы, или внутренними узлами. Метаданные элементов, называемые numleafdocs, дают общее количество документов, расположенных ниже внутреннего узла. Операторы формата для первого классификатора, называемые CL1Vlist, проверяют, существует ли этот элемент. Если это так, то узел должен быть внутренним, в случае чего он помечается его Названием (Title). _text4_

Второй классификатор (CL2Vlist) подобен первому, но он показывает отличающуюся информацию -- результат можно видеть здесь. Для внутренних узлов фактическое число документов в списке (numleafdocs) дается в круглых скобках после Названия. _text5_

Третьим классификатором является DateList, который позволяет производить выборку сообщений по месяцу и году.

_text6_ " # use utf-8 as the default encoding cgiarg shortname=w argdefault=utf-8