name=Демонстрация MSWord и PDF document_text=Документы shortDescription=Эта коллекция демонстрирует способность Greenstone к построению коллекции из документов, выполненных в различных форматах. Она содержит множество статей, написанных различными членами проекта NZDL, в форматах PDF, MSWord, RTF и Postscript. description1=

The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato. The University of Waikato holds copyright. They may be distributed freely, without any restrictions.

description2=

Как работает коллекция

Конфигурационный файл этой коллекции содержит четыре плагина WordPlugin, RTFPlugin, PDFPlugin и PostScriptPlugin (наряду с четыре стандартными GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin и DirectoryPlugin). Все эти четыре плагина извлекают метаданные из Названия (Title) и Источника (Source), то есть имя файла.

description3=

Greenstone содержит стороннее программное обеспечение, которое используется для того, чтобы конвертировать файлы, созданные в Word, RTF, PDF и PostScript в HTML. Команда Greenstone не обслуживает эти модели, хотя мы включаем их самые последние версии в каждый выпуск Greenstone. Ошибки возникают у необычных документов Word (например, от старых систем Макинтоша), и иногда текст ужасно извлекается. Некоторые PDF файлы не создают никакого машинночитаемого текста вообще, а вместо этого включают последовательность изображений страницы, из которых текст может быть извлечен только путем оптического распознавания (OCR), что в Greenstone не предусмотрено. If you encounter these problems, you can either remove the offending documents from your collection, or try using some of the advanced plugin options to process the documents in different ways. For more information, see the Enhanced PDf and Word tutorials on the Greenstone wiki.

description4=

Конфигурационный файл включает единственный индекс, основанный на тексте документа и один классификатор AZList, основанный на метаданных Названия, показанный здесь (алфавитный отборщик автоматически отключен, поскольку коллекция содержит только несколько документов). Однако никаких операторов формата не определено. При отсутствии явной информации Greenstone поддерживает по умолчанию наиболее ощутимые. В этом случае по умолчанию используются следующие форматы для классификатора\:

description5=Имеется оператор формата, который достигает такой же самый эффект. Он обращается ко всем Vlists и таким образом осуществляет контроль как над списком результатов поиска, так и над алфавитным показом названий.