Show
Ignore:
Timestamp:
22.04.2009 11:59:05 (10 years ago)
Author:
kjdon
Message:

path changes, small text changes

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • collections/documented-examples/trunk/wrdpdf-e/etc/collect.cfg

    r19060 r19183  
    5656This collection\'s <a href=\"_httpcollection_/etc/collect.cfg\" 
    5757target=collect.cfg>configuration file</a> contains the four plugins 
    58 <i>WordPlug</i>, <i>RTFPlug</i>, <i>PDFPlug</i> and <i>PSPlug</i> (along with 
    59 the standard three, <i>GAPlug</i>, <i>ArcPlug</i> and <i>RecPlug</i>). These 
     58<i>WordPlugin</i>, <i>RTFPlugin</i>, <i>PDFPlugin</i> and <i>PostScriptPlugin</i> (along with 
     59the standard four, <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> and <i>DirectoryPlugin</i>). These 
    6060four plugins all extract <i>Title</i> and <i>Source</i> (i.e. filename) 
    6161metadata. \n 
     
    6464Greenstone contains third-party software that is used to convert 
    6565Word, RTF, PDF and PostScript files into HTML.  The Greenstone team does not 
    66 maintain these modules, although we do include the latest versions with each 
     66maintain these modules, although we do try to include the latest versions  
     67with each 
    6768Greenstone release. Bugs arise with unusual Word documents (e.g. from older 
    6869Macintosh systems), and sometimes the text is badly extracted. Some PDF files 
    6970have no machine-readable text at all, comprising instead a sequence of page 
    7071<i>images</i> from which text can only be extracted by optical character recognition 
    71 (OCR), which Greenstone does not attempt. If you encounter these problems, 
    72 there is nothing much you (or we) can do other than omit the rogue documents 
    73 from the collection, or try to obtain different versions of them.\n 
     72(OCR), which Greenstone does not attempt. If you encounter these problems, you 
     73can either remove the offending documents from your collection, or try using 
     74some of the advanced plugin options to process the documents in different ways. 
     75For more information, see the Enhanced PDf and Word tutorials on the   
     76<a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>Greenstone wiki</a>. 
    7477 
    7578<p> 
     
    7780file</a> includes a single index, based on document text, and one classifier, 
    7881an <i>AZList</i> based on <i>Title</i> metadata, shown  
    79 <a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">here</a> (the alphabetic 
     82<a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">here</a> (the alphabetic 
    8083selector is suppressed automatically because the collection contains only a few 
    8184documents). However, no format statement is specified. In the absence of 
     
    120123<p> 
    121124Le <a href=\"_httpcollection_/etc/collect.cfg\" 
    122 target=collect.cfg>fichier de configuration</a> de cette collection contient quatre plugins, <i>WordPlug</i>, <i>RTFPlug</i>, 
    123  <i>PDFPlug</i> et <i>PSPlug</i> (ensemble avec les trois plugins standards <i>GAPlug</i>, <i>ArcPlug</i> et <i>RecPlug</i>).  
     125target=collect.cfg>fichier de configuration</a> de cette collection contient quatre plugins, <i>WordPlugin</i>, <i>RTFPlugin</i>, 
     126 <i>PDFPlugin</i> et <i>PostScriptPlugin</i> (ensemble avec les quatre plugins standards <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> et <i>DirectoryPlugin</i>).  
    124127 Tous ces quatre modules extraient les méta-données <i>Titre</i> et <i>Source</i> (c.-a-d. nom de fichier). 
    125128 
     
    127130Greenstone contient des logiciels de tierces parties utilisés pour convertir des fichiers Word, RTF, PDF et PostScript en HTML. L'équipe Greenstone ne maintient pas ces modules bien que nous incluons les derniÚres versions dans chaque édition de Greenstone. Des coquilles apparaissent avec les documents  
    128131inhabituels de Word (par exemple à partir de vieux systÚmes Macintosh) et des fois, le texte est mal extrait. Certains fichiers PDF n'ont pas du tout une forme lisible directement par les machines, mais sont représentés par une séquence de pages d'<i>images</i> à partir desquelless le texte ne peut être extrait que par une reconnaissance optique de caractÚres (ROC), ce que  
    129 Greenstone ne tente pas de faire. Si vous rencontrez ces problÚmes, il n'y a grand chose que vous/nous pouvez/pouvons faire à part omettre ces documents de la collection, et essayer d'en obtenir des versions différentes. 
     132Greenstone ne tente pas de faire. _text1_ 
    130133 
    131134<p> 
    132135Le <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>fichier de configuration</a> comprend un index unique, basé sur un texte de document  
    133 et un classificateur, un <i>AZList</i> basée sur la méta-donnée <i>Titre</i>, montrée <a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">ici</a> (le sélecteur  
     136et un classificateur, un <i>AZList</i> basée sur la méta-donnée <i>Titre</i>, montrée <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">ici</a> (le sélecteur  
    134137alphabétique est supprimé automatiquement parce que la collection ne contient que peu de documents). Cependant aucune déclaration de format n'est spécifiée. A l'absence d'information explicite, Greenstone fournit des défauts sensés. Dans ce cas le format par défaut pour le classificateur donne ceci : 
    135138<ul> 
     
    164167<h3>Cómo trabaja esta colección</h3> 
    165168 
    166 Este <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración de la colección</a> contiene los cuatro plugins <i>WordPlug, RTFPlug, PDFPlug</i> y <i>PSPlug</i> (junto con los tres plugins estándar, <i>GAPlug, ArcPlug</i> y <i>RecPlug</i>). Los cuatro plugins extraen los metadatos de <i>Título</i> y <i>Fuente</i> (es decir, nombre del archivo). 
    167 <p> 
    168  
    169 Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, consistiendo en su lugar de una secuencia de <i>imágenes</i> de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. Si usted encuentra este tipo de problemas, entonces no hay mucho que usted o nosotros podamos hacer, excepto excluir dichos documentos de la colección o tratar de obtener diferentes versiones de los mismos.  
    170 <p> 
    171  
    172 El <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración</a> incluye un solo índice basado en el texto de los documentos y un clasificador <i>AZList</i> basado en el metadato de <i>Título</i>, tal como se muestra <a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">aquí</a> (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explícita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona: 
     169Este <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración de la colección</a> contiene los cuatro plugins <i>WordPlugin, RTFPlugin, PDFPlugin</i> y <i>PostScriptPlugin</i> (junto con los cuatro plugins estándar, <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> y <i>DirectoryPlugin</i>). Los cuatro plugins extraen los metadatos de <i>Título</i> y <i>Fuente</i> (es decir, nombre del archivo). 
     170<p> 
     171 
     172Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, consistiendo en su lugar de una secuencia de <i>imágenes</i> de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. _text1_  
     173<p> 
     174 
     175El <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración</a> incluye un solo índice basado en el texto de los documentos y un clasificador <i>AZList</i> basado en el metadato de <i>Título</i>, tal como se muestra <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">aquí</a> (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explícita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona: 
    173176<p> 
    174177<ul> 
     
    211214<p> 
    212215 
    213 <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> этПй кПллекцОО сПЎержОт четыре плагОМа <i>WordPlug, RTFPlug, PDFPlug</i> О <i>PSPlug</i> (МаряЎу с треЌя стаМЎартМыЌО <i>GAPlug, ArcPlug</i> О <i>RecPlug</i>). Все этО четыре плагОМа Озвлекают ЌетаЎаММые Оз <i>НазваМОя</i> (<i>Title</i>) О <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла. 
     216<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> этПй кПллекцОО сПЎержОт четыре плагОМа <i>WordPlugin, RTFPlugin, PDFPlugin</i> О <i>PostScriptPlugin</i> (МаряЎу с четыре стаМЎартМыЌО <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> О <i>DirectoryPlugin</i>). Все этО четыре плагОМа Озвлекают ЌетаЎаММые Оз <i>НазваМОя</i> (<i>Title</i>) О <i>ИстПчМОка</i> (<i>Source</i>), тП есть ОЌя файла. 
    214217<p> 
    215218 
     
    219222 ÐŽÐŸÐºÑƒÐŒÐµÐœÑ‚Пв Word (МапрОЌер, Пт старыѠ
    220223 ÑÐžÑÑ‚еЌ МакОМтПша), О ОМПгЎа текст ужасМП Озвлекается. НекПтПрые PDF файлы Ме сПзЎают МОкакПгП ЌашОММПчОтаеЌПгП текста вППбще, а вЌестП этПгП включают  пПслеЎПвательМПсть <i>ОзПбражеМОй</i> страМОцы, Оз кПтПрыѠ
    221  Ñ‚екст ЌПжет быть ОзвлечеМ тПлькП путеЌ ПптОческПгП распПзМаваМОя (OCR), чтП в Greenstone Ме преЎусЌПтреМП. ЕслО Вы сталкОваетесь с этОЌО прПблеЌаЌО, тП Мет МОчегП ЎругПгП, чтП Вы (ОлО Ќы) ЌПжете сЎелать, как выкОМуть этО ЎПкуЌеМты Оз кПллекцОО ОлО пПпытаться пПлучОть ЎругОе ОѠ
    222  Ð²ÐµÑ€ÑÐžÐž. 
     224 Ñ‚екст ЌПжет быть ОзвлечеМ тПлькП путеЌ ПптОческПгП распПзМаваМОя (OCR), чтП в Greenstone Ме преЎусЌПтреМП. _text1_ 
    223225<p> 
    224226 
    225227 
    226228<a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>КПМфОгурацОПММый файл</a> включает еЎОМствеММый ОМЎекс, ПсМПваММый Ма тексте ЎПкуЌеМта О ПЎОМ классОфОкатПр <i>AZList</i>, ПсМПваММый Ма ЌетаЎаММыѠ
    227  <i>НазваМОя</i>, пПказаММый <a href=\"_gwcgi_?l=_cgiargl_&c=wrdpdf-e&a=d&cl=CL1\">зЎесь</a> (алфавОтМый ПтбПрщОк автПЌатОческО ПтключеМ, пПскПльку кПллекцОя сПЎержОт тПлькП МескПлькП ЎПкуЌеМтПв). ОЎМакП МОкакОѠ
     229 <i>НазваМОя</i>, пПказаММый <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">зЎесь</a> (алфавОтМый ПтбПрщОк автПЌатОческО ПтключеМ, пПскПльку кПллекцОя сПЎержОт тПлькП МескПлькП ЎПкуЌеМтПв). ОЎМакП МОкакОѠ
    228230 ÐŸÐ¿ÐµÑ€Ð°Ñ‚ПрПв фПрЌата Ме ПпреЎелеМП. ПрО  ПтсутствОО явМПй ОМфПрЌацОО Greenstone  пПЎЎержОвает пП уЌПлчаМОю МаОбПлее ПщутОЌые. В этПЌ случае пП уЌПлчаМОю ОспПльзуются слеЎующОе  фПрЌаты Ўля классОфОкатПра:  
    229231<p>