Changeset 19183 for collections
- Timestamp:
- 2009-04-22T11:59:05+12:00 (15 years ago)
- File:
-
- 1 edited
Legend:
- Unmodified
- Added
- Removed
-
collections/documented-examples/trunk/wrdpdf-e/etc/collect.cfg
r19060 r19183 56 56 This collection\'s <a href=\"_httpcollection_/etc/collect.cfg\" 57 57 target=collect.cfg>configuration file</a> contains the four plugins 58 <i>WordPlug </i>, <i>RTFPlug</i>, <i>PDFPlug</i> and <i>PSPlug</i> (along with59 the standard three, <i>GAPlug</i>, <i>ArcPlug</i> and <i>RecPlug</i>). These58 <i>WordPlugin</i>, <i>RTFPlugin</i>, <i>PDFPlugin</i> and <i>PostScriptPlugin</i> (along with 59 the standard four, <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> and <i>DirectoryPlugin</i>). These 60 60 four plugins all extract <i>Title</i> and <i>Source</i> (i.e. filename) 61 61 metadata. \n … … 64 64 Greenstone contains third-party software that is used to convert 65 65 Word, RTF, PDF and PostScript files into HTML. The Greenstone team does not 66 maintain these modules, although we do include the latest versions with each 66 maintain these modules, although we do try to include the latest versions 67 with each 67 68 Greenstone release. Bugs arise with unusual Word documents (e.g. from older 68 69 Macintosh systems), and sometimes the text is badly extracted. Some PDF files 69 70 have no machine-readable text at all, comprising instead a sequence of page 70 71 <i>images</i> from which text can only be extracted by optical character recognition 71 (OCR), which Greenstone does not attempt. If you encounter these problems, 72 there is nothing much you (or we) can do other than omit the rogue documents 73 from the collection, or try to obtain different versions of them.\n 72 (OCR), which Greenstone does not attempt. If you encounter these problems, you 73 can either remove the offending documents from your collection, or try using 74 some of the advanced plugin options to process the documents in different ways. 75 For more information, see the Enhanced PDf and Word tutorials on the 76 <a href=\'http://wiki.greenstone.org/wiki/index.php/Tutorial_exercises\'>Greenstone wiki</a>. 74 77 75 78 <p> … … 77 80 file</a> includes a single index, based on document text, and one classifier, 78 81 an <i>AZList</i> based on <i>Title</i> metadata, shown 79 <a href=\"_gwcgi_?l=_cgiargl_&c= wrdpdf-e&a=d&cl=CL1\">here</a> (the alphabetic82 <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">here</a> (the alphabetic 80 83 selector is suppressed automatically because the collection contains only a few 81 84 documents). However, no format statement is specified. In the absence of … … 120 123 <p> 121 124 Le <a href=\"_httpcollection_/etc/collect.cfg\" 122 target=collect.cfg>fichier de configuration</a> de cette collection contient quatre plugins, <i>WordPlug </i>, <i>RTFPlug</i>,123 <i>PDFPlug </i> et <i>PSPlug</i> (ensemble avec les trois plugins standards <i>GAPlug</i>, <i>ArcPlug</i> et <i>RecPlug</i>).125 target=collect.cfg>fichier de configuration</a> de cette collection contient quatre plugins, <i>WordPlugin</i>, <i>RTFPlugin</i>, 126 <i>PDFPlugin</i> et <i>PostScriptPlugin</i> (ensemble avec les quatre plugins standards <i>GreenstoneXMLPlugin</i>, <i>MetadataXMLPlugin</i>, <i>ArchivesInfPlugin</i> et <i>DirectoryPlugin</i>). 124 127 Tous ces quatre modules extraient les méta-données <i>Titre</i> et <i>Source</i> (c.-a-d. nom de fichier). 125 128 … … 127 130 Greenstone contient des logiciels de tierces parties utilisés pour convertir des fichiers Word, RTF, PDF et PostScript en HTML. L'équipe Greenstone ne maintient pas ces modules bien que nous incluons les derniÚres versions dans chaque édition de Greenstone. Des coquilles apparaissent avec les documents 128 131 inhabituels de Word (par exemple à partir de vieux systÚmes Macintosh) et des fois, le texte est mal extrait. Certains fichiers PDF n'ont pas du tout une forme lisible directement par les machines, mais sont représentés par une séquence de pages d'<i>images</i> à partir desquelless le texte ne peut être extrait que par une reconnaissance optique de caractÚres (ROC), ce que 129 Greenstone ne tente pas de faire. Si vous rencontrez ces problÚmes, il n'y a grand chose que vous/nous pouvez/pouvons faire à part omettre ces documents de la collection, et essayer d'en obtenir des versions différentes.132 Greenstone ne tente pas de faire. _text1_ 130 133 131 134 <p> 132 135 Le <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>fichier de configuration</a> comprend un index unique, basé sur un texte de document 133 et un classificateur, un <i>AZList</i> basée sur la méta-donnée <i>Titre</i>, montrée <a href=\"_gwcgi_?l=_cgiargl_&c= wrdpdf-e&a=d&cl=CL1\">ici</a> (le sélecteur136 et un classificateur, un <i>AZList</i> basée sur la méta-donnée <i>Titre</i>, montrée <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">ici</a> (le sélecteur 134 137 alphabétique est supprimé automatiquement parce que la collection ne contient que peu de documents). Cependant aucune déclaration de format n'est spécifiée. A l'absence d'information explicite, Greenstone fournit des défauts sensés. Dans ce cas le format par défaut pour le classificateur donne ceci : 135 138 <ul> … … 164 167 <h3>Cómo trabaja esta colección</h3> 165 168 166 Este <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración de la colección</a> contiene los cuatro plugins <i>WordPlug , RTFPlug, PDFPlug</i> y <i>PSPlug</i> (junto con los tres plugins estándar, <i>GAPlug, ArcPlug</i> y <i>RecPlug</i>). Los cuatro plugins extraen los metadatos de <i>TÃtulo</i> y <i>Fuente</i> (es decir, nombre del archivo).167 <p> 168 169 Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, consistiendo en su lugar de una secuencia de <i>imágenes</i> de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. Si usted encuentra este tipo de problemas, entonces no hay mucho que usted o nosotros podamos hacer, excepto excluir dichos documentos de la colección o tratar de obtener diferentes versiones de los mismos.170 <p> 171 172 El <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración</a> incluye un solo Ãndice basado en el texto de los documentos y un clasificador <i>AZList</i> basado en el metadato de <i>TÃtulo</i>, tal como se muestra <a href=\"_gwcgi_?l=_cgiargl_&c= wrdpdf-e&a=d&cl=CL1\">aquÃ</a> (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explÃcita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona:169 Este <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración de la colección</a> contiene los cuatro plugins <i>WordPlugin, RTFPlugin, PDFPlugin</i> y <i>PostScriptPlugin</i> (junto con los cuatro plugins estándar, <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> y <i>DirectoryPlugin</i>). Los cuatro plugins extraen los metadatos de <i>TÃtulo</i> y <i>Fuente</i> (es decir, nombre del archivo). 170 <p> 171 172 Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, consistiendo en su lugar de una secuencia de <i>imágenes</i> de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. _text1_ 173 <p> 174 175 El <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>archivo de configuración</a> incluye un solo Ãndice basado en el texto de los documentos y un clasificador <i>AZList</i> basado en el metadato de <i>TÃtulo</i>, tal como se muestra <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">aquÃ</a> (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explÃcita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona: 173 176 <p> 174 177 <ul> … … 211 214 <p> 212 215 213 <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>ÐПМÑОгÑÑаÑОПММÑй Ñайл</a> ÑÑПй кПллекÑОО ÑПЎеÑÐ¶ÐžÑ ÑеÑÑÑе плагОМа <i>WordPlug , RTFPlug, PDFPlug</i> О <i>PSPlug</i> (МаÑÑÐŽÑ Ñ ÑÑÐµÐŒÑ ÑÑаМЎаÑÑÐœÑЌО <i>GAPlug, ArcPlug</i> О <i>RecPlug</i>). ÐÑе ÑÑО ÑеÑÑÑе плагОМа ОзвлекаÑÑ ÐŒÐµÑаЎаММÑе Оз <i>ÐазваМОÑ</i> (<i>Title</i>) О <i>ÐÑÑПÑМОка</i> (<i>Source</i>), ÑП еÑÑÑ ÐžÐŒÑ Ñайла.216 <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>ÐПМÑОгÑÑаÑОПММÑй Ñайл</a> ÑÑПй кПллекÑОО ÑПЎеÑÐ¶ÐžÑ ÑеÑÑÑе плагОМа <i>WordPlugin, RTFPlugin, PDFPlugin</i> О <i>PostScriptPlugin</i> (МаÑÑÐŽÑ Ñ ÑеÑÑÑе ÑÑаМЎаÑÑÐœÑЌО <i>GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin</i> О <i>DirectoryPlugin</i>). ÐÑе ÑÑО ÑеÑÑÑе плагОМа ОзвлекаÑÑ ÐŒÐµÑаЎаММÑе Оз <i>ÐазваМОÑ</i> (<i>Title</i>) О <i>ÐÑÑПÑМОка</i> (<i>Source</i>), ÑП еÑÑÑ ÐžÐŒÑ Ñайла. 214 217 <p> 215 218 … … 219 222 ЎПкÑЌеМÑПв Word (МапÑОЌеÑ, ÐŸÑ ÑÑаÑÑÑ 220 223 ÑОÑÑеЌ ÐакОМÑПÑа), О ОМПгЎа ÑекÑÑ ÑжаÑМП ОзвлекаеÑÑÑ. ÐекПÑПÑÑе PDF ÑÐ°Ð¹Ð»Ñ ÐœÐµ ÑПзЎаÑÑ ÐœÐžÐºÐ°ÐºÐŸÐ³ÐŸ ЌаÑОММПÑОÑаеЌПгП ÑекÑÑа вППбÑе, а вЌеÑÑП ÑÑПгП вклÑÑаÑÑ Ð¿ÐŸÑлеЎПваÑелÑМПÑÑÑ <i>ОзПбÑажеМОй</i> ÑÑÑаМОÑÑ, Оз кПÑПÑÑÑ 221 ÑекÑÑ ÐŒÐŸÐ¶ÐµÑ Ð±ÑÑÑ ÐžÐ·Ð²Ð»ÐµÑеМ ÑПлÑкП пÑÑеЌ ПпÑОÑеÑкПгП ÑаÑÐ¿ÐŸÐ·ÐœÐ°Ð²Ð°ÐœÐžÑ (OCR), ÑÑП в Greenstone Ме пÑеЎÑÑЌПÑÑеМП. ÐÑлО ÐÑ ÑÑалкОваеÑеÑÑ Ñ ÑÑОЌО пÑПблеЌаЌО, ÑП ÐœÐµÑ ÐœÐžÑегП ÐŽÑÑгПгП, ÑÑП ÐÑ (ОлО ÐŒÑ) ЌПжеÑе ÑЎелаÑÑ, как вÑкОМÑÑÑ ÑÑО ЎПкÑЌеМÑÑ ÐžÐ· кПллекÑОО ОлО пПпÑÑаÑÑÑÑ Ð¿ÐŸÐ»ÑÑОÑÑ ÐŽÑÑгОе ÐžÑ 222 веÑÑОО. 224 ÑекÑÑ ÐŒÐŸÐ¶ÐµÑ Ð±ÑÑÑ ÐžÐ·Ð²Ð»ÐµÑеМ ÑПлÑкП пÑÑеЌ ПпÑОÑеÑкПгП ÑаÑÐ¿ÐŸÐ·ÐœÐ°Ð²Ð°ÐœÐžÑ (OCR), ÑÑП в Greenstone Ме пÑеЎÑÑЌПÑÑеМП. _text1_ 223 225 <p> 224 226 225 227 226 228 <a href=\"_httpcollection_/etc/collect.cfg\" target=collect.cfg>ÐПМÑОгÑÑаÑОПММÑй Ñайл</a> вклÑÑÐ°ÐµÑ ÐµÐŽÐžÐœÑÑвеММÑй ОМЎекÑ, ПÑМПваММÑй Ма ÑекÑÑе ЎПкÑЌеМÑа О ПЎОМ клаÑÑОÑОкаÑÐŸÑ <i>AZList</i>, ПÑМПваММÑй Ма ЌеÑаЎаММÑÑ 227 <i>ÐазваМОÑ</i>, пПказаММÑй <a href=\"_gwcgi_?l=_cgiargl_&c= wrdpdf-e&a=d&cl=CL1\">зЎеÑÑ</a> (алÑавОÑÐœÑй ПÑбПÑÑОк авÑПЌаÑОÑеÑкО ПÑклÑÑеМ, пПÑкПлÑÐºÑ ÐºÐŸÐ»Ð»ÐµÐºÑÐžÑ ÑПЎеÑÐ¶ÐžÑ ÑПлÑкП МеÑкПлÑкП ЎПкÑЌеМÑПв). ÐЎМакП МОкакОÑ229 <i>ÐазваМОÑ</i>, пПказаММÑй <a href=\"_gwcgi_?l=_cgiargl_&c=_cgiargc_&a=d&cl=CL1\">зЎеÑÑ</a> (алÑавОÑÐœÑй ПÑбПÑÑОк авÑПЌаÑОÑеÑкО ПÑклÑÑеМ, пПÑкПлÑÐºÑ ÐºÐŸÐ»Ð»ÐµÐºÑÐžÑ ÑПЎеÑÐ¶ÐžÑ ÑПлÑкП МеÑкПлÑкП ЎПкÑЌеМÑПв). ÐЎМакП ÐœÐžÐºÐ°ÐºÐžÑ 228 230 ПпеÑаÑПÑПв ÑПÑЌаÑа Ме ПпÑеЎелеМП. ÐÑО ПÑÑÑÑÑÑвОО ÑвМПй ОМÑПÑЌаÑОО Greenstone пПЎЎеÑÐ¶ÐžÐ²Ð°ÐµÑ Ð¿ÐŸ ÑЌПлÑÐ°ÐœÐžÑ ÐœÐ°ÐžÐ±ÐŸÐ»ÐµÐµ ПÑÑÑОЌÑе. Ð ÑÑПЌ ÑлÑÑае пП ÑЌПлÑÐ°ÐœÐžÑ ÐžÑпПлÑзÑÑÑÑÑ ÑлеЎÑÑÑОе ÑПÑЌаÑÑ ÐŽÐ»Ñ ÐºÐ»Ð°ÑÑОÑОкаÑПÑа: 229 231 <p>
Note:
See TracChangeset
for help on using the changeset viewer.