root/main/trunk/greenstone2/collect/modelcol/etc/collectionConfig.xml @ 34197

Revision 34197, 11.4 KB (checked in by ak19, 5 months ago)

Name of Tika config file for ocr-ing pdfs has been updated.

  • Property svn:keywords set to Author Date Id Revision
Line 
1<?xml version="1.0" encoding="UTF-8"?>
2<CollectionConfig xmlns:gsf="http://www.greenstone.org/greenstone3/schema/ConfigFormat" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:gslib="http://www.greenstone.org/skinning">
3    <metadataList>
4        <metadata name="creator">**creator**</metadata>
5        <metadata name="maintainer">**maintainer**</metadata>
6        <metadata name="public">**public**</metadata>
7    </metadataList>
8    <displayItemList>
9        <displayItem assigned="true" lang="en" name="name">**title**</displayItem>
10        <displayItem assigned="true" lang="en" name="description">**about**</displayItem>
11                <!-- shortDescription is used as a tooltip for collection icon on home page-->
12                <displayItem assigned="true" lang="en" name="shortDescription">**title**</displayItem>
13    </displayItemList>
14    <!-- Global format statement -->
15    <format>
16      <gsf:template name="choose-title">
17        <gsf:choose-metadata>
18          <gsf:metadata name="dc.Title"/>
19          <gsf:metadata name="exp.Title"/>
20          <gsf:metadata name="ex.dc.Title"/>
21          <gsf:metadata name="Title"/>
22          <gsf:default>Untitled</gsf:default>
23        </gsf:choose-metadata>
24      </gsf:template>
25      <!-- modify the collection description template to output the "this collection contains X documents and was last built Y days ago" message -->
26      <xsl:template name="coll-description">
27        <p><gslib:collectionDescriptionTextAndServicesLinks/></p>
28        <xsl:variable name="raw_date"><gslib:collectionMeta name="buildDate"/></xsl:variable>
29        <xsl:variable name="formatted_date"><xsl:value-of select="util:formatTimeStamp($raw_date, 0, 3, /page/@lang)"/></xsl:variable>
30        <xsl:variable name="numdocs"><gslib:collectionMeta name="numDocs"/></xsl:variable>
31        <p><xsl:value-of select="util:getInterfaceText($interface_name, /page/@lang, 'about.standarddescriptiondays', concat($numdocs, ';', $formatted_date))"/></p>
32      </xsl:template>   
33    </format>
34    <search type="lucene">
35        <level name="document">
36            <displayItem lang="en" name="name">document</displayItem>
37        </level>
38        <level name="section">
39            <displayItem lang="en" name="name">section</displayItem>
40        </level>
41        <defaultLevel name="document"/>
42        <index name="text">
43            <displayItem lang="en" name="name">text</displayItem>
44        </index>
45        <index name="dc.Title,ex.dc.Title,Title">
46            <displayItem lang="en" name="name">titles</displayItem>
47        </index>
48        <index name="Source">
49            <displayItem lang="en" name="name">filenames</displayItem>
50        </index>
51        <defaultIndex name="text"/>
52        <sort name="rank">
53          <displayItem lang="en" name="name">rank</displayItem>
54                </sort>
55                <sort name="none">
56          <displayItem lang="en" name="name">natural (build) order</displayItem>
57        </sort>
58        <searchType name="plain"/>
59        <searchType name="simpleform"/>
60        <searchType name="advancedform"/>
61        <format>
62            <gsf:template match="documentNode">
63                <td valign="top">
64                    <gsf:link type="document">
65                        <gsf:icon type="document"/>
66                    </gsf:link>
67                </td>
68                <td>
69                    <gsf:link type="document">
70                        <xsl:call-template name="choose-title"/>
71                    </gsf:link>
72                </td>
73            </gsf:template>
74        </format>
75    </search>
76
77    <infodb type="jdbm"/>
78
79    <import>
80        <pluginList>
81            <plugin name="ZIPPlugin"/>
82            <plugin name="GreenstoneXMLPlugin"/>
83            <plugin name="TextPlugin"/>
84            <plugin name="HTMLPlugin"/>
85            <plugin name="EmailPlugin"/>
86            <plugin name="PDFv2Plugin"/>
87            <!-- Configuring an UnknownConverterPlugin for docx processing with Tika -->
88            <plugin name="UnknownConverterPlugin">
89              <option name="-exec_cmd" value="java -jar $GSDLHOME/ext/tika/tika-app-*.jar --html --pretty-print --encoding=UTF-8 %%INPUT_FILE &gt; %%OUTPUT"/>
90              <option name="-convert_to" value="html"/>
91              <option name="-mime_type" value="application/vnd.openxmlformats-officedocument.wordprocessingml.document"/>
92              <option name="-srcicon" value="icondocx"/>
93              <option name="-process_extension" value="docx"/>
94            </plugin>
95            <!-- If you have Tesseract installed (for linux 64 bit machines, there's a tesseract tarball available
96                 for download from http://trac.greenstone.org/browser/gs2-extensions/tesseract/trunk/tesseract-linux-x64.tar.gz
97                 Untested: for windows, you can try installing Tesseract from Win binaries at https://github.com/UB-Mannheim/tesseract/wiki
98                 For Windows and Mac, be sure to add tesseract's bin folder to your PATH and also set the TESSDATA_PREFIX environment variable to
99                 the folder "tessdata" wherein you also need to have the "<3-letter-langcode>.traineddata" files for the languages you want
100                 to OCR.) The Linux 64 bit tesseract extension tarball already does all this for you.
101                 Once you have Tesseract installed, you can activate the following UnknownConverterPlugin to use Tika with Tesseract to OCR PDFs
102                 that contain images by removing the XML comment symbols.
103            -->
104            <!--
105            <plugin name="UnknownConverterPlugin">
106                <option name="-exec_cmd" value="java -jar $GSDLHOME/ext/tika/tika-app-*.jar &#45;&#45;config=$GSDLHOME/ext/tika/ocr-pdfs-config.xml &#45;&#45;html %%INPUT_FILE > %%OUTPUT"/>
107                <option name="-convert_to" value="html"/>
108                <option name="-mime_type" value="application/pdf"/>
109                <option name="-srcicon" value="iconpdf"/>
110                <option name="-process_extension" value="pdf"/>
111            </plugin>
112            -->
113            <plugin name="RTFPlugin"/>
114            <plugin name="WordPlugin"/>
115            <plugin name="PostScriptPlugin"/>
116            <plugin name="PowerPointPlugin"/>
117            <plugin name="ExcelPlugin"/>
118            <plugin name="ImagePlugin"/>
119            <plugin name="ISISPlugin"/>
120            <plugin name="NulPlugin"/>
121            <plugin name="OAIPlugin"/>
122            <plugin name="MetadataXMLPlugin"/>
123            <plugin name="ArchivesInfPlugin"/>
124            <plugin name="DirectoryPlugin"/>
125        </pluginList>
126    </import>
127    <browse>
128        <classifier name="List">
129            <option name="-metadata" value="dc.Title,Title"/>
130            <option name="-partition_type_within_level" value="approximate_size"/>
131            <option name="-numeric_partition_type_within_level" value="approximate_size"/>
132            <!-- only use one dc.Title/Title value. change to allvalues to use all of them -->
133            <option name="-metadata_selection_mode_within_level" value="firstvalue"/>
134            <format>
135              <gsf:template match="documentNode">
136                <td valign="top">
137                  <gsf:link type="document">
138                <gsf:icon type="document"/>
139                  </gsf:link>
140                </td>
141                <td valign="top">
142                  <gsf:link type="source">
143                <gsf:choose-metadata>
144                  <gsf:metadata name="thumbicon"/>
145                  <gsf:metadata name="srcicon"/>
146                </gsf:choose-metadata>
147                  </gsf:link>
148                </td>
149                <td valign="top">
150                  <gsf:link type="document">
151                <!-- Instead of using choose-title here, we want to display the title that the document was classified on -->
152                <gsf:metadata name="dc.Title,Title" pos="classifiedBy"/>
153                <gsf:switch>
154                  <gsf:metadata name="Source"/>
155                  <gsf:when test="exists"><br/><i>(<gsf:metadata name="Source"/>)</i></gsf:when>
156                </gsf:switch>
157                  </gsf:link>
158                </td>
159              </gsf:template>
160            </format>
161        </classifier>
162        <classifier name="List">
163            <option name="-metadata" value="Source"/>
164            <option name="-partition_type_within_level" value="approximate_size"/>
165            <option name="-numeric_partition_type_within_level" value="approximate_size"/>
166        </classifier>
167        <format>
168            <gsf:template match="documentNode">
169                <td valign="top">
170                    <gsf:link type="document">
171                        <gsf:icon type="document"/>
172                    </gsf:link>
173                </td>
174                <td valign="top">
175                    <gsf:link type="source">
176                        <gsf:choose-metadata>
177                            <gsf:metadata name="thumbicon"/>
178                            <gsf:metadata name="srcicon"/>
179                        </gsf:choose-metadata>
180                    </gsf:link>
181                </td>
182                <td valign="top">
183                    <gsf:link type="document">
184                        <!-- Defined in the global format statement -->
185                        <xsl:call-template name="choose-title"/>
186                        <gsf:switch>
187                            <gsf:metadata name="Source"/>
188                            <gsf:when test="exists"><br/><i>(<gsf:metadata name="Source"/>)</i></gsf:when>
189                        </gsf:switch>
190                    </gsf:link>
191                </td>
192            </gsf:template>
193            <gsf:template match="classifierNode[@classifierStyle = 'VList']">
194                <td valign="top">
195                    <gsf:link type="classifier" style="static">
196                        <gsf:icon type="classifier"/>
197                    </gsf:link>
198                </td>
199                <td valign="top">
200                  <gsf:link type="classifier">
201                                <gsf:metadata name="Title"/>
202                  </gsf:link>
203                </td>
204            </gsf:template>
205            <gsf:template match="classifierNode[@classifierStyle = 'HList']">
206                <gsf:link type="classifier" style="static">
207                    <gsf:metadata name="Title"/>
208                </gsf:link>
209            </gsf:template>
210        </format>
211    </browse>
212    <display>
213        <format>
214            <gsf:option name="TOC" value="true"/>
215            <gsf:option name="allowUserComments" value="false"/>
216            <gsf:option name="allowDocumentEditing" value="true"/>
217            <gsf:option name="allowMapGPSEditing" value="true"/>
218            <!--
219                Overwriting this template allows you to change the heading of the document.
220            -->
221            <!--
222            <gsf:template name="documentHeading">
223                <span style="font-weight:bold; font-size: 120%;">
224                    <xsl:call-template name="choose-title"/>
225                </span>
226            </gsf:template>
227            -->
228           
229            <!--
230                Overwriting this template can be used to redefine the content of the whole document.
231                This is useful for simple documents, but not recommended for more complex documents
232                (e.g. hierachical and paged documents) as it can prevent any sub-sections from showing.
233            -->
234            <!--
235            <gsf:template name="documentContent">
236              <div id="gs-document">
237                <xsl:call-template name="documentPre"/>
238                <xsl:call-template name="wrappedSectionImage"/>
239                <div id="gs-document-text">
240                <xsl:call-template name="documentNodeText"/>
241                </div>
242                  </div>           
243            </gsf:template>
244            -->
245
246            <!--
247                Overwriting this template can be used to change the content of section headings.
248            -->
249            <!--
250            <gsf:template name="sectionHeading">
251                <xsl:call-template name="choose-title"/>
252            </gsf:template>
253            -->
254           
255            <!--
256                Overwriting this template can be used to change the content of the top-level section.
257            -->
258            <!--
259            <gsf:template name="topLevelSectionContent">
260                <xsl:call-template name="wrappedSectionImage"/>
261                <xsl:call-template name="wrappedSectionText"/>
262            </gsf:template>
263            -->
264           
265            <!--
266                Overwriting this template can be used to change the content of sections.
267            -->
268            <!--
269            <gsf:template name="sectionContent">
270                <xsl:call-template name="wrappedSectionImage"/>
271                <xsl:call-template name="wrappedSectionText"/>
272            </gsf:template>
273            -->
274        </format>
275    </display>
276    <replaceListRef id="gs2-standard"/>
277    <replaceListRef id="gs2-image" />
278    <serviceRackList>
279        <!-- comment out the following serviceRack if you want to disable RSS for this collection -->     
280            <serviceRack name="RSSRetrieve"/>
281        <!-- comment out the following serviceRack if you want to disable OAI for this collection -->
282        <serviceRack name="OAIPMH">
283          <setName>**title**</setName>
284          <setDescription>**about**</setDescription>
285          <!-- uncomment the following and set the name attribute if
286               you want this collection to be part of a super set. -->
287          <!--<oaiSuperSet name="xxx"/>-->       
288            <ListMetadataFormats>
289              <!--What metadata sets to support for this collection. You can select any set that is specified in OAIConfig.xml. To use a new set, you need to add a set definition in OAIConfig.xml, then reference it here, like:
290                   <metadataFormat metadataPrefix="prefix"/> -->
291             
292              <metadataFormat metadataPrefix="oai_dc">
293                <!-- you can customize the mappings by adding elements in here. See resources/oai/OAIConfig.xml for the format-->
294              </metadataFormat>
295            </ListMetadataFormats>
296        </serviceRack>
297    </serviceRackList>
298</CollectionConfig>
Note: See TracBrowser for help on using the browser.