Context Navigation

← Previous Change
Next Change →

conf

Timestamp:

2015-07-21T05:35:34+12:00 (9 years ago)

Author:

Georgiy Litvinov

Message:

Solr repo modifications for Solr side highlighing and snippets

File:

: 1 edited

gs3-extensions/solr/trunk/src/conf/schema.xml.in (modified) (36 diffs)

Legend:

: Unmodified
: Added
: Removed

gs3-extensions/solr/trunk/src/conf/schema.xml.in

-              r29932
+              r30050
     <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
       <analyzer type="index">
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
 …
     <fieldType name="text_en" class="solr.TextField" positionIncrementGap="100">
       <analyzer type="index">
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- in this example, we will only use synonyms at query time
 …
     <fieldType name="text_en_splitting" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
       <analyzer type="index">
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.WhitespaceTokenizerFactory"/>
         <!-- in this example, we will only use synonyms at query time
 …
     <fieldType name="text_en_splitting_tight" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.WhitespaceTokenizerFactory"/>
         <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false"/>
 …
     <fieldType name="text_ar" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- for any non-arabic -->
 …
     <fieldType name="text_bg" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_ca" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes l', etc -->
 …
     <fieldType name="text_cjk" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- normalize width before bigram, as e.g. half-width dakuten combine  -->
 …
     <fieldType name="text_ckb" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.SoraniNormalizationFilterFactory"/>
 …
     <fieldType name="text_cz" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_da" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_de" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_el" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- greek specific lowercase for sigma -->
 …
     <fieldType name="text_es" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_eu" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
       <analyzer>
         <!-- for ZWNJ -->
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <charFilter class="solr.PersianCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
 …
     <fieldType name="text_fi" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_fr" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes l', etc -->
 …
     <fieldType name="text_ga" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes d', etc -->
 …
     <fieldType name="text_gl" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_hi" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_hu" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_hy" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_id" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_it" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes l', etc -->
 …
            See http://wiki.apache.org/solr/JapaneseLanguageSupport for more on Japanese language support.
         -->
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>
         <!--<tokenizer class="solr.JapaneseTokenizerFactory" mode="search" userDictionary="lang/userdict_ja.txt"/>-->
 …
     <fieldType name="text_lv" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_nl" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_no" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_pt" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_ro" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_ru" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <!-- Russian with morphology-->
     <fieldType name="text_ru_morph" class="solr.TextField" positionIncrementGap="100">
+          <analyzer>
+          <tokenizer class="solr.StandardTokenizerFactory"/>
+          <filter class="solr.LowerCaseFilterFactory"/>
+          <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ru.txt" format="snowball" />
+          <filter class="org.apache.lucene.morphology.russian.RussianFilterFactory"/>
+          </analyzer>
+      <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
+        <tokenizer class="solr.StandardTokenizerFactory"/>
+        <filter class="solr.LowerCaseFilterFactory"/>
+        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ru.txt" format="snowball" />
+        <filter class="org.apache.lucene.morphology.russian.RussianFilterFactory"/>
+      </analyzer>
     </fieldType>
 …
     <fieldType name="text_sv" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_th" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_tr" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.TurkishLowerCaseFilterFactory"/>

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 30050 for gs3-extensions/solr/trunk/src/conf

Legend:

gs3-extensions/solr/trunk/src/conf/schema.xml.in

Download in other formats: