Context Navigation

← Previous Change
Next Change →

Changeset 30050 for gs3-extensions

Timestamp:

2015-07-21T05:35:34+12:00 (9 years ago)

Author:

Georgiy Litvinov

Message:

Solr repo modifications for Solr side highlighing and snippets

Location:

gs3-extensions/solr/trunk/src

Files:

: 6 edited

conf/schema.xml.in (modified) (36 diffs)
perllib/solrbuilder.pm (modified) (1 diff)
perllib/solrbuildproc.pm (modified) (1 diff)
src/java/org/greenstone/gsdl3/service/GS2SolrSearch.java (modified) (4 diffs)
src/java/org/greenstone/gsdl3/util/SolrQueryResult.java (modified) (3 diffs)
src/java/org/greenstone/gsdl3/util/SolrQueryWrapper.java (modified) (9 diffs)

Legend:

: Unmodified
: Added
: Removed

gs3-extensions/solr/trunk/src/conf/schema.xml.in

-              r29932
+              r30050
     <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
       <analyzer type="index">
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
 …
     <fieldType name="text_en" class="solr.TextField" positionIncrementGap="100">
       <analyzer type="index">
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- in this example, we will only use synonyms at query time
 …
     <fieldType name="text_en_splitting" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
       <analyzer type="index">
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.WhitespaceTokenizerFactory"/>
         <!-- in this example, we will only use synonyms at query time
 …
     <fieldType name="text_en_splitting_tight" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.WhitespaceTokenizerFactory"/>
         <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false"/>
 …
     <fieldType name="text_ar" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- for any non-arabic -->
 …
     <fieldType name="text_bg" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_ca" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes l', etc -->
 …
     <fieldType name="text_cjk" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- normalize width before bigram, as e.g. half-width dakuten combine  -->
 …
     <fieldType name="text_ckb" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.SoraniNormalizationFilterFactory"/>
 …
     <fieldType name="text_cz" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_da" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_de" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_el" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- greek specific lowercase for sigma -->
 …
     <fieldType name="text_es" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_eu" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
       <analyzer>
         <!-- for ZWNJ -->
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <charFilter class="solr.PersianCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
 …
     <fieldType name="text_fi" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_fr" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes l', etc -->
 …
     <fieldType name="text_ga" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes d', etc -->
 …
     <fieldType name="text_gl" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_hi" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_hu" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_hy" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_id" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_it" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <!-- removes l', etc -->
 …
            See http://wiki.apache.org/solr/JapaneseLanguageSupport for more on Japanese language support.
         -->
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>
         <!--<tokenizer class="solr.JapaneseTokenizerFactory" mode="search" userDictionary="lang/userdict_ja.txt"/>-->
 …
     <fieldType name="text_lv" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_nl" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_no" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_pt" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_ro" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_ru" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <!-- Russian with morphology-->
     <fieldType name="text_ru_morph" class="solr.TextField" positionIncrementGap="100">
+          <analyzer>
+          <tokenizer class="solr.StandardTokenizerFactory"/>
+          <filter class="solr.LowerCaseFilterFactory"/>
+          <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ru.txt" format="snowball" />
+          <filter class="org.apache.lucene.morphology.russian.RussianFilterFactory"/>
+          </analyzer>
+      <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
+        <tokenizer class="solr.StandardTokenizerFactory"/>
+        <filter class="solr.LowerCaseFilterFactory"/>
+        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ru.txt" format="snowball" />
+        <filter class="org.apache.lucene.morphology.russian.RussianFilterFactory"/>
+      </analyzer>
     </fieldType>
 …
     <fieldType name="text_sv" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_th" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.LowerCaseFilterFactory"/>
 …
     <fieldType name="text_tr" class="solr.TextField" positionIncrementGap="100">
       <analyzer>
+    <charFilter class="solr.HTMLStripCharFilterFactory"/>
         <tokenizer class="solr.StandardTokenizerFactory"/>
         <filter class="solr.TurkishLowerCaseFilterFactory"/>

gs3-extensions/solr/trunk/src/perllib/solrbuilder.pm

r29711	r30050
310	310	# see TermsResponse termResponse = solrResponse.getTermsResponse();
311	311	#$schema_insert_xml .= "indexed=\"true\" stored=\"false\" termVectors=\"true\" multiValued=\"true\" />\n";
312		$schema_insert_xml .= "indexed=\"true\" stored=\"~~fals~~e\" multiValued=\"true\" />\n";
	312	$schema_insert_xml .= "indexed=\"true\" stored=\"true\" multiValued=\"true\" />\n";
313	313	#$schema_insert_xml .= "indexed=\"true\" stored=\"true\" multiValued=\"true\" />\n";
314	314	}

gs3-extensions/solr/trunk/src/perllib/solrbuildproc.pm

-              r29945
+              r30050
             if ($self->{'indexing_text'}) {
                 # we always strip html
+                $section_text = $self->preprocess_text($section_text, 1, "");
+                &ghtml::htmlsafe($section_text);
+                #$section_text = $self->preprocess_text($section_text, 1, "");
+            }
             else {

gs3-extensions/solr/trunk/src/src/java/org/greenstone/gsdl3/service/GS2SolrSearch.java

-              r29711
+              r30050
                 paramDefaults.put(SORT_ORDER_PARAM, SORT_ORDER_DESCENDING);
         does_faceting = true;
+        does_highlight_snippets = true;
+        does_full_field_highlighting = true;
         // Used to store the solr cores that match the required 'level'
         // of search (e.g. either document-level=>didx, or
 …
         try
+        {
+            //if it is a Highlighting Query - execute it
+            this.solr_src.setHighlightField(indexField);
+            if(hldocOID != null)
+            {
+                String rslt = this.solr_src.runHighlightingQuery(query,hldocOID);
+                return rslt;
+            }
             SharedSoleneQueryResult sqr = this.solr_src.runQuery(query);
 …
         return null;
+    }
     /** get the total number of docs that match */
     protected long numDocsMatched(Object query_result)
 …
         return newFacetList;
+    }
+    @Override
+    protected Map<String, Map<String, List<String>>> getHighlightSnippets(Object query_result)
+    {
+        if (!(query_result instanceof SolrQueryResult))
+        {
+            return null;
+        }
+        SolrQueryResult result = (SolrQueryResult) query_result;
+        return result.getHighlightResults();
+    }

gs3-extensions/solr/trunk/src/src/java/org/greenstone/gsdl3/util/SolrQueryResult.java

r29142	r30050
28	28
29	29	import java.util.List;
	30	import java.util.Map;
30	31
31	32	import org.apache.solr.client.solrj.response.FacetField;
…	…
41	42	{
42	43	protected List<FacetField> _facetResults = null;
	44	protected Map<String,Map<String,List<String>>> _highlightResults = null;
43	45	SolrQueryResult()
44	46	{
45	47	super();
46	48	}
47
48	49	public void setFacetResults(List<FacetField> facetResults)
49	50	{
…	…
55	56	return _facetResults;
56	57	}
	58	//Save highlighting snippets
	59	public void setHighlightResults(Map<String,Map<String,List<String>>> highlightResults){
	60	_highlightResults = highlightResults;
	61	}
	62	//Extract highlighting snippets
	63	public Map<String,Map<String,List<String>>> getHighlightResults(){
	64	return _highlightResults;
	65	}
	66
57	67	}

gs3-extensions/solr/trunk/src/src/java/org/greenstone/gsdl3/util/SolrQueryWrapper.java

-              r29987
+              r30050
 import java.util.Iterator;
 import java.util.List;
+import java.util.Map;
 import java.util.Set;
 import java.util.HashSet;
 import java.util.regex.Pattern;
 import java.util.regex.Matcher;
 …
 import org.apache.solr.client.solrj.response.QueryResponse;
 import org.apache.solr.client.solrj.response.TermsResponse;
 import org.apache.solr.core.CoreContainer;
 import org.apache.solr.core.SolrCore;
 import org.apache.solr.common.SolrDocument;
 import org.apache.solr.common.SolrDocumentList;
 …
 import org.greenstone.LuceneWrapper4.SharedSoleneQuery;
 import org.greenstone.LuceneWrapper4.SharedSoleneQueryResult;
 import org.apache.lucene.search.Query; // Query, TermQuery, BooleanQuery, BooleanClause and more
 import org.apache.lucene.index.IndexReader;
 …
     SolrServer solr_core = null;
+    protected String highlight_field = null;
     String collection_core_name_prefix = null;
 …
+    }
+  }
+  public void setHighlightField(String hl_field)
+  {
+    this.highlight_field = hl_field;
+  }
   public void setSortOrder(String order)
+  {
 …
         solrQuery.setFields("docOID", "score"); //solrParams.set("fl", "docOID score totaltermfreq(field,'queryterm')");
+        //Turn on highlighting
+        solrQuery.setHighlight(true);
+        //Return 3 snippets for each document
+        solrQuery.setParam("hl.snippets", "3");
+        solrQuery.setParam("hl.fl", highlight_field);
+        solrQuery.setHighlightSimplePre("&lt;span class=\"snippetText\"&gt;");
+        //Set text which appears after highlighted term
+        solrQuery.setHighlightSimplePost("&lt;/span&gt;");
         //solrQuery.setTerms(true); // turn on the termsComponent
         //solrQuery.set("terms.fl", "ZZ"); // which field to get the terms from. ModifiableSolrParams method
 …
             QueryResponse solrResponse = solr_core.query(solrQuery); //solr_core.query(solrParams);
             SolrDocumentList hits = solrResponse.getResults();
+            Map<String, Map<String, List<String>>> hlResponse = solrResponse.getHighlighting();
+            solr_query_result.setHighlightResults(hlResponse);
             //TermsResponse termResponse = solrResponse.getTermsResponse(); // null unless termvectors=true in schema.xml
 …
                 solr_query_result.setStartResults(start_results);
                 solr_query_result.setEndResults(start_results + hits.size());
                 // get the first field we're searching in, this will be the fallback field
                 int sepIndex = query_string.indexOf(":");
 …
         return solr_query_result;
+    }
+// Highlighting query. Returns full highlighted text for document
+    public String runHighlightingQuery(String query,String hldocOID)
+    {
+        SolrQueryResult solr_query_result = new SolrQueryResult();
+        solr_query_result.clear();
+        /* Create Query*/
+        SolrQuery solrQuery = new SolrQuery(query);
+        /* Set Query Parameters*/
+        //Turn on highlighting
+        solrQuery.setHighlight(true);
+        //Extract default field from query
+        //Set field for highlighting
+        solrQuery.setParam("hl.fl", highlight_field);
+        //Get whole highlighted field
+        solrQuery.setHighlightFragsize(0);
+        //Return only required document by docOID
+        solrQuery.setFilterQueries("docOID:"+ hldocOID);
+        //Set text which appears before highlighted term
+        //solrQuery.setHighlightSimplePre("<annotation type=\"query_term\">");
+        solrQuery.setHighlightSimplePre("<span class=\"termHighlight\">");
+        //Set text which appears after highlighted term
+        //solrQuery.setHighlightSimplePost("</annotation>");
+        solrQuery.setHighlightSimplePost("</span>");
+        //Prepare results
+        String text = null;
+        // do the query
+        try
+        {
+            QueryResponse solrResponse = solr_core.query(solrQuery); //solr_core.query(solrParams);
+            //Get highliting results
+            Map<String,Map<String,List<String>>> highlightingResults = solrResponse.getHighlighting();
+            //Get highlited document text
+            text = highlightingResults.get(hldocOID).get(highlight_field).get(0);
+        }
+        catch (SolrServerException server_exception)
+        {
+            server_exception.printStackTrace();
+        }
+        return text;
+    }
     //Greenstone universe operates with a base of 1 for "start_results"

Note: See TracChangeset for help on using the changeset viewer.

Download in other formats: