Context Navigation

← Previous Changeset
Next Changeset →

Changeset 12656

Timestamp:

2006-09-04T10:57:05+12:00 (18 years ago)

Author:

mdewsnip

Message:

Put old range filter stuff back, and added "-startresults" and "-endresults" support to return just the desired results, thus speeding up the query result parsing. Many thanks to John Thompson and DL Consulting Ltd.

Location:

trunk

Files:

: 4 edited

gsdl/bin/java/LuceneWrap.jar (modified) ( previous)
gsdl/bin/script/lucene_query.pl (modified) (6 diffs)
gsdl/src/java/org/nzdl/gsdl/LuceneWrap/GS2LuceneQuery.java (modified) (11 diffs)
indexers/lucene-gs/src/org/greenstone/LuceneWrapper/GS2LuceneQuery.java (modified) (11 diffs)

Legend:

: Unmodified
: Added
: Removed

trunk/gsdl/bin/script/lucene_query.pl

-              r12408
+              r12656
     my $sort_field = shift(@_);
     my $dco = shift(@_);
+    my $start_results = shift(@_);
+    my $end_results = shift(@_);
     my $out_file = shift(@_);
 …
     if (defined($dco)) {
         $cmd .= " -dco " . $dco;
+    }
+    if (defined($start_results)) {
+        $cmd .= " -startresults " . $start_results;
+    }
+    if (defined($end_results)) {
+        $cmd .= " -endresults " . $end_results;
+    }
     if (defined($out_file)) {
 …
     my $argc = scalar(@argv);
     if ($argc == 0) {
     print STDERR "Usage: $PROGNAME full-index-dir [query] [-fuzzy] [-filter filter_string] [-sort sort_field] [-dco AND|OR] [-out out_file]\n";
+    print STDERR "Usage: $PROGNAME full-index-dir [query] [-fuzzy] [-filter filter_string] [-sort sort_field] [-dco AND|OR] [-startresults number -endresults number] [-out out_file]\n";
     exit 1;
+    }
 …
     my $sort_field = undef;
     my $dco = undef;
+    my $start_results = undef;
+    my $end_results = undef;
     my $out_file = undef;
     for (my $i = 0; $i < scalar(@argv); $i++)
 …
             $dco = $argv[$i];
+    }
+        elsif ($argv[$i] eq "-startresults") {
+            $i++;
+            $start_results = $argv[$i];
+    }
+        elsif ($argv[$i] eq "-endresults") {
+            $i++;
+            $end_results = $argv[$i];
+    }
         elsif ($argv[$i] eq "-out") {
             $i++;
 …
+    }
     open_java_lucene($full_indexdir, $fuzzy, $filter_string, $sort_field, $dco, $out_file);
+    open_java_lucene($full_indexdir, $fuzzy, $filter_string, $sort_field, $dco, $start_results, $end_results, $out_file);
     if (defined $query) {

trunk/gsdl/src/java/org/nzdl/gsdl/LuceneWrap/GS2LuceneQuery.java

-              r12653
+              r12656
  * @author  [email protected]
  * @author  [email protected]
+ * @author  [email protected]
+ * @author  [email protected]
  * @version
  */
 …
 import java.io.*;
 import java.util.*;
+import java.util.regex.*;
 import org.apache.lucene.analysis.Analyzer;
 …
+    {
     if (args.length == 0) {
         System.out.println("Usage: GS2LuceneQuery <index directory> [-fuzzy] [-filter filter_string] [-sort sort_field] [-dco AND|OR]");
+        System.out.println("Usage: GS2LuceneQuery <index directory> [-fuzzy] [-filter filter_string] [-sort sort_field] [-dco AND|OR] [-startresults number -endresults number]");
         return;
+    }
 …
         IndexReader reader = ((IndexSearcher) searcher).getIndexReader();
         // Create one query parser with stop words, and one with none
+        // Create one query parser with the standard set of stop words, and one with none
         QueryParser query_parser = new QueryParser("TX", new StandardAnalyzer(stop_words));
         QueryParser query_parser_no_stop_words = new QueryParser("TX", new StandardAnalyzer(new String[] { }));
         Sort sorter = new Sort();
         QueryFilter filter = null;
+        Filter filter = null;
             boolean fuzzy = false;
+        // Paging
+        int start_results = 1;
+        int end_results = -1;
             // New code to allow the default conjunction operator to be
 …
+                        {
                             i++;
+                try {
+                filter = new QueryFilter(query_parser.parse(args[i]));
+                }
+                catch (ParseException exception) {
+                exception.printStackTrace();
+                }
+                // Parse up filter
+                filter = parseFilterString(args[i]);
+                        }
                     if (args[i].equals("-dco"))
 …
                             fuzzy = true;
+                        }
+            if (args[i].equals("-startresults"))
+            {
+                i++;
+                if (args[i].matches("\\d+"))
+                {
+                    start_results = Integer.parseInt(args[i]);
+                }
+            }
+            if (args[i].equals("-endresults"))
+            {
+                i++;
+                if (args[i].matches("\\d+"))
+                {
+                    end_results = Integer.parseInt(args[i]);
+                }
+            }
+                }
 …
         System.out.println("<ResultSet>");
         System.out.println("  <QueryString>" + query_string + "</QueryString>");
+        if (filter != null)
+            {
+            System.out.println("  <FilterString>" + filter.toString() + "</FilterString>");
+            }
         try {
 …
             // Do we need to use a hit iterator to get sorted results?
             System.out.println("  <MatchingDocsInfo num=\"" + hits.length() + "\"/>");
+            System.out.println("  <StartResults num=\"" + start_results + "\" />");
+            System.out.println("  <EndsResults num=\"" + end_results + "\" />");
+            int counter = 1;
             Iterator hit_iter = hits.iterator();
             while (hit_iter.hasNext())
 …
                 Document doc = hit.getDocument();
                 String node_id = doc.get("nodeID");
+                System.out.println("  <Match id=\"" + node_id + "\" />");
+                // May not be paging results
+                if (start_results == 1 && end_results == -1)
+                {
+                    System.out.println("  <Match id=\"" + node_id + "\" />");
+                }
+                // Otherwise skip up until page offset
+                else if (start_results <= counter && counter <= end_results)
+                {
+                    System.out.println("  <Match id=\"" + node_id + "\" />");
+                }
+                // And skip all the rest
                 // From the document, extract the Term Vector for the
                 // TX field
 …
                     ///ystem.err.println("Error! Missing term vector for document " + hit.getId());
+                }
+                ++counter;
+            }
 …
     return query;
+    }
+  /**
+   *  @todo Michael to comment
+   */
+  private static Filter parseFilterString(String filter_string)
+  {
+    Filter result = null;
+    Pattern pattern = Pattern.compile("\\s*\\+(\\w+)\\:([\\{\\[])(\\d+)\\s+TO\\s+(\\d+)([\\}\\]])\\s*");
+    Matcher matcher = pattern.matcher(filter_string);
+    if (matcher.matches())
+      {
+        String field_name = matcher.group(1);
+        boolean include_lower = matcher.group(2).equals("[");
+        String lower_term = matcher.group(3);
+        String upper_term = matcher.group(4);
+        boolean include_upper = matcher.group(5).equals("]");
+        result = new RangeFilter(field_name, lower_term, upper_term, include_lower, include_upper);
+      }
+    else
+      {
+        System.err.println("Error: Could not understand filter string \"" + filter_string + "\"");
+      }
+    return result;
+  }
+  /** parseFilterString() **/
+}

trunk/indexers/lucene-gs/src/org/greenstone/LuceneWrapper/GS2LuceneQuery.java

-              r12653
+              r12656
  * @author  [email protected]
  * @author  [email protected]
+ * @author  [email protected]
+ * @author  [email protected]
  * @version
  */
 …
 import java.io.*;
 import java.util.*;
+import java.util.regex.*;
 import org.apache.lucene.analysis.Analyzer;
 …
+    {
     if (args.length == 0) {
         System.out.println("Usage: GS2LuceneQuery <index directory> [-fuzzy] [-filter filter_string] [-sort sort_field] [-dco AND|OR]");
+        System.out.println("Usage: GS2LuceneQuery <index directory> [-fuzzy] [-filter filter_string] [-sort sort_field] [-dco AND|OR] [-startresults number -endresults number]");
         return;
+    }
 …
         IndexReader reader = ((IndexSearcher) searcher).getIndexReader();
         // Create one query parser with stop words, and one with none
+        // Create one query parser with the standard set of stop words, and one with none
         QueryParser query_parser = new QueryParser("TX", new StandardAnalyzer(stop_words));
         QueryParser query_parser_no_stop_words = new QueryParser("TX", new StandardAnalyzer(new String[] { }));
         Sort sorter = new Sort();
         QueryFilter filter = null;
+        Filter filter = null;
             boolean fuzzy = false;
+        // Paging
+        int start_results = 1;
+        int end_results = -1;
             // New code to allow the default conjunction operator to be
 …
+                        {
                             i++;
+                try {
+                filter = new QueryFilter(query_parser.parse(args[i]));
+                }
+                catch (ParseException exception) {
+                exception.printStackTrace();
+                }
+                // Parse up filter
+                filter = parseFilterString(args[i]);
+                        }
                     if (args[i].equals("-dco"))
 …
                             fuzzy = true;
+                        }
+            if (args[i].equals("-startresults"))
+            {
+                i++;
+                if (args[i].matches("\\d+"))
+                {
+                    start_results = Integer.parseInt(args[i]);
+                }
+            }
+            if (args[i].equals("-endresults"))
+            {
+                i++;
+                if (args[i].matches("\\d+"))
+                {
+                    end_results = Integer.parseInt(args[i]);
+                }
+            }
+                }
 …
         System.out.println("<ResultSet>");
         System.out.println("  <QueryString>" + query_string + "</QueryString>");
+        if (filter != null)
+            {
+            System.out.println("  <FilterString>" + filter.toString() + "</FilterString>");
+            }
         try {
 …
             // Do we need to use a hit iterator to get sorted results?
             System.out.println("  <MatchingDocsInfo num=\"" + hits.length() + "\"/>");
+            System.out.println("  <StartResults num=\"" + start_results + "\" />");
+            System.out.println("  <EndsResults num=\"" + end_results + "\" />");
+            int counter = 1;
             Iterator hit_iter = hits.iterator();
             while (hit_iter.hasNext())
 …
                 Document doc = hit.getDocument();
                 String node_id = doc.get("nodeID");
+                System.out.println("  <Match id=\"" + node_id + "\" />");
+                // May not be paging results
+                if (start_results == 1 && end_results == -1)
+                {
+                    System.out.println("  <Match id=\"" + node_id + "\" />");
+                }
+                // Otherwise skip up until page offset
+                else if (start_results <= counter && counter <= end_results)
+                {
+                    System.out.println("  <Match id=\"" + node_id + "\" />");
+                }
+                // And skip all the rest
                 // From the document, extract the Term Vector for the
                 // TX field
 …
                     ///ystem.err.println("Error! Missing term vector for document " + hit.getId());
+                }
+                ++counter;
+            }
 …
     return query;
+    }
+  /**
+   *  @todo Michael to comment
+   */
+  private static Filter parseFilterString(String filter_string)
+  {
+    Filter result = null;
+    Pattern pattern = Pattern.compile("\\s*\\+(\\w+)\\:([\\{\\[])(\\d+)\\s+TO\\s+(\\d+)([\\}\\]])\\s*");
+    Matcher matcher = pattern.matcher(filter_string);
+    if (matcher.matches())
+      {
+        String field_name = matcher.group(1);
+        boolean include_lower = matcher.group(2).equals("[");
+        String lower_term = matcher.group(3);
+        String upper_term = matcher.group(4);
+        boolean include_upper = matcher.group(5).equals("]");
+        result = new RangeFilter(field_name, lower_term, upper_term, include_lower, include_upper);
+      }
+    else
+      {
+        System.err.println("Error: Could not understand filter string \"" + filter_string + "\"");
+      }
+    return result;
+  }
+  /** parseFilterString() **/
+}

Note: See TracChangeset for help on using the changeset viewer.