Context Navigation

← Previous Change
Next Change →

ProcessForSolrIngest.java

Timestamp:

2017-01-31T00:06:39+13:00 (7 years ago)

Author:

davidb

Message:

Reworked to use sequenceFiles

File:

: 1 edited

other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java (modified) (7 diffs)

Legend:

: Unmodified
: Added
: Removed

other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java

-              r31277
+              r31372
 import org.apache.commons.cli.*;
+import org.apache.hadoop.io.Text;
 import org.apache.spark.api.java.*;
 import org.apache.spark.util.DoubleAccumulator;
 …
+    }
+    public void execPerVolumeSequenceFile()
+    {
+        String spark_app_name = generateSparkAppName("Per Volume");
+        SparkConf conf = new SparkConf().setAppName(spark_app_name);
+        JavaSparkContext jsc = new JavaSparkContext(conf);
+        jsc.hadoopConfiguration().set("io.compression.codec.bzip2.library", "java-builtin");
+        //String packed_sequence_path = "hdfs:///user/capitanu/data/packed-ef";
+        String packed_sequence_path = _json_list_filename;
+        JavaPairRDD<Text, Text> input_pair_rdd = jsc.sequenceFile(packed_sequence_path, Text.class, Text.class);
+        JavaRDD<Text> json_text_rdd = input_pair_rdd.map(item -> item._2);
+        boolean icu_tokenize = Boolean.getBoolean("wcsa-ef-ingest.icu-tokenize");
+        boolean strict_file_io = Boolean.getBoolean("wcsa-ef-ingest.strict-file-io");
+        PerVolumeJSON per_vol_json = new PerVolumeJSON(_input_dir,_whitelist_filename,
+                                                       _solr_url,_output_dir,_verbosity,
+                                                       icu_tokenize,strict_file_io);
+        JavaRDD<Integer> per_volume_page_count = json_text_rdd.map(per_vol_json);
+        Integer num_page_ids = per_volume_page_count.reduce((a, b) -> a + b);
+        System.out.println("");
+        System.out.println("############");
+        System.out.println("# Number of page ids: " + num_page_ids);
+        System.out.println("############");
+        System.out.println("");
+        jsc.close();
+    }
+    /*
     public void execPerVolume()
+    {
 …
         jsc.close();
+    }
+    */
+    /*
     public void execPerPage()
+    {
 …
         JavaSparkContext jsc = new JavaSparkContext(conf);
+        /*
+        if (_verbosity >= 2) {
+            System.out.println("Default Minimum Partions: " + jsc.defaultMinPartitions());
+            System.out.println("Default Parallelism: " + jsc.defaultParallelism());
+        }
+            */
         //int num_partitions = Integer.getInteger("wcsa-ef-ingest.num-partitions", DEFAULT_NUM_PARTITIONS);
 …
         JavaRDD<String> per_page_ids = per_page_jsonobjects.map(paged_json_id_map);
+/*
+        System.out.println("");
+        System.out.println("############");
+        System.out.println("# Progress Accumulator: " + progress_accum.value());
+        System.out.println("############");
+        System.out.println("");
+        long num_page_ids = per_page_ids.count(); // trigger lazy eval of: flatmap:per-vol -> map:per-page
+        System.out.println("");
+        System.out.println("############");
+        System.out.println("# Number of page ids: " + num_page_ids);
+        System.out.println("############");
+        System.out.println("");
+        //if (_output_dir != null) {
+            //String rdd_save_file = "rdd-solr-json-page-files";
+            //json_ids.saveAsTextFile(rdd_save_file);
+            //System.out.println("############");
+            //System.out.println("# Saved RDD of Solr JSON page files, top-level, as:");
+            //System.out.println("#  " + rdd_save_file);
+            //System.out.println("############");
+            //System.out.println("");
+        //}
+        jsc.close();
+    }
 */
-        long num_page_ids = per_page_ids.count(); // trigger lazy eval of: flatmap:per-vol -> map:per-page
-        System.out.println("");
-        System.out.println("############");
-        System.out.println("# Number of page ids: " + num_page_ids);
-        System.out.println("############");
-        System.out.println("");
-        /*
-        if (_output_dir != null) {
-            String rdd_save_file = "rdd-solr-json-page-files";
-            json_ids.saveAsTextFile(rdd_save_file);
-            System.out.println("############");
-            System.out.println("# Saved RDD of Solr JSON page files, top-level, as:");
-            System.out.println("#  " + rdd_save_file);
-            System.out.println("############");
-            System.out.println("");
+        }
-        */
-        jsc.close();
+    }
 …
             = new ProcessForSolrIngest(input_dir,json_list_filename,solr_url,output_dir,verbosity);
+        prep_for_ingest.execPerVolumeSequenceFile();
+        /*
         String process_ef_json_mode = System.getProperty("wcsa-ef-ingest.process-ef-json-mode","per-page");
         if (process_ef_json_mode.equals("per-volume")) {
 …
         else {
             prep_for_ingest.execPerPage();
+        }
+        }*/
+    }
+}

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 31372 for other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java

Legend:

other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java

Download in other formats: