Context Navigation

← Previous Change
Next Change →

ProcessForSolrIngest.java

Timestamp:

2016-11-02T21:34:47+13:00 (7 years ago)

Author:

davidb

Message:

More careful treatment of what to do when a JSON file isn't there

File:

: 1 edited

other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java (modified) (4 diffs)

Legend:

: Unmodified
: Added
: Removed

other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java

-              r31041
+              r31045
+    }
-    public void execPerVolume()
+    {
-        String spark_app_name = generateSparkAppName("Per Volume");
-        SparkConf conf = new SparkConf().setAppName(spark_app_name);
-        JavaSparkContext jsc = new JavaSparkContext(conf);
-        if (_verbosity >= 2) {
-            System.out.println("Default Minimum Partions: " + jsc.defaultMinPartitions());
-            System.out.println("Default Parallelism: " + jsc.defaultParallelism());
+        }
-        JavaRDD<String> json_list_data = jsc.textFile(_json_list_filename,NUM_PARTITIONS).cache();
-        long num_volumes = json_list_data.count();
-        double per_vol = 100.0/(double)num_volumes;
-        DoubleAccumulator progress_accum = jsc.sc().doubleAccumulator("Progress Percent");
-        System.err.println();
-        System.err.println();
-        System.err.println();
-        System.err.println("****##### _input_dir =  " + _input_dir);
-        System.err.println();
-        System.err.println();
-        System.err.println();
-        PerVolumeJSON per_vol_json = new PerVolumeJSON(_input_dir,_solr_url,_output_dir,_verbosity, progress_accum,per_vol);
-        json_list_data.foreach(per_vol_json);
-        long num_ids = num_volumes;
-        System.out.println("");
-        System.out.println("############");
-        System.out.println("# Number of volume ids: " + num_ids);
-        System.out.println("############");
-        System.out.println("");
-        jsc.close();
+    }
     public ArrayList<String> extrapolateSolrEndpoints()
+    {
 …
+    }
+    public void execPerVolume()
+    {
+        String spark_app_name = generateSparkAppName("Per Volume");
+        SparkConf conf = new SparkConf().setAppName(spark_app_name);
+        JavaSparkContext jsc = new JavaSparkContext(conf);
+        if (_verbosity >= 2) {
+            System.out.println("Default Minimum Partions: " + jsc.defaultMinPartitions());
+            System.out.println("Default Parallelism: " + jsc.defaultParallelism());
+        }
+        JavaRDD<String> json_list_data = jsc.textFile(_json_list_filename,NUM_PARTITIONS).cache();
+        long num_volumes = json_list_data.count();
+        double per_vol = 100.0/(double)num_volumes;
+        DoubleAccumulator progress_accum = jsc.sc().doubleAccumulator("Progress Percent");
+        System.err.println();
+        System.err.println();
+        System.err.println();
+        System.err.println("****##### _input_dir =  " + _input_dir);
+        System.err.println();
+        System.err.println();
+        System.err.println();
+        PerVolumeJSON per_vol_json = new PerVolumeJSON(_input_dir,_solr_url,_output_dir,_verbosity, progress_accum,per_vol);
+        json_list_data.foreach(per_vol_json);
+        long num_ids = num_volumes;
+        System.out.println("");
+        System.out.println("############");
+        System.out.println("# Number of volume ids: " + num_ids);
+        System.out.println("############");
+        System.out.println("");
+        jsc.close();
+    }
     public void execPerPage()
+    {
 …
         DoubleAccumulator per_vol_progress_accum = jsc.sc().doubleAccumulator("Per Volume Progress Percent");
+        //String strict_file_io_str = System.getProperty("wcsa-ef-ingest.strict-file-io","true");
+        boolean strict_file_io = Boolean.getBoolean("wcsa-ef-ingest.strict-file-io");
         PerPageJSONFlatmap paged_solr_json_flatmap
+            = new PerPageJSONFlatmap(_input_dir,_solr_url,_output_dir,_verbosity, per_vol_progress_accum,per_vol);
+            = new PerPageJSONFlatmap(_input_dir,_solr_url,_output_dir,_verbosity,
+                                     per_vol_progress_accum,per_vol,
+                                     strict_file_io);
         JavaRDD<JSONObject> per_page_jsonobjects = json_list_data.flatMap(paged_solr_json_flatmap).cache();
 …
         ArrayList<String> solr_endpoints = extrapolateSolrEndpoints();
         PerPageJSONMap paged_json_id_map
+            = new PerPageJSONMap(_input_dir,solr_endpoints,_output_dir,_verbosity, per_page_progress_accum,1);
+            = new PerPageJSONMap(_input_dir,solr_endpoints,_output_dir,_verbosity,
+                                 per_page_progress_accum,1);
         JavaRDD<String> per_page_ids = per_page_jsonobjects.map(paged_json_id_map);

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 31045 for other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java

Legend:

other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java

Download in other formats: