Ignore:
Timestamp:
2016-12-20T14:15:05+13:00 (7 years ago)
Author:
davidb
Message:

Support for icu-tokenize property added, plus relevant refactoring.

File:
1 edited

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForSolrIngest.java

    r31220 r31252  
    121121        System.err.println();
    122122       
     123        boolean icu_tokenize = Boolean.getBoolean("wcsa-ef-ingest.icu-tokenize");
     124        boolean strict_file_io = Boolean.getBoolean("wcsa-ef-ingest.strict-file-io");
     125       
    123126        PerVolumeJSON per_vol_json = new PerVolumeJSON(_input_dir,_whitelist_filename,
    124                                                        _solr_url,_output_dir,_verbosity, progress_accum,per_vol);
     127                                                       _solr_url,_output_dir,_verbosity, progress_accum,per_vol,
     128                                                       icu_tokenize,strict_file_io);
    125129
    126130        json_list_data.foreach(per_vol_json);
     
    161165        DoubleAccumulator per_vol_progress_accum = jsc.sc().doubleAccumulator("Per Volume Progress Percent");
    162166       
    163         //String strict_file_io_str = System.getProperty("wcsa-ef-ingest.strict-file-io","true");
     167        boolean icu_tokenize = Boolean.getBoolean("wcsa-ef-ingest.icu-tokenize");
    164168        boolean strict_file_io = Boolean.getBoolean("wcsa-ef-ingest.strict-file-io");
    165                
     169       
    166170        PerPageJSONFlatmap paged_solr_json_flatmap
    167171            = new PerPageJSONFlatmap(_input_dir,_whitelist_filename,
    168172                                     _solr_url,_output_dir,_verbosity,
    169173                                     per_vol_progress_accum,per_vol,
    170                                      strict_file_io);
     174                                     icu_tokenize,strict_file_io);
    171175        JavaRDD<JSONObject> per_page_jsonobjects = json_list_data.flatMap(paged_solr_json_flatmap).cache();
    172176       
Note: See TracChangeset for help on using the changeset viewer.