Changeset 31260 for other-projects

Show
Ignore:
Timestamp:
21.12.2016 00:12:10 (2 years ago)
Author:
davidb
Message:

Language counting

Location:
other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest
Files:
3 added
2 modified

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForPOSCount.java

    r31259 r31260  
    4545    protected String generateSparkAppName(String exec_mode) 
    4646    { 
    47         String spark_app_name = "[" + exec_mode + "] Extracted Features: Process for POS"; 
     47        String spark_app_name = "[" + exec_mode + "] Extracted Features: Process for POS Count"; 
    4848        spark_app_name += " [" + _json_list_filename + "]"; 
    4949     
     
    7979        //boolean icu_tokenize = Boolean.getBoolean("wcsa-ef-ingest.icu-tokenize"); 
    8080         
    81         PerVolumePOSStreamFlatmap paged_solr_wordfreq_flatmap  
     81        PerVolumePOSStreamFlatmap paged_solr_posfreq_flatmap  
    8282            = new PerVolumePOSStreamFlatmap(_input_dir,_verbosity,  
    8383                                     per_vol_progress_accum,per_vol, 
    8484                                     strict_file_io); 
    85         JavaRDD<String> pos_list = json_list_data.flatMap(paged_solr_wordfreq_flatmap);  
     85        JavaRDD<String> pos_list = json_list_data.flatMap(paged_solr_posfreq_flatmap);  
    8686        pos_list.setName("pos-stream"); 
    8787         
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/SolrDocJSON.java

    r31258 r31260  
    1313import java.util.Iterator; 
    1414import org.apache.commons.compress.compressors.CompressorException; 
     15import org.json.JSONArray; 
    1516import org.json.JSONObject; 
    1617import org.apache.lucene.analysis.TokenStream; 
     
    294295    } 
    295296     
     297    public static ArrayList<String> generateTokenPosCountLangLabels(String volume_id, String page_id, JSONObject ef_page)  
     298    { 
     299        ArrayList<String> lang_list = new ArrayList<String>();; 
     300 
     301        if (ef_page != null) { 
     302            JSONArray ef_languages = ef_page.getJSONArray("languages"); 
     303            if (ef_languages != null) { 
     304                 
     305                int lang_len = ef_languages.length(); 
     306                for (int i=0; i<lang_len; i++) { 
     307                    JSONObject lang_rec = ef_languages.getJSONObject(i); 
     308 
     309                    Iterator<String> lang_key_iter = lang_rec.keys(); 
     310                    while (lang_key_iter.hasNext()) { 
     311                        String lang_label = lang_key_iter.next(); 
     312 
     313                        lang_list.add(lang_label); 
     314                    } 
     315                } 
     316            } 
     317            else { 
     318                System.err.println("Warning: empty languages field for '" + page_id + "'"); 
     319            } 
     320 
     321        } 
     322        else { 
     323            System.err.println("Warning: null page for '" + page_id + "'"); 
     324        } 
     325 
     326        return lang_list; 
     327    } 
     328     
    296329    public static void saveSolrDoc(JSONObject solr_add_doc_json, String output_file_json_bz2) 
    297330    {