Changeset 31260


Ignore:
Timestamp:
12/21/16 00:12:10 (4 years ago)
Author:
davidb
Message:

Language counting

Location:
other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest
Files:
3 added
2 edited

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForPOSCount.java

    r31259 r31260  
    4545    protected String generateSparkAppName(String exec_mode)
    4646    {
    47         String spark_app_name = "[" + exec_mode + "] Extracted Features: Process for POS";
     47        String spark_app_name = "[" + exec_mode + "] Extracted Features: Process for POS Count";
    4848        spark_app_name += " [" + _json_list_filename + "]";
    4949   
     
    7979        //boolean icu_tokenize = Boolean.getBoolean("wcsa-ef-ingest.icu-tokenize");
    8080       
    81         PerVolumePOSStreamFlatmap paged_solr_wordfreq_flatmap
     81        PerVolumePOSStreamFlatmap paged_solr_posfreq_flatmap
    8282            = new PerVolumePOSStreamFlatmap(_input_dir,_verbosity,
    8383                                     per_vol_progress_accum,per_vol,
    8484                                     strict_file_io);
    85         JavaRDD<String> pos_list = json_list_data.flatMap(paged_solr_wordfreq_flatmap);
     85        JavaRDD<String> pos_list = json_list_data.flatMap(paged_solr_posfreq_flatmap);
    8686        pos_list.setName("pos-stream");
    8787       
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/SolrDocJSON.java

    r31258 r31260  
    1313import java.util.Iterator;
    1414import org.apache.commons.compress.compressors.CompressorException;
     15import org.json.JSONArray;
    1516import org.json.JSONObject;
    1617import org.apache.lucene.analysis.TokenStream;
     
    294295    }
    295296   
     297    public static ArrayList<String> generateTokenPosCountLangLabels(String volume_id, String page_id, JSONObject ef_page)
     298    {
     299        ArrayList<String> lang_list = new ArrayList<String>();;
     300
     301        if (ef_page != null) {
     302            JSONArray ef_languages = ef_page.getJSONArray("languages");
     303            if (ef_languages != null) {
     304               
     305                int lang_len = ef_languages.length();
     306                for (int i=0; i<lang_len; i++) {
     307                    JSONObject lang_rec = ef_languages.getJSONObject(i);
     308
     309                    Iterator<String> lang_key_iter = lang_rec.keys();
     310                    while (lang_key_iter.hasNext()) {
     311                        String lang_label = lang_key_iter.next();
     312
     313                        lang_list.add(lang_label);
     314                    }
     315                }
     316            }
     317            else {
     318                System.err.println("Warning: empty languages field for '" + page_id + "'");
     319            }
     320
     321        }
     322        else {
     323            System.err.println("Warning: null page for '" + page_id + "'");
     324        }
     325
     326        return lang_list;
     327    }
     328   
    296329    public static void saveSolrDoc(JSONObject solr_add_doc_json, String output_file_json_bz2)
    297330    {
Note: See TracChangeset for help on using the changeset viewer.