Ignore:
Timestamp:
2016-12-28T14:04:19+13:00 (7 years ago)
Author:
davidb
Message:

Updating of POS code to new files-per-partition paramater, plus some other related tweaks

File:
1 edited

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/PerVolumePOSStreamFlatmap.java

    r31258 r31271  
    4141        JSONObject extracted_feature_record = JSONClusterFileIO.readJSONFile(full_json_file_in);
    4242       
    43         ArrayList<String> all_word_list = new ArrayList<String>();
     43        ArrayList<String> all_pos_list = new ArrayList<String>();
    4444       
    4545        if (extracted_feature_record != null) {
     
    6262            }
    6363   
    64             if (_verbosity >= 2) {
     64            if (_verbosity >= 3) {
    6565                System.out.print("  Pages: ");
    6666            }
     
    7070                String page_id = volume_id + "." + formatted_i;
    7171
    72                 if (_verbosity >= 2) {
     72                if (_verbosity >= 3) {
    7373                    if (i>0) {
    7474                        System.out.print(", ");
     
    7878
    7979                if (i==(ef_page_count-1)) {
    80                     if (_verbosity >= 2) {
     80                    if (_verbosity >= 3) {
    8181                        System.out.println();
    8282                    }
     
    8787                if (ef_page != null) {
    8888                   
    89                     ArrayList<String> page_word_list = SolrDocJSON.generateTokenPosCountPOSLabels(volume_id, page_id, ef_page);                 
    90                     all_word_list.addAll(page_word_list);
     89                    ArrayList<String> page_pos_list = SolrDocJSON.generateTokenPosCountPOSLabels(volume_id, page_id, ef_page);                 
     90                    all_pos_list.addAll(page_pos_list);
    9191                }
    9292                else {
     
    109109        _progress_accum.add(_progress_step);
    110110       
    111         return all_word_list.iterator();
     111        return all_pos_list.iterator();
    112112    }
    113113   
Note: See TracChangeset for help on using the changeset viewer.