Changeset 31176 for other-projects

Show
Ignore:
Timestamp:
03.12.2016 21:16:38 (2 years ago)
Author:
davidb
Message:

Support added for producing whitelist word count

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/SolrDocJSON.java

    r31007 r31176  
    88import java.net.HttpURLConnection; 
    99import java.net.URL; 
     10import java.util.ArrayList; 
    1011import java.util.Iterator; 
    1112 
     
    123124    } 
    124125 
     126    protected static ArrayList<String> generateTokenPostCountText(String volume_id, String page_id, JSONObject ef_page)  
     127    { 
     128        ArrayList<String> word_list = new ArrayList<String>(); 
     129         
     130        if (ef_page != null) { 
     131            JSONObject ef_body = ef_page.getJSONObject("body"); 
     132            if (ef_body != null) { 
     133                JSONObject ef_token_pos_count = ef_body.getJSONObject("tokenPosCount"); 
     134                if (ef_token_pos_count != null) { 
     135     
     136                    Iterator<String> token_iter = ef_token_pos_count.keys(); 
     137                    while (token_iter.hasNext()) { 
     138                        String token = token_iter.next(); 
     139                        word_list.add(token); 
     140                    }                
     141                } 
     142                else { 
     143                    System.err.println("Warning: empty tokenPosCount field for '" + page_id + "'"); 
     144                } 
     145            } 
     146            else { 
     147                System.err.println("Warning: empty body field for '" + page_id + "'"); 
     148            } 
     149 
     150        } 
     151        else { 
     152            System.err.println("Warning: null page for '" + page_id + "'"); 
     153        } 
     154         
     155        return word_list; 
     156    } 
     157     
    125158    public static void saveSolrDoc(JSONObject solr_add_doc_json, String output_file_json_bz2) 
    126159    {