Ignore:
Timestamp:
2017-01-31T21:35:50+13:00 (7 years ago)
Author:
davidb
Message:

Initial cut at including POS information to solr index

File:
1 edited

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/PerVolumeJSON.java

    r31372 r31375  
    33import java.io.IOException;
    44import java.util.ArrayList;
     5import java.util.HashMap;
    56import java.util.Iterator;
    67
     
    2930    protected String _input_dir;
    3031    protected String _whitelist_filename;
     32    protected String _langmap_directory;
    3133   
    3234    protected String _solr_url;
     
    3638   
    3739    protected WhitelistBloomFilter _whitelist_bloomfilter;
    38    
    39 
    40    
    41      boolean _icu_tokenize;
    42      boolean _strict_file_io;
    43      
    44     public PerVolumeJSON(String input_dir, String whitelist_filename,
     40    protected UniversalPOSLangMap _universal_langmap;
     41
     42    boolean _icu_tokenize;
     43    boolean _strict_file_io;
     44
     45    public PerVolumeJSON(String input_dir, String whitelist_filename, String langmap_directcory,
    4546                         String solr_url, String output_dir, int verbosity,
    4647                         boolean icu_tokenize, boolean strict_file_io)
     
    4849        _input_dir  = input_dir;
    4950        _whitelist_filename = whitelist_filename;
     51        _langmap_directory = langmap_directcory;
    5052       
    5153        _solr_url   = solr_url;
     
    5759       
    5860        _whitelist_bloomfilter = null;
     61        _universal_langmap = null;
    5962    }
    6063   
     
    6669            _whitelist_bloomfilter = new WhitelistBloomFilter(_whitelist_filename,true);
    6770        }
    68 
     71       
     72        if ((_langmap_directory != null) && (_universal_langmap == null)) {
     73            _universal_langmap = new UniversalPOSLangMap(_langmap_directory);
     74        }
    6975        int ef_num_pages = 0;
    7076
     
    107113                        // Convert to Solr add form
    108114                        JSONObject solr_add_doc_json
    109                         = SolrDocJSON.generateSolrDocJSON(volume_id, page_id, ef_page, _whitelist_bloomfilter, _icu_tokenize);
     115                        = SolrDocJSON.generateSolrDocJSON(volume_id, page_id, ef_page, _whitelist_bloomfilter, _universal_langmap, _icu_tokenize);
    110116
    111117
Note: See TracChangeset for help on using the changeset viewer.