Changeset 31244 for other-projects

Show
Ignore:
Timestamp:
18.12.2016 16:57:05 (2 years ago)
Author:
davidb
Message:

Tidy up

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/SolrDocJSON.java

    r31243 r31244  
    1616import org.apache.commons.compress.compressors.CompressorException; 
    1717import org.json.JSONObject; 
     18import org.apache.lucene.analysis.TokenStream; 
    1819import org.apache.lucene.analysis.Tokenizer; 
    1920import org.apache.lucene.analysis.icu.segmentation.ICUTokenizer; 
     
    4041                    tokenizer.setReader(reader); 
    4142                         
    42                     //TokenStream tokenStream = analyzer.tokenStream(fieldName, reader); 
    43                     //OffsetAttribute offsetAttribute = tokenizer.addAttribute(OffsetAttribute.class); 
    4443                    CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class); 
    4544 
     
    4847                         
    4948                        while (tokenizer.incrementToken()) { 
    50                             //int startOffset = offsetAttribute.startOffset(); 
    51                             //int endOffset = offsetAttribute.endOffset(); 
    5249                            String term = charTermAttribute.toString(); 
    5350                            tokens.add(term); 
    5451                        } 
    5552                         
     53                        tokenizer.end(); 
    5654                        tokenizer.close(); 
    5755                    }  
     
    107105            } 
    108106    */ 
    109              
    110              
    111107             
    112108           return sb.toString();