Ignore:
Timestamp:
2016-10-29T16:17:22+13:00 (7 years ago)
Author:
davidb
Message:

Changed to run main processing method as action rather than transform. Done to help accumulator add

File:
1 edited

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/solr-extracted-features/trunk/src/main/java/org/hathitrust/PagedJSON.java

    r30984 r30985  
    1414import org.apache.commons.compress.compressors.CompressorException;
    1515import org.apache.spark.api.java.function.FlatMapFunction;
     16import org.apache.spark.api.java.function.VoidFunction;
    1617import org.apache.spark.util.DoubleAccumulator;
    1718import org.json.JSONArray;
     
    2829
    2930
    30 class PagedJSON implements FlatMapFunction<String, String>
     31//class PagedJSON implements FlatMapFunction<String, String>
     32class PagedJSON implements VoidFunction<String>
    3133{
    3234    private static final long serialVersionUID = 1L;
     
    226228            String decodedString;
    227229            while ((decodedString = in.readLine()) != null) {
    228                 //System.out.println(decodedString);
    229230                sb.append(decodedString);
    230231            }
     
    252253       
    253254    }
    254     public Iterator<String> call(String json_file_in)
     255   
     256    //public Iterator<String> call(String json_file_in)
     257    public void call(String json_file_in)
    255258    {
    256259        JSONObject extracted_feature_record = readJSONFile(json_file_in);
     
    305308                    System.out.println("Sample output Solr add JSON [page 20]: " + solr_add_doc_json.toString());
    306309                    System.out.println("==================");
    307                     //System.out.println("Sample text [page 20]: " + solr_add_doc_json.getString("_text_"));
    308310                }
    309311               
    310                 // create JSON obj of just the page (for now), and write it out
    311                 // write out the JSONOBject as a bz2 compressed file
    312                 /*
    313                 try {
    314                     BufferedWriter bw = ClusterFileIO.getBufferedWriterForCompressedFile(_output_dir + "/" + output_json_bz2);
    315                     bw.write(ef_page.toString());
    316                     bw.close();
    317                 } catch (IOException e) {
    318                     e.printStackTrace();
    319                 } catch (CompressorException e) {
    320                     e.printStackTrace();
    321                 }
    322                 */
    323312                           
    324313                if (_solr_url != null) {
     
    346335        }
    347336       
    348         /*
    349         for (int i = 0; i < ef_num_pages; i++)
    350         {
    351             //String post_id = ef_pages.getJSONObject(i).getString("post_id");
    352             //......
    353         }
    354         */
    355         //String pageName = json_obj.getJSONObject("pageInfo").getString("pageName");
    356 /*
    357         JSONArray arr = obj.getJSONArray("posts");
    358         for (int i = 0; i < arr.length(); i++)
    359         {
    360             String post_id = arr.getJSONObject(i).getString("post_id");
    361             ......
    362         }
    363 */
    364        
    365337       
    366338        ids.add(volume_id);
    367339        _progress_accum.add(_progress_step);
    368         return ids.iterator();
     340       
     341        //return ids.iterator();
    369342    }
    370343}
Note: See TracChangeset for help on using the changeset viewer.