Changeset 31368

Show
Ignore:
Timestamp:
30.01.2017 10:02:27 (3 years ago)
Author:
davidb
Message:

downsample-100 added

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForCatalogLangCount.java

    r31365 r31368  
    88import org.apache.commons.cli.*; 
    99import org.apache.hadoop.io.Text; 
     10import org.apache.hadoop.mapred.SequenceFileOutputFormat; 
    1011import org.apache.spark.api.java.*; 
    1112import org.apache.spark.api.java.function.Function2; 
     
    4647    public void execCatalogLangCountSparkDirect() 
    4748    {    
    48         SparkConf conf = new SparkConf().setAppName("Spark-Direct + Per Volume: Downsample"); 
     49        SparkConf conf = new SparkConf().setAppName("Spark-Direct + Per Volume"); 
    4950        JavaSparkContext jsc = new JavaSparkContext(conf); 
    5051         
     
    108109    } 
    109110 
    110     public void sampleDown() 
    111     { 
    112         String spark_app_name = generateSparkAppName("Spark Cluster + Per Volume");      
     111    public void sampleDown10000() 
     112    { 
     113        String spark_app_name = generateSparkAppName("Spark Cluster + Per Volume: Downsample 10000");        
    113114         
    114115        SparkConf conf = new SparkConf().setAppName(spark_app_name); 
     
    126127         
    127128         
    128          
     129        jsc.close(); 
     130    } 
     131     
     132    public void sampleDown100() 
     133    { 
     134        String spark_app_name = generateSparkAppName("Spark Cluster + Per Volume: Downsample 100");      
     135         
     136        SparkConf conf = new SparkConf().setAppName(spark_app_name); 
     137        JavaSparkContext jsc = new JavaSparkContext(conf); 
     138        jsc.hadoopConfiguration().set("io.compression.codec.bzip2.library", "java-builtin"); 
     139         
     140        String packed_sequence_path = "hdfs:///user/capitanu/data/packed-ef"; 
     141 
     142        JavaPairRDD<Text, Text> input_pair_rdd = jsc.sequenceFile(packed_sequence_path, Text.class, Text.class); 
     143 
     144        JavaPairRDD<Text, Text> json_text_sample_rdd = input_pair_rdd.sample(false,0.01,42); 
     145         
     146        JavaPairRDD<Text, Text> json_text_sample_repart_rdd = json_text_sample_rdd.repartition(120); 
     147         
     148        String output_directory = "packed-full-ef-100"; 
     149        //json_text_sample_repart_rdd.saveAsTextFile(output_directory); 
     150        //json_text_sample_repart_rdd.saveAsSequenceFile(output_directory); 
     151        json_text_sample_repart_rdd.saveAsHadoopFile(output_directory, Text.class, Text.class, SequenceFileOutputFormat.class); 
     152         
     153         
     154        jsc.close(); 
    129155    } 
    130156    public void execCatalogLangCount() 
     
    255281         
    256282        //prep_for_lang.execCatalogLangCount(); 
    257         prep_for_lang.sampleDown(); 
     283        prep_for_lang.sampleDown100(); 
    258284     
    259285    }