Changeset 31368


Ignore:
Timestamp:
01/30/17 10:02:27 (4 years ago)
Author:
davidb
Message:

downsample-100 added

File:
1 edited

Legend:

Unmodified
Added
Removed
  • other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/ProcessForCatalogLangCount.java

    r31365 r31368  
    88import org.apache.commons.cli.*;
    99import org.apache.hadoop.io.Text;
     10import org.apache.hadoop.mapred.SequenceFileOutputFormat;
    1011import org.apache.spark.api.java.*;
    1112import org.apache.spark.api.java.function.Function2;
     
    4647    public void execCatalogLangCountSparkDirect()
    4748    {   
    48         SparkConf conf = new SparkConf().setAppName("Spark-Direct + Per Volume: Downsample");
     49        SparkConf conf = new SparkConf().setAppName("Spark-Direct + Per Volume");
    4950        JavaSparkContext jsc = new JavaSparkContext(conf);
    5051       
     
    108109    }
    109110
    110     public void sampleDown()
    111     {
    112         String spark_app_name = generateSparkAppName("Spark Cluster + Per Volume");     
     111    public void sampleDown10000()
     112    {
     113        String spark_app_name = generateSparkAppName("Spark Cluster + Per Volume: Downsample 10000");       
    113114       
    114115        SparkConf conf = new SparkConf().setAppName(spark_app_name);
     
    126127       
    127128       
    128        
     129        jsc.close();
     130    }
     131   
     132    public void sampleDown100()
     133    {
     134        String spark_app_name = generateSparkAppName("Spark Cluster + Per Volume: Downsample 100");     
     135       
     136        SparkConf conf = new SparkConf().setAppName(spark_app_name);
     137        JavaSparkContext jsc = new JavaSparkContext(conf);
     138        jsc.hadoopConfiguration().set("io.compression.codec.bzip2.library", "java-builtin");
     139       
     140        String packed_sequence_path = "hdfs:///user/capitanu/data/packed-ef";
     141
     142        JavaPairRDD<Text, Text> input_pair_rdd = jsc.sequenceFile(packed_sequence_path, Text.class, Text.class);
     143
     144        JavaPairRDD<Text, Text> json_text_sample_rdd = input_pair_rdd.sample(false,0.01,42);
     145       
     146        JavaPairRDD<Text, Text> json_text_sample_repart_rdd = json_text_sample_rdd.repartition(120);
     147       
     148        String output_directory = "packed-full-ef-100";
     149        //json_text_sample_repart_rdd.saveAsTextFile(output_directory);
     150        //json_text_sample_repart_rdd.saveAsSequenceFile(output_directory);
     151        json_text_sample_repart_rdd.saveAsHadoopFile(output_directory, Text.class, Text.class, SequenceFileOutputFormat.class);
     152       
     153       
     154        jsc.close();
    129155    }
    130156    public void execCatalogLangCount()
     
    255281       
    256282        //prep_for_lang.execCatalogLangCount();
    257         prep_for_lang.sampleDown();
     283        prep_for_lang.sampleDown100();
    258284   
    259285    }
Note: See TracChangeset for help on using the changeset viewer.