Context Navigation

Changeset 33496

Timestamp:

2019-09-22T19:23:28+12:00 (5 years ago)

Author:

ak19

Message:

Minor changes to reading list file

File:

-              r33467
+              r33496
+ANOTHER WAY (DR BAINBRIDGE'S WAY) TO CREATE SINGLE .CSV FILE FROM /part* FILES AND VIEW ITS CONTENTS:
 vagrant@node1:~/cc-index-table$ hdfs dfs -cat hdfs:///user/vagrant/cc-mri-csv/part* > file.csv.gz
 vagrant@node1:~/cc-index-table$ less file.csv.gz
 …
 vagrant@node1:~/cc-index-table$ hdfs dfs -cat hdfs:///user/vagrant/cc-mri-unzipped-csv/cc-mri.csv | wc -l
+For a month later, the August 2019 crawl:
+vagrant@node1:~$ hdfs dfs -cat hdfs:///user/vagrant/CC-MAIN-2019-35/cc-mri-unzipped-csv/cc-mri.csv | wc -l
 -----------------------------------------

Note: See TracChangeset for help on using the changeset viewer.