Context Navigation

← Previous Change
Next Change →

xls-to-csv.py

Timestamp:

2019-06-22T17:13:38+12:00 (5 years ago)

Author:

davidb

Message:

Bound and Unbound CSV files changed to pring out all non-empty header columns

File:

: 1 edited

main/trunk/model-sites-dev/heritage-nz/collect/pdf-reports/prepare/xls-to-csv.py (modified) (5 diffs)

Legend:

: Unmodified
: Added
: Removed

main/trunk/model-sites-dev/heritage-nz/collect/pdf-reports/prepare/xls-to-csv.py

-              r33191
+              r33202
     # 3. Process the rest of the file, checking if accompanying
     #     PDF file present or not and only printing out the header-names
+    #     specified in 'sanitized_headers'
+    #     as long as it has a non-empty header-name
+##    #     specified in 'sanitized_headers'
     num_rows = worksheet.nrows
 …
         entry_utf8_row = []
+        row_i = 0;
+        for header_name in xlsutil.sanitized_headers:
+            if header_name in header_names_mapping:
+        num_header_cols = worksheet.row_len(xlsutil.header_row_pos)
+        for col_j in range(num_header_cols):
+##        for header_name in xlsutil.sanitized_headers:
+            header_name = worksheet.cell_value(xlsutil.header_row_pos,col_j)
+            if header_name and header_name.strip():
+####                print "*** 2. header_name = " + header_name
                 header_col_j = header_names_mapping[header_name]
+                header_cell_value = worksheet.cell_value(row_i,header_col_j)
+##            if header_name in header_names_mapping:
+##                header_col_j = header_names_mapping[header_name]
+##                header_cell_value = worksheet.cell_value(row_i,header_col_j)
                 if header_cell_value == "Report Identifier":
                     header_cell_value = "hnz.Identifier"
                 if header_cell_value == "Title":
                     header_cell_value = "dc.Title"
                 if header_cell_value == "RelevantTLA's":
                     header_cell_value = "TLA"
                 header_cell_value_utf8 = unicode(header_cell_value).encode("utf-8")
                 metadata_name_utf8 = header_cell_value_utf8.replace(" ", "")
+                if header_name == "Report Identifier":
+                    header_name = "hnz.Identifier"
+                if header_name == "Title":
+                    header_name = "dc.Title"
+                if header_name == "RelevantTLA's":
+                    header_name = "TLA"
+                header_name_utf8 = unicode(header_name).encode("utf-8")
+                metadata_name_utf8 = header_name_utf8.replace(" ", "")
                 entry_utf8_row.append(metadata_name_utf8)
             else:
                 print("Warning: Failed to column mapping in spreadsheet for header name \""+header_name+"\" => skipping")
+##            else:
+##                print("Warning: Failed to column mapping in spreadsheet for header name \""+header_name+"\" => skipping")
         unbound_wr.writerow(entry_utf8_row)
 …
         # 3. Process the rest of the file (metadata values) ...
         row_i = row_i + 1
+        row_i = xlsutil.header_row_pos + 1
         while row_i<num_rows:
             num_cols = worksheet.row_len(row_i)
 …
             found_pdf = False
+#            for col_j in range(num_cols):
+            for header_name in xlsutil.sanitized_headers:
+                if header_name in header_names_mapping:
+            for col_j in range(num_cols):
+##            for header_name in xlsutil.sanitized_headers:
+                header_name = worksheet.cell_value(xlsutil.header_row_pos,col_j)
+                if header_name and header_name.strip():
                     col_j = header_names_mapping[header_name]
+##                if header_name in header_names_mapping:
+##                    col_j = header_names_mapping[header_name]
                     cell_value = worksheet.cell_value(row_i,col_j)
 …
                     formatted_utf8_row.append(formatted_cell_value_utf8)
                 else:
                     print "Warning: No column number mapping for header name \""+header_name+"\" => skipping"
+##                else:
+##                    print "Warning: No column number mapping for header name \""+header_name+"\" => skipping"
             if found_pdf:

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 33202 for main/trunk/model-sites-dev/heritage-nz/collect/pdf-reports/prepare/xls-to-csv.py

Legend:

main/trunk/model-sites-dev/heritage-nz/collect/pdf-reports/prepare/xls-to-csv.py

Download in other formats: