Context Navigation

← Previous Changeset
Next Changeset →

Changeset 1894

Timestamp:

2001-02-01T17:43:27+13:00 (23 years ago)

Author:

jrm21

Message:

updated by copying BasPlug's new language/encoding stuff over for the read()
stuff.

File:

: 1 edited

trunk/gsdl/perllib/plugins/SplitPlug.pm (modified) (3 diffs)

Legend:

: Unmodified
: Added
: Removed

trunk/gsdl/perllib/plugins/SplitPlug.pm

-              r1676
+              r1894
     $file =~ s/^[\/\\]+//; # $file often begins with / so we'll tidy it up
+    my ($language, $encoding);
+    if ($self->{'input_encoding'} eq "auto") {
+    # use textcat to automatically work out the input encoding and language
+    ($language, $encoding) = $self->get_language_encoding ($filename);
+    } elsif ($self->{'extract_language'}) {
+    # use textcat to get language metadata
+    ($language, $extracted_encoding) = $self->get_language_encoding ($filename);
+    $encoding = $self->{'input_encoding'};
+    if ($extracted_encoding ne $encoding && $self->{'verbosity'}) {
+        print $outhandle "$plugin_name: WARNING: $file was read using $encoding encoding but ";
+        print $outhandle "appears to be encoded as $extracted_encoding.\n";
+    }
+    } else {
+    $language = $self->{'default_language'};
+    $encoding = $self->{'input_encoding'};
+    }
     # Read in file ($text will be in utf8)
     my $text = "";
     $self->read_file ($filename, \$text);
+    $self->read_file ($filename, $encoding, \$text);
     if ($text !~ /\w/) {
 …
     return 0;
+    }
     # Split the text into several smaller segments
     my $split_exp = $self->{'split_exp'};
 …
     # create a new document
     my $doc_obj = new doc ($filename, "indexed_doc");
+    $doc_obj->add_utf8_metadata($doc_obj->get_top_section(), "Language", $language);
+    $doc_obj->add_utf8_metadata($doc_obj->get_top_section(), "Encoding", $encoding);
     # Calculate a "base" document ID.

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 1894

Legend:

trunk/gsdl/perllib/plugins/SplitPlug.pm

Download in other formats: