Context Navigation

← Previous Changeset
Next Changeset →

Changeset 28392

Timestamp:

2013-10-13T23:35:33+13:00 (11 years ago)

Author:

davidb

Message:

Simple version that looks for a hardwired title as metadata

Location:

gs2-extensions/apache-jena/trunk/src/perllib

Files:

: 2 edited

jenaTDBBuilder.pm (modified) (1 diff)
jenaTDBBuildproc.pm (modified) (3 diffs)

Legend:

: Unmodified
: Added
: Removed

gs2-extensions/apache-jena/trunk/src/perllib/jenaTDBBuilder.pm

r28391	r28392
28	28
29	29	use strict;
30		##no strict 'refs'; # allow filehandles to be variables and viceversa
	30	no strict 'refs'; # allow filehandles to be variables and viceversa
31	31
32	32	use extrabuilder;

gs2-extensions/apache-jena/trunk/src/perllib/jenaTDBBuildproc.pm

-              r28391
+              r28392
 use strict;
 #no strict 'refs'; # allow filehandles to be variables and viceversa
+no strict 'refs'; # allow filehandles to be variables and viceversa
 use util;
 …
 sub textedit {
+    my $self = shift (@_);
+    my ($doc_obj) = @_;
+    my $handle = $self->{'output_handle'};
+    my $doc_oid = $doc_obj->get_OID();
+    my $doc_section = 0; # just for this document
+    my $text = "";
+    my $text_extra = "";
+    # get the text for this document
+    my $section = $doc_obj->get_top_section();
+    while (defined $section) {
+    # update a few statistics
+    $doc_section++;
+    my $title = $doc_obj->get_metadata_element($section, "Title");
+    if (defined $title && ($title =~ m/\S/)) {
+        print "$doc_oid: Title = $title\n";
+    }
+    my $dc_title = $doc_obj->get_metadata_element($section, "dc.Title");
+    if (defined $dc_title && ($dc_title =~ m/\S/)) {
+        print "$doc_oid: dc.Title = $dc_title\n";
+    }
+    my $id3_title = $doc_obj->get_metadata_element($section, "ex.ID3.Title");
+    if (defined $id3_title && ($id3_title =~ m/\S/)) {
+        print "$doc_oid: id3.Title = $id3_title\n";
+    }
+    $section = $doc_obj->get_next_section($section);
+    }
+    print $handle "$text$text_extra";
+}
+sub texteditADB {
     my $self = shift (@_);
     my ($doc_obj,$file,$mode) = @_;
 …
-sub MGtext {
-    my $self = shift (@_);
-    my ($doc_obj) = @_;
-    my $handle = $self->{'output_handle'};
-    # only output this document if it is one to be indexed
-    return if ($doc_obj->get_doc_type() ne "indexed_doc");
-    # see if this document belongs to this subcollection
-    my $indexed_doc = $self->is_subcollection_doc($doc_obj);
-    # this is another document
-    $self->{'num_docs'} += 1;
-    # get the parameters for the output
-    my ($level, $fields) = split (/:/, $self->{'index'});
-    $fields =~ s/\ball\b/Title,Creator,text/;
-    $fields =~ s/\btopall\b/topTitle,topCreator,toptext/;
-    my $doc_section = 0; # just for this document
-    my $text = "";
-    my $text_extra = "";
-    # get the text for this document
-    my $section = $doc_obj->get_top_section();
-    while (defined $section) {
-    # update a few statistics
-    $doc_section++;
-    $self->{'num_sections'} += 1;
-    my $indexed_section = $doc_obj->get_metadata_element($section, "gsdldoctype") || "indexed_section";
-    if (($indexed_doc) && ($indexed_section eq "indexed_section" || $indexed_section eq "indexed_doc")) {
-        $self->{'num_bytes'} += $doc_obj->get_text_length ($section);
-        foreach my $field (split (/,/, $fields)) {
-        # only deal with this field if it doesn't start with top or
-        # this is the first section
-        my $real_field = $field;
-        if (!($real_field =~ s/^top//) || ($doc_section == 1)) {
-            my $new_text = "";
-            if ($level eq "dummy") {
-            # a dummy index is a special case used when no
-            # indexes are specified (since there must always be
-            # at least one index or we can't retrieve the
-            # compressed text) - we add a small amount of text
-            # to these dummy indexes which will never be seen
-            # but will overcome mg's problems with building
-            # empty indexes
-            $new_text = "this is dummy text to stop mg barfing";
-            $self->{'num_processed_bytes'} += length ($new_text);
-            } elsif ($real_field eq "text") {
-            $new_text = $doc_obj->get_text ($section) if $self->{'store_text'};
-            $self->{'num_processed_bytes'} += length ($new_text);
-            $new_text =~ s/[\cB\cC]//g;
-            $self->find_paragraphs($new_text);
-            } else {
-            my $first = 1;
-            $real_field =~ s/^ex\.([^.]+)$/$1/; # remove ex. namespace iff it's the only namespace prefix (will leave ex.dc.* intact)
-            my @section_metadata = @{$doc_obj->get_metadata ($section, $real_field)};
-            if ($level eq "section" && $section ne $doc_obj->get_top_section() && $self->{'indexing_text'} && defined ($self->{'sections_index_document_metadata'})) {
-                if ($self->{'sections_index_document_metadata'} eq "always" || ( scalar(@section_metadata) == 0 && $self->{'sections_index_document_metadata'} eq "unless_section_metadata_exists")) {
-                push (@section_metadata, @{$doc_obj->get_metadata ($doc_obj->get_top_section(), $real_field)});
+                }
+            }
-            foreach my $meta (@section_metadata) {
-                $meta =~ s/[\cB\cC]//g;
-                $self->{'num_processed_bytes'} += length ($meta);
-                $new_text .= "\cC" unless $first;
-                $new_text .= $meta if $self->{'store_text'};
-                $first = 0;
+            }
+            }
-            # filter the text
-            $new_text = $self->filter_text ($field, $new_text);
-            $text .= "$new_text\cC";
+        }
+        }
+    }
-    if ($level eq "document") { $text_extra .= "\cB"; }
-    else { $text .= "\cB"; }
-    $section = $doc_obj->get_next_section($section);
+    }
-    print $handle "$text$text_extra";
+}
 ;

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 28392

Legend:

gs2-extensions/apache-jena/trunk/src/perllib/jenaTDBBuilder.pm

gs2-extensions/apache-jena/trunk/src/perllib/jenaTDBBuildproc.pm

Download in other formats: